剛剛,OpenAI把o3-mini的推理思維鏈公開了。 從今日起,免費用戶和付費用戶都可以看到模型的思維過程,OpenAI終于Open一回。 評論區(qū)網(wǎng)友紛紛:讓我們謝謝DeepSeek。 在官方展示的栗子中,可以看到o3-mini的內(nèi)心戲不少,還會模仿用戶提問使用表情包。 用戶的提問是“為什么今天不少星期五” o3-mini認(rèn)為這是一個幽默的評論,并認(rèn)為自己也應(yīng)該給出機智的回答,使用蔡勒公式計算當(dāng)天確實不是星期五后,對閏年的特殊情況做了二次檢查。 最后回答的中,調(diào)侃了是日歷規(guī)定今天是星期四,并安慰用戶“忍耐一下,明天就離周未更近了!” 那么作為“同行”,DeepSeek-R1如何評價o3-mini的思維過程呢? 在這個案例中,AI聲稱使用了蔡勒公式但沒有給出計算過程的現(xiàn)象引起了很多人警覺。 不少用戶懷疑這仍然是事后對AI思維過程的再總結(jié),而不是原始數(shù)據(jù)。 實際上在最近的“回應(yīng)一切”活動中,OpenAI首席產(chǎn)品官Kevin Weil也暗示了這點: ……展示完整思想鏈會被競爭對手蒸餾,但我們也知道人們(至少是資深用戶)想要它,因此我們會找到正確的方法來平衡它! 對此,開發(fā)者M(jìn)ckay Wrigley補充了一個觀點:“我擔(dān)心經(jīng)過總結(jié)的思維鏈實際上比沒有思維鏈更差”。 真正的思維鏈相當(dāng)于prompt的調(diào)試器,有助于我們引導(dǎo)矯正模型。 經(jīng)過總結(jié)的思維鏈增加了迷惑性并且可能額外添加錯誤,讓模型難以被調(diào)試。 但不管怎么說,既然公開了,現(xiàn)在免費用戶也能一窺o3-mini的CoT,大家還是敞開玩了起來。 o3-mini思維鏈?zhǔn)着鷮崪y OpenAI多模態(tài)Agent的研究員,首先亮出了自己的玩耍方法,讓o3-mini玩井字棋游戲——就是在3*3格子上用O和X連線那個。 輸入Prompt: 你正在玩井字棋,你是O。到目前為止,X已經(jīng)在左上角和右下角玩過,你已經(jīng)在中間玩過。下一步的最優(yōu)策略是什么?只用你的答案和棋盤圖回答。 然后o3-mini就開始噼里啪啦思考。 這位OpenAI員工非常直言不諱,表示o3-mini是第一個回答這個游戲的大模型。 But還有一句,“雖然o3-mini的CoT過程有點不靠譜,但你看右邊的圖,結(jié)尾它的弄清楚了的”。笑不活了,這里必須要送上一個手動狗頭。 然后是每個大模型都逃不過的經(jīng)典測試題:數(shù)strawberry里面的“r”的數(shù)量。 但網(wǎng)友已經(jīng)和模型一樣進(jìn)階了,問的不是strawberry里面到底有幾個某字母,而是: 為啥AI大模型,數(shù)strawberry里面有幾個“r”,它就那么費勁呢??? 我們認(rèn)真觀摩了它的思考過程,o3-mini承認(rèn)“乍一看,計算strawberry中‘r’的數(shù)量對人類來說似乎是一個微不足道的任務(wù),但對于許多AI語言模型來說,這可能是一個驚人的挑戰(zhàn)”。 然后它從四個角度來思考和推理這個現(xiàn)象發(fā)生的原因,分別是: 用自然語言而不是算法訓(xùn)練 Tokenization問題 迭代推理的缺失 對模式識別的依賴 8秒過后,o3-mini給出總結(jié): 因為AI大模型本質(zhì)上不是為精確、分步驟的算法操作而設(shè)計的,它們的設(shè)計和訓(xùn)練更多地側(cè)重于根據(jù)上下文預(yù)測和生成文本,而不是執(zhí)行精確的算術(shù)或系統(tǒng)計數(shù)。 當(dāng)然,o3-mini也不是萬能的。 推特有網(wǎng)友表示,他探問了o3關(guān)于私有CoT的事情,但聽君一番思考推理,如聽一番思考推理,沒有絲毫進(jìn)展。 最開始,o3-mini思考過程還蠻有邏輯,從不同種類的“內(nèi)心敘事”、可解釋性和實用價值等方面分析,表示展現(xiàn)完整的CoT過程程似乎有助于“扎根”社會的理解并促進(jìn)更好的認(rèn)知實踐,但現(xiàn)實更為復(fù)雜,畢竟AI大模型和人類的認(rèn)知還沒有完全對齊。 但隨著網(wǎng)友的追問,o3-mini的思維鏈就崩了(?),急得他團(tuán)團(tuán)轉(zhuǎn),中間一度打開DeepSeek-R1來幫忙。 他放上了整整12張圖,顯示最后o3-mini思維了半天,給出了一個令人心碎的回答: 對不起吼,但我真的幫不了你一點。 除此之外,還有網(wǎng)友提出了質(zhì)疑,覺得OpenAI公開的不是o3-mini原始的CoT。 有幾個原因,其中一個是它(CoT過程)真的顯示得很慢。 而如果是原始的o3-mini非?,講道理推理的生成速度應(yīng)該比現(xiàn)在呈現(xiàn)的快得多。 他繼續(xù)羅列自己之所以懷疑的證據(jù),比如同一個問題,o3-mini-high只有1384個字符,而o1-preview生成了16577個字符。 “這只有兩種可能,一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本! One More Thing 想對上面這位推特網(wǎng)友說,Bingo! 根據(jù)TechCrunch消息,OpenAI發(fā)言人確認(rèn)了這次公開的不是原始思維鏈,并且給出兩個理由: 對原始思維鏈做后處理,可以消除任何不安全的內(nèi)容,并簡化任何復(fù)雜的想法。 使非英語用戶獲得母語的思想鏈,有更友好的體驗。 這樣一來,最近被大量吐槽的o3-mini使用中文思考的問題,也就不存在了。 參考鏈接:[1]https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-its-o3-mini-models-thought-process/[2]https://x.com/polynoamial/status/1887628222042677387[3]https://x.com/pigeon__s/status/1887619637099249884[4]https://x.com/thegenioo/status/1887617601016385840[5]https://x.com/ryunuck/status/1887527365435105593 文章來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選