OpenAI十二天直播,殺瘋了的竟然是谷歌。 就在深夜,「谷歌版o1」Gemini 2.0 Flash Thinking突然發(fā)布。 跟o1的策略類(lèi)似,它同樣是將更多計(jì)算能力投入「推理時(shí)計(jì)算」——即模型實(shí)際解決問(wèn)題的時(shí)長(zhǎng)。 但不一樣的是,F(xiàn)lash Thinking能清晰地展示思考過(guò)程。 一經(jīng)發(fā)布,它就直接屠榜Chatbot Arena。 從戰(zhàn)績(jī)來(lái)看,新模型在總榜位列第一,數(shù)學(xué)榜單第一,創(chuàng)意寫(xiě)作第一,Hard Promt第一,視覺(jué)榜單第一! 舉一個(gè)比較復(fù)雜的概率問(wèn)題的例子。 如果一直擲硬幣,直到得到「正正正」或「正反正」,得到其中一個(gè)的幾率和另一個(gè)的幾率之比是多少? 這種水平的概率題,絕大多數(shù)LLM都會(huì)折戟。 但模型展示出了詳細(xì)完備的思考過(guò)程,并行云流水般地在34.7秒內(nèi)就給出了最終答案——2:3。 現(xiàn)在,Gemini 2.0 Flash Thinking已經(jīng)在Google AI Studio和Vertex AI中上線了,開(kāi)發(fā)者可以去免費(fèi)測(cè)試。 對(duì)此,網(wǎng)友紛紛表示,明明是OpenAI的圣誕特別活動(dòng),怎么發(fā)出炸裂成果的全是谷歌? 現(xiàn)在都是谷歌每天欺負(fù)OpenAI 谷歌版o1徹底殺瘋了,全是第一 在LLM競(jìng)技場(chǎng)上,Gemini 2.0 Flash Thinking連同Gemini-Exp-1206一起,「橫掃所有類(lèi)別,榮登榜首」。 無(wú)論是復(fù)雜提示、代碼、數(shù)學(xué)、創(chuàng)意寫(xiě)作、指令跟隨、長(zhǎng)QA等等。 不過(guò),這些排名并未包含OpenAI的完整o1模型。 但無(wú)論如何,F(xiàn)lash Thinking打了相當(dāng)漂亮的一仗。 這個(gè)模型,大概率就是谷歌對(duì)打OpenAI o1系列的武器,而且,它很可能不是最強(qiáng)版本,或許還有Pro或Ultra Thinking的存在。 據(jù)外媒THE DECODER報(bào)道,F(xiàn)lash Thinking似乎是著名AI研究員Noam Shazeer進(jìn)入谷歌后的首個(gè)工作成果。 Shazeer是著名論文「Attention is All You Need」的作者之一 在80百分位的情況下,F(xiàn)lash Thinking的響應(yīng)速度幾乎是o1-mini的2倍! 比如下面這道題,OpenAI的o1和o1 Pro分別用了102秒和138秒,而Gemini 2.0 Flash Thinking只花了14秒。 一舉沖頂成為最強(qiáng)理科生,最難高考題也不在話下 有人嘗試把號(hào)稱(chēng)「史上最難」的高考數(shù)學(xué)題扔給Flash Thinking,它居然也給出了準(zhǔn)確的回答。 這種表現(xiàn),震驚了所有網(wǎng)友。 要知道,這道題連o1都做不出來(lái)。 而且更為厲害的是,這道題是中文題。 能做出數(shù)學(xué)高考題的含金量,不用詳細(xì)解釋了。 畢竟,中國(guó)的高考可是被Erudera評(píng)為地球上最難的考試。 而在Chatbot Arena的數(shù)學(xué)領(lǐng)域中,F(xiàn)lash Thinking對(duì)比Flash同樣也有著顯著性進(jìn)步。 在物理方面,F(xiàn)lash Thinking展示了是如何解決一道物理題并闡明其推理過(guò)程。 演示中的題目為:一個(gè)電子被限制在一個(gè)一維無(wú)限深勢(shì)阱中,勢(shì)阱壁位于x=- 0.15nm和x=+0.15nm處。求出電子在勢(shì)阱中能級(jí)躍遷時(shí)發(fā)射的四種最長(zhǎng)波長(zhǎng)的光子。 Flash Thinking首先會(huì)將問(wèn)題本身復(fù)述清晰,接著就開(kāi)始進(jìn)行逐步思考問(wèn)題的求解步驟。 經(jīng)過(guò)16.9s的計(jì)算分析后,F(xiàn)lash Thinking給出了最終答案,即為98.9nm,59.3nm,42.4nm ,37.1nm。 還展示了Flash Thinking如何處理涉及涉及視覺(jué)和文本線索的挑戰(zhàn)性難題。 演示中使用者首先上傳了一張有四個(gè)臺(tái)球的圖片,并提問(wèn)道「我能怎么使用這其中的三個(gè)數(shù)字使其總和為30?」 在這個(gè)演示中,有一個(gè)很有趣的地方就在于中間第二個(gè)臺(tái)球既可以識(shí)別為9,也可以顛倒一下,識(shí)別為6。 Flash Thinking在首次嘗試中先是將其識(shí)別為正常觀察的9,但是發(fā)現(xiàn)并不能實(shí)現(xiàn)問(wèn)題的求解。 于是,他很聰明的做出了一個(gè)判斷:「在題目中并沒(méi)有清楚的說(shuō)明每個(gè)數(shù)字只能出現(xiàn)一次」。 于是它開(kāi)始嘗試將數(shù)字進(jìn)行重復(fù)利用,但是還是無(wú)法實(shí)現(xiàn)問(wèn)題的求解。 接著,有趣的地方便來(lái)了,它出奇地想到了可以把9識(shí)別為顛倒的6,這說(shuō)明它成功地察覺(jué)到了這不僅僅只是一個(gè)數(shù)字游戲,而是實(shí)際上可以翻滾的臺(tái)球。 最終得到了問(wèn)題的正確答案:利用11、13、6三個(gè)數(shù)字即可實(shí)現(xiàn)總和為30。 整個(gè)思考過(guò)程清清楚楚,一目了然。 從解題過(guò)程中可以看出,Gemini 2.0 Flash Thinking不僅能夠?qū)崿F(xiàn)處理多模態(tài)信息,在求解實(shí)際的問(wèn)題方面,它不再是曾經(jīng)的大模型那種較為機(jī)械死板的智能水平,而是像人一樣能夠?qū)W會(huì)去多視角地變通看待問(wèn)題,最終靈活地得到問(wèn)題的解決方案。 谷歌DeepMind研究者讓Thinking模型嘗試用不同方法,求解普特南2024的一到數(shù)學(xué)題,然后自我驗(yàn)證答案是否正確。 35.9秒內(nèi),模型給出了答案。 網(wǎng)友實(shí)測(cè) 手快的網(wǎng)友們,已經(jīng)紛紛甩給了Gemini 2.0 Flash Thinking一堆難題。 網(wǎng)友們給出的題目,難度都不小。 比如這道數(shù)列問(wèn)題,要求寫(xiě)出一個(gè)數(shù)列的前六個(gè)數(shù)字,其中每個(gè)數(shù)字都是前一個(gè)數(shù)字的三倍,且第一個(gè)數(shù)字是2。 最終,模型給出了正確答案——E。 這位網(wǎng)友實(shí)測(cè)后發(fā)現(xiàn),新模型的推理能力實(shí)在強(qiáng)大,不光破解了單詞網(wǎng)格難題,甚至連復(fù)雜的經(jīng)濟(jì)學(xué)問(wèn)題都做得出來(lái)。 設(shè)想太陽(yáng)能和模塊化核反應(yīng)堆的廣泛應(yīng)用帶來(lái)了巨大的能源供應(yīng),從經(jīng)濟(jì)學(xué)的角度深入思考未來(lái)十年可能出現(xiàn)的經(jīng)濟(jì)變化。請(qǐng)?jiān)敱M地分析可能產(chǎn)生的影響。 模型給出的答案是:通貨膨脹率會(huì)下降,經(jīng)濟(jì)環(huán)境會(huì)發(fā)生重大變化。 結(jié)論:變革的十年如果太陽(yáng)能和模塊化核反應(yīng)堆(SMR)電力的充足性和可負(fù)擔(dān)性得以實(shí)現(xiàn),未來(lái)十年將見(jiàn)證一場(chǎng)深刻的經(jīng)濟(jì)變革。我們可以預(yù)期通貨膨脹率下降,經(jīng)濟(jì)環(huán)境發(fā)生重大變化。 Hallid.ai聯(lián)創(chuàng)indigo給了它一道填數(shù)題,Thinking只需要20秒就做出來(lái)了。 而且給出了正確答案。 相比之下,o1就花了40秒,而且還錯(cuò)了。 不過(guò),不知道是不是測(cè)試版的原因,F(xiàn)lash Thinking能不能數(shù)清楚「草莓」里的r,似乎完全取決于你給了啥prompt…… 相比之下,我們?cè)诒镜嘏艿腝WQ,可以輕松解決這個(gè)問(wèn)題。 參考資料: https://x.com/JeffDean/status/1869789813232341267 https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/ 本文來(lái)源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。