o1 Pro挑戰(zhàn)最難本科數(shù)學(xué)考試,人類要考6小時(shí),AI半小時(shí)交卷! 普特南數(shù)學(xué)競(jìng)賽(The Putnam exam),今年剛剛舉行,卷子新鮮出爐就被拿來測(cè)試AI了。 這個(gè)比賽有多難呢?看了一下歷年成績(jī),只能說令人咂舌—— 通常由數(shù)學(xué)專業(yè)的本科生參加,滿分120分,但平均分通常是0分或1分。 再看一組2003年的數(shù)據(jù),在3615名參賽學(xué)生中,有1024人(28%)得分10分或以上,42分就能進(jìn)入前1%。 最終,個(gè)人得分前五名的學(xué)生獲得普特南學(xué)者稱號(hào)。而經(jīng)過這種難度的“磨煉”,普特南學(xué)者中后來誕生了3位菲爾茲獎(jiǎng)得主以及兩位諾貝爾物理學(xué)獎(jiǎng)得主。 總之一句話,即使對(duì)美國(guó)頂尖大學(xué)的頂尖數(shù)學(xué)學(xué)生來說,這個(gè)比賽的難度都堪稱地獄級(jí)。 所以,o1 Pro具體表現(xiàn)如何呢?? o1 Pro挑戰(zhàn)最難本科數(shù)學(xué)考試 普特南數(shù)學(xué)競(jìng)賽于每年12月的第一個(gè)周六舉行,總共上下兩場(chǎng)(每場(chǎng)3小時(shí)),每場(chǎng)6道題,每題10分,考查范圍覆蓋了本科數(shù)學(xué)中的高級(jí)概念,包括群論、集合論、圖論、格論和數(shù)論等。 由于剛考完,官方還未正式公布今年的參考答案,所以下面我們先整體感受一下。 從時(shí)間來看,Pro完成12道題用時(shí)36分鐘16秒,交卷速度非常快,平均每道用時(shí)2~3分鐘。 完成的題也很復(fù)雜,隨機(jī)挑一道康康。 比如這道A6,需要考生通過序列所生成的函數(shù),來構(gòu)建矩陣,并最終計(jì)算出這個(gè)矩陣的行列式。 這是一個(gè)典型的組合數(shù)學(xué)和線性代數(shù)的交叉問題。 最終,Pro給出了一大堆讓人頭疼的數(shù)學(xué)公式進(jìn)行解答。(非專業(yè)選手兩眼一黑的程度) 為了進(jìn)一步了解Pro的答題過程,我們?cè)偬粢坏谰W(wǎng)友們都在cue的題——A1。 原題及Dan Hendrycks博士輸入的提示詞如下: 大意為,確定所有正整數(shù),使得存在正整數(shù),和滿足下列方程。 Pro的作答過程如下,并得出答案為1: 結(jié)合網(wǎng)友們給出的評(píng)價(jià),均提到Pro漏掉了n=2這種情況。 總之,從大家對(duì)Pro的打分來看,其回答質(zhì)量仍有待進(jìn)一步完善。 由于目前還沒有標(biāo)準(zhǔn)答案,因此AI究竟做對(duì)了多少還要等等結(jié)果。 除此之外,首位全職提示詞工程師Riley Goodside也對(duì)o1 Pro模式進(jìn)行了其他諸多測(cè)試。 挑戰(zhàn)指令跟隨的極限 比如用它設(shè)計(jì)一個(gè)7x7的網(wǎng)格,網(wǎng)格的外圍一圈填入7個(gè)字母的單詞,這些單詞代表Fantastic Four(神奇四俠)中每個(gè)成員的昵稱。每個(gè)單詞的首尾字母需要重疊,以便可以順時(shí)針方向連續(xù)閱讀,形成閉環(huán)。 PS:Fantastic Four包括漫威中的神奇先生(Mr. Fantastic)、隱形女(Invisible Woman)、霹靂火(Human Torch) 、石頭人(The Thing)。 看完這個(gè)測(cè)試,有網(wǎng)友借機(jī)許愿: 是否能夠根據(jù)每個(gè)玩家剩余的棋子列表,創(chuàng)建一個(gè)checkmate(指另一方無法解圍的情況,也稱“將死”)的棋盤。 受此啟發(fā),Riley Goodside轉(zhuǎn)頭就測(cè)上了。 他用Pro擺出了一個(gè)“將軍”格局——每位玩家只剩下兩個(gè)兵和一個(gè)車,棋盤上其他格子都是空的。(布局是人為設(shè)計(jì)的) 就這,還是他一番努力嘗試后的結(jié)果。他一開始用了兩個(gè)兵、兩個(gè)象和一個(gè)車的棋局,但在多次嘗試中,Pro出現(xiàn)了錯(cuò)誤,或者返回了不符合的棋局。 不過他也提到,在5分45秒的時(shí)間內(nèi),Pro生成了與答案大致一致的COT思維鏈解釋。 總之,要問定價(jià)200美元的Pro到底值不值? 還是參考奧特曼的回答,絕大多數(shù)人用免費(fèi)版或20美元版就足夠了,Pro版只適合很小一部分人,他們想要大量使用,且愿意為解決真正困難的問題付更多錢。 One More Thing 不過,如果你也心癢想要玩一玩,現(xiàn)在有個(gè)省錢的方法。根據(jù)網(wǎng)友提醒—— 月底買Pro,只需按比例支付了。 具體來說,如果你之前訂閱了ChatGPT Plus,如果在訂閱接近結(jié)束時(shí)升級(jí)到Pro版,就可以在剩余時(shí)間內(nèi)按照200美元的百分比支付。 參考鏈接: 文本來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。