瘋了瘋了,大語(yǔ)言模型又迎來(lái)一位參賽選手,它便是阿里巴巴版本的 GPT —— 通義千問(wèn)。 說(shuō)實(shí)話(huà),在大伙們的印象中,AI 可能并不是阿里的第一金字招牌。 但其實(shí)根據(jù)差評(píng)君所知,最近幾年阿里攢了不少狠貨,不管是平頭哥的 AI 芯片、阿里云的 AI 云服務(wù),還是達(dá)摩院的 AI 算法,他們還創(chuàng)建了國(guó)內(nèi)最大的 AI 模型服務(wù)社區(qū) “ 魔搭 ”。。。 這么來(lái)看,阿里在人工智能領(lǐng)域,其實(shí)還是有不少底子的,甚至可以說(shuō)是個(gè)有軟有硬的全能選手。 所以在百度之后,阿里成為第二個(gè)拿出大模型的選手,也就不足為奇了。 再加上,一直有消息說(shuō)阿里曾研發(fā)出世界首個(gè)突破 10 萬(wàn)億參數(shù)的 AI 大模型。。。emmmm 所以差評(píng)君也是擼著火鍋、嗑著瓜子,隨時(shí)準(zhǔn)備見(jiàn)識(shí)一下阿里大模型的斤兩。 這不,機(jī)會(huì)就來(lái)了!在阿里 GPT 出現(xiàn)的第一時(shí)間,差評(píng)君還真想法子整到了通義千問(wèn)的測(cè)試賬號(hào)。 咱廢話(huà)也不多說(shuō)了,為此,我們特邀了兩位“ 差評(píng) AI 友誼賽 ”老朋友 ChatGPT 和文心一言。 接下來(lái)就是真正的考驗(yàn)時(shí)刻了! 在差評(píng)君這篇文章發(fā)布之前,我們另一個(gè)賬號(hào)“ 知危 ”已經(jīng)對(duì)其做了很多常規(guī)測(cè)試,感興趣的差友們可以去那篇文章看一眼。 這里呢,咱再給上幾道不一樣的題目。。。 語(yǔ)義理解方面,我們直接上難度,做一下高考級(jí)別的詩(shī)詞鑒賞,選用的是差評(píng)君很喜歡的《 憶秦娥·婁山關(guān) 》。 通義千問(wèn)的賞析非常到位,甚至讓差評(píng)君懷疑是不是網(wǎng)上直接扒來(lái)的,我們還去網(wǎng)上查了重,在此鄭重道歉! 這里要批評(píng) ChatGPT 3.5 又開(kāi)始典型的胡編亂造,居然把這首詞說(shuō)成是王昌齡的《出塞》,而且賞析也是車(chē)轱轆話(huà)。 文心一言的回答也不錯(cuò),大方向?qū)α,可惜評(píng)價(jià)有些表面。我們又試了下喜聞樂(lè)見(jiàn)的寫(xiě)代碼測(cè)試。 讓三個(gè) AI 用 js 生成一個(gè)可以隨著每次點(diǎn)擊改變顏色的按鈕,還有些其它的附加條件。 通義千問(wèn),寫(xiě)了一大堆,但最終沒(méi)能寫(xiě)完整個(gè)代碼,我們嘗試讓它繼續(xù)也沒(méi)能成功。文心一言的結(jié)果也差不了太多,就實(shí)現(xiàn)了個(gè)按鈕。。但是 ChatGPT 非常優(yōu)雅地實(shí)現(xiàn)了這個(gè)功能。 看來(lái)國(guó)內(nèi)的不管是通義還是文心,在代碼這塊都遠(yuǎn)遠(yuǎn)遜色于 ChatGPT。 測(cè)完了代碼我們又嘗試測(cè)了一下 3 個(gè)AI 的數(shù)學(xué)能力,用的還是經(jīng)典問(wèn)題“ 青蛙跳井 ”。 通義千問(wèn)直愣愣地掉進(jìn)了我們挖的坑。ChatGPT 好像識(shí)別了這個(gè)陷阱,但搞混了幾個(gè)數(shù)字,最終還是做錯(cuò)了。而文心一言,簡(jiǎn)潔明了一個(gè)公式就答對(duì)了問(wèn)題?吹竭@里,大家估計(jì)對(duì)通義也有個(gè)大概的了解了。 其實(shí)作為大語(yǔ)言模型的基本特性,非常重要就是學(xué)習(xí)能力,這也是它和搜索引擎?zhèn)兊谋举|(zhì)區(qū)別。簡(jiǎn)單來(lái)說(shuō)就是“ 你能教、它能懂,并且根據(jù)你教的給你想要的 ”。 所以我們?cè)诨緶y(cè)試之上,還設(shè)置了一個(gè)特殊賽:“ 925 測(cè)試 ”。在“ 925 測(cè)試 ”里,我們給了一套自定義標(biāo)簽,在這套標(biāo)簽邏輯里: 正面描述的句子會(huì)被標(biāo)記成“ 925 ”,反面描述的句子會(huì)被標(biāo)記成“ 2359 ”,我們?cè)囍孉I們自己理解學(xué)習(xí)這個(gè)邏輯。 通義千問(wèn)很好地明白了我們的意思,而且還和我們科普了下“ 語(yǔ)碼轉(zhuǎn)換 ”或“ 語(yǔ)碼隱喻 ”。 ChatGPT 也比較輕松就掌握了這種規(guī)律,而且它甚至還試圖從“ 925 ”和“ 2359 ”兩個(gè)數(shù)字里找出我們這么標(biāo)注的原因。 而文心一言就很干脆地?cái)[爛,“ 沒(méi)學(xué)過(guò),我不會(huì) ”。 為了進(jìn)一步檢測(cè)通義千問(wèn)和 ChatGPT 有沒(méi)有真搞懂這個(gè)標(biāo)注方法,我們讓它倆按照學(xué)到的邏輯,給“ 差評(píng)君天天上班渾水摸魚(yú) ”打標(biāo)記,順便再造一個(gè)類(lèi)似的句子。 通義千問(wèn)和 ChatGPT 依舊很好地完成了這個(gè)任務(wù)。 而且,我們還在和通義千問(wèn)的更多對(duì)話(huà)里發(fā)現(xiàn),它在一些詞匯的謹(jǐn)慎度上做得相當(dāng)不錯(cuò)。比如這個(gè)例子里,我們把正面描述定位成“ 丑 ”、負(fù)面描述定義成“ 美 ”。 通義千問(wèn)能理解這個(gè)邏輯,但在隨后的回答里,它依舊遵循了大模型內(nèi)部關(guān)于“ 美 ”“ 丑 ”的標(biāo)準(zhǔn)進(jìn)行評(píng)判。 我們猜測(cè),通義千問(wèn)可能是將大模型內(nèi)部數(shù)據(jù)的權(quán)重,有意地設(shè)為高于用戶(hù)使用時(shí)的調(diào)教,雖然看起來(lái)會(huì)顯得大模型很笨,但在很多場(chǎng)景下,可以避免大量倫理道德方面的問(wèn)題。 所以總的看起來(lái),阿里巴巴的通義千問(wèn)效果還不錯(cuò),基本上能和文心打的有來(lái)有回,偶爾還能超過(guò) GPT-3.5,算是沒(méi)給阿里丟面子。 但就像其它 GPT 們?cè)诔醢鏁r(shí)都有不少小毛病類(lèi)似,我們?cè)谟猛x千問(wèn)時(shí)也發(fā)現(xiàn)了一些其它小問(wèn)題。 目前影響使用的主要是兩點(diǎn):第一個(gè)就是通義千問(wèn)理解錯(cuò)問(wèn)題的概率比另外兩家大。比如“ 張三差點(diǎn)沒(méi)上上上上海的車(chē) ”這題。 當(dāng)時(shí)有兩位編輯部同事都測(cè)了,我們給的是其中一位直接就明白了的版本,可另一位同事測(cè)試時(shí),始終理解成翻譯這句話(huà),怎么掰都掰不回來(lái)。 另外一個(gè)問(wèn)題就是,通義千問(wèn)的上下文關(guān)聯(lián)邏輯有點(diǎn)奇怪。 比如有次測(cè)試時(shí),一開(kāi)始讓它中譯英,翻譯完后已經(jīng)在聊其他事了,可還沒(méi)幾句它好像突然又想到前面我們讓它翻譯,不管你再問(wèn)什么,它就只傻傻地給你翻譯。 好在阿里的工程師已經(jīng)意識(shí)到相關(guān)的問(wèn)題,估計(jì)再來(lái)幾個(gè)版本,他們就會(huì)修復(fù)這個(gè) bug。 但你以為這就完了?AI 界的比賽不允許有平局,差評(píng)君分不出高低還不會(huì)請(qǐng)“ 人 ”當(dāng)裁判嗎? 新比賽我們讓目前在 AI 賽道的領(lǐng)頭羊 GPT-4 出面,讓它決定哪些維度最能衡量模型好壞,該怎么出題、怎么打分都讓它來(lái)。 簡(jiǎn)單說(shuō)就是讓 GPT-4 當(dāng)出卷人、閱卷人,通義千問(wèn)和文心一言當(dāng)考生 (下文大 G 指 GPT-4, 小通指通義千問(wèn),小文指文心一言)。 至于 ChatGPT,由于它作為大 G 的關(guān)系戶(hù),為了保證考試公平公正,直接被紅牌罰出場(chǎng)。不得不說(shuō),大 G 的出題水平還是相當(dāng)高的。 除了測(cè)試的第 6 題,憑空捏造了個(gè)“ 人工智能倫理問(wèn)題的論文 ”外,幾乎找不到什么問(wèn)題。 下面節(jié)選了幾個(gè)有代表性的問(wèn)答: 這題是讓小通和小文用三門(mén)外語(yǔ)分別描述一天的生活。 小通的回答得到了大 G 相當(dāng)高的評(píng)價(jià):語(yǔ)法準(zhǔn)確、風(fēng)格簡(jiǎn)潔、沒(méi)有明顯的錯(cuò)誤,很不錯(cuò)。 而小文由于只給了英語(yǔ)版本的回答,直接就被大 G 判了個(gè)離題,其它幾方面的評(píng)價(jià)也稍微落后點(diǎn)小通。 在這題里,大 G 出題:“請(qǐng)針對(duì)最近五年的全球經(jīng)濟(jì)形勢(shì)進(jìn)行一次簡(jiǎn)要分析。” 看到答案后,大 G 認(rèn)為小通的回答在前三個(gè)方面表現(xiàn)還不錯(cuò),而在分析和預(yù)測(cè)能力上,由于小通沒(méi)有提供具體的數(shù)據(jù)或預(yù)測(cè),使得分析顯得比較籠統(tǒng)。 而且大 G 還貼心地給了小通建議:“ 需要更新一些過(guò)時(shí)的信息和政策 ”。 另一邊,大 G 認(rèn)為小文的回答在時(shí)事認(rèn)識(shí)、經(jīng)濟(jì)知識(shí)和邏輯表達(dá)方面表現(xiàn)一般,而在分析和預(yù)測(cè)能力上,由于缺乏對(duì)全球經(jīng)濟(jì)形勢(shì)波動(dòng)的原因分析,評(píng)價(jià)不高。 同樣,大 G 給出了更新時(shí)效性的建議,還額外讓小文以后要對(duì)事件的原因和趨勢(shì)更深入分析。 這個(gè)題目是讓兩個(gè)考生試著給初學(xué)者解釋量子力學(xué)的基本概念。 大 G 認(rèn)為小通的回答在科學(xué)知識(shí)方面表現(xiàn)不錯(cuò),但只簡(jiǎn)單介紹了幾個(gè)概念,對(duì)稍微深入點(diǎn)的概念解釋不夠,而且沒(méi)能適應(yīng)不同水平受眾。 而大 G 認(rèn)為小文的回答覆蓋了量子力學(xué)的一些重要概念,但它認(rèn)為關(guān)于意識(shí)的描述和量子力學(xué)的關(guān)系并不緊密,容易誤導(dǎo)讀者。 由于小文的回答不僅涉及了量子力學(xué)的一些基本概念,還進(jìn)行了簡(jiǎn)要解釋?zhuān)?G 老師挺滿(mǎn)意。和小通類(lèi)似,這個(gè)回答里的簡(jiǎn)要解釋比較初級(jí),所以在適應(yīng)不同受眾表達(dá)上也欠缺了點(diǎn)。 這個(gè)題目本來(lái)是“ 用詩(shī)歌形式描述一幅名畫(huà) ”,我們直接幫兩個(gè)考生框定了考試范圍:蒙娜麗莎的微笑。 大 G 認(rèn)為小通的創(chuàng)造力、審美力和藝術(shù)欣賞方面都還不錯(cuò),就是文字過(guò)于平淡,需要更豐富的詞匯和修辭手法來(lái)增強(qiáng)詩(shī)歌的表現(xiàn)力。 而大 G 認(rèn)為小文的詩(shī)歌水平相當(dāng)不錯(cuò),很好地表現(xiàn)出自己對(duì)蒙娜麗莎的深刻理解和欣賞。 最終,9 輪戰(zhàn)罷,小通和小文得分幾乎不相上下。 說(shuō)實(shí)在的,雖然在經(jīng)過(guò)了幾波 GPT 們的沖擊,這次通義千問(wèn)還是給我?guī)?lái)了不少驚喜的。 而且,我們簡(jiǎn)單用了一段時(shí)間后也發(fā)現(xiàn),目前通義千問(wèn)的潛力顯然沒(méi)有被挖掘完全。 在很多沒(méi)有展示的測(cè)試?yán),通義千問(wèn)在第一次回答里是錯(cuò)誤的,可如果你多嘗試生成兩次,就能奇妙地發(fā)現(xiàn)它是能回答正確的。 我們猜測(cè)這是它的權(quán)重并沒(méi)有被調(diào)教好,而在關(guān)于正確答案的賦權(quán)上,是個(gè)非?焖倬湍艿碌,一旦不斷迭代量變,很快就能引起質(zhì)變。 所以等后期通義千問(wèn)開(kāi)放使用后,大家一定不要吝嗇點(diǎn)贊反對(duì),這能幫助 GPT 們更快地進(jìn)化,更好地服務(wù)大眾。 而在 AI 大模型的落地上,阿里似乎有種后發(fā)先至的勢(shì)頭。 不少差友們可能已經(jīng)看到了,前幾天,我們已經(jīng)評(píng)測(cè)過(guò)通義千問(wèn)輕量版在天貓精靈上的演示應(yīng)用,雖然是一個(gè)定制化輕量版,但可能是因?yàn)槎嗔寺?lián)網(wǎng),兩者使用起來(lái)幾乎一樣。 更強(qiáng)的是例如我讓它推薦杭州的美食,它不僅和我認(rèn)真地聊了起來(lái),甚至還真的想要幫我去訂一個(gè)外賣(mài)。。。 這么看起來(lái),我?guī)缀跻呀?jīng)能看見(jiàn)通義千問(wèn)重塑我們生活的樣子了。 這兩天,通義千問(wèn)背后的負(fù)責(zé)人,阿里云智能CTO周靖人接受采訪(fǎng)時(shí)說(shuō),通義千問(wèn)模型只是“ 一個(gè)中間態(tài) ”,“ 不是起點(diǎn)也不是終點(diǎn),是個(gè)既定路線(xiàn)上的節(jié)點(diǎn)。” 這想象空間就太大了。假如再把格局打開(kāi)一點(diǎn),AI 借助像水電一樣的云計(jì)算,會(huì)不會(huì)把我們想到想不到的行業(yè),都重新升級(jí)一遍呢? 這么看來(lái),前段時(shí)間我們聊過(guò)的組織架構(gòu)大調(diào)整,現(xiàn)在想想,怕不就是為了云服務(wù)和 AI 布局? 站在這個(gè)歷史性的時(shí)刻上,雖然我看不清未來(lái)到底是什么樣子,但我很期待它的到來(lái)。
文章來(lái)源:差評(píng)
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選