首頁(yè) > 科技要聞 > 科技> 正文

上手通義千問(wèn)2.0后,我才發(fā)現(xiàn)大模型的天敵是伍佰。

差評(píng) 整合編輯: 黃安莉 發(fā)布于:2023-11-01 16:28

大模型,它又雙叒來(lái)了。

今年上半年,那波大模型 1.0 狂轟濫炸之后。隨著時(shí)間的推移,各家打磨的下一代大模型,最近開(kāi)始慢慢問(wèn)世了。

這不,前兩天文心一言 4.0 才發(fā)。今天云棲大會(huì)上,通義千問(wèn) 2.0 就馬上跟進(jìn),還上了個(gè) APP。

最重要的是,這次通義 2.0 直接開(kāi)放給全社會(huì)體驗(yàn)。點(diǎn)進(jìn)通義千問(wèn),就能直接用上最新版。

這點(diǎn)還是挺有誠(chéng)意,有興趣的差友們,都可以親自上手試試了 ~ 

不過(guò),按照咱們傳統(tǒng),世超還是會(huì)先帶大家簡(jiǎn)單感受一下,全新升級(jí)的 2.0 有啥不同。也方便大家上手時(shí),有個(gè)大致的體驗(yàn)方向。

這回的通義 2.0,說(shuō)是已經(jīng)超過(guò) ChatGPT 3.5,縮短了和 GPT-4 的差距。

但是,世超一上手,就覺(jué)得稍微有點(diǎn)失望,因?yàn)檫@個(gè)2.0 版依舊不支持聯(lián)網(wǎng)。

不過(guò)雖然不具備聯(lián)網(wǎng)能力,但世超試著問(wèn)了一些熱梗。比如 “ 哪李貴了 ”、“ 這是一個(gè) lonely 的問(wèn)題 ”,它居然全都能夠讀懂。

這些回答不靠聯(lián)網(wǎng),純靠手動(dòng)更新數(shù)據(jù)庫(kù)。只能說(shuō),確實(shí)挺努力的。

但不管更新多快,我們都沒(méi)法當(dāng)聯(lián)網(wǎng) AI 測(cè)試了。只能從基本能力入手,分別是語(yǔ)義理解、邏輯、多模態(tài)能力、文本生成、代碼這五個(gè)方面,稍微探探底子咋樣。

首先,依照國(guó)際慣例,來(lái)點(diǎn)喜聞樂(lè)見(jiàn)的弱智吧問(wèn)題。

世超一來(lái)就問(wèn)道,連 GPT-4 都傻眼的題目。

問(wèn):這世上真的有龍,我就在某地被一條龍服務(wù)過(guò)。

上回, GPT-4 就是被這兩條龍給繞暈了,給我編了一堆虛構(gòu)的成語(yǔ)來(lái)歷。

結(jié)果讓人有點(diǎn)意外,通義居然能完美應(yīng)對(duì)。能完全理解兩個(gè)龍的區(qū)別是啥,也能明白 “ 一條龍 ” 服務(wù)是啥意思。

開(kāi)局第一問(wèn),通義這小子應(yīng)對(duì)的還不錯(cuò)。

不過(guò),為了防止通義會(huì)不會(huì)有備而來(lái),偷偷訓(xùn)練了,世超又去弱智吧上了點(diǎn)新貨。

問(wèn):為什么抄襲永遠(yuǎn)都是今人抄襲古人,沒(méi)有古人抄襲今人。

這回通義就有點(diǎn)應(yīng)付不來(lái)了。它結(jié)論是對(duì)的,因?yàn)闀r(shí)間順序,古人當(dāng)然不能抄今人。

但是,仔細(xì)看就會(huì)發(fā)現(xiàn),后面還是說(shuō)錯(cuò)了一句。

它說(shuō),這并不是說(shuō)古人就不會(huì)借鑒今人。估計(jì)通義本來(lái)是想正反面論證,顯得更客觀,結(jié)果就是反而暴露了邏輯馬腳。

其實(shí)世超試過(guò)這么多中文語(yǔ)義題,沒(méi)有哪個(gè)大模型是都能做對(duì)的。

你多問(wèn)幾題,換換角度,總是會(huì)做錯(cuò)幾道。

比如問(wèn):小偷偷偷偷東西,什么意思?

通義語(yǔ)義解釋為小偷偷取東西,是沒(méi)啥問(wèn)題的。但是前半句又說(shuō)句子里有 3 個(gè)偷,說(shuō)這是中文繞口令,就有些問(wèn)題了。

不過(guò),從結(jié)果來(lái)看,三道題算是對(duì)了 2.5 道,通義的中文語(yǔ)義理解算是不錯(cuò)的。好了,讓咱們測(cè)試?yán)^續(xù)。下題還是從中文下手,問(wèn)點(diǎn)中文語(yǔ)境下比較難的文本生成題。

以前每次都測(cè)寫(xiě)小作文或者故事,這次整點(diǎn)花活。讓它用諸葛亮的語(yǔ)氣,寫(xiě)首 rap 聽(tīng)聽(tīng)。

這一題,通義答得就有點(diǎn)意思了。

Rap 詞里又是孔明,又是臥龍;又是靜坐軍帳、輕撫瑤琴,又是小試牛刀的。既符合諸葛亮的人物屬性,又語(yǔ)言活潑。唯一美中不足就是沒(méi)押上韻。

不過(guò),世超進(jìn)一步考驗(yàn)它的發(fā)散思維,又有點(diǎn)表現(xiàn)不行了。

讓它給我編個(gè)馬斯克和孔子的對(duì)話。然后,就看到孔子嘴里說(shuō)出了 “ 人工智能 ” 四個(gè)字。。其他語(yǔ)句,也不太符合人物性格。

從前面兩輪測(cè)試看下來(lái),通義 2.0 的中文水平是能聽(tīng)能寫(xiě),但還沒(méi)有到能自如應(yīng)對(duì)。發(fā)揮不太穩(wěn),有時(shí)能對(duì),有時(shí)又會(huì)犯傻。

其實(shí)大模型都有這樣的毛病,咱們到底能不能把它應(yīng)用起來(lái),靠的是另一個(gè)東西——學(xué)習(xí)能力。

就比如讓大模型直接做一個(gè)直播策劃,往往出來(lái)的內(nèi)容都是不夠成熟的。

這個(gè)時(shí)候,就看它們會(huì)不會(huì)學(xué)了。當(dāng)你甩一些參考案例給它,它們能夠理解教程的意思,并模仿出來(lái),這才是最重要的。

這點(diǎn),世超覺(jué)得通義做的是不錯(cuò)的,大家直接看案例就行。

世超讓它做個(gè)電動(dòng)牙刷的直播流程。并提前丟了一個(gè)蜜雪冰城的參考,引導(dǎo)了一下。

它立馬就學(xué)會(huì)了,并甩了一份非常詳細(xì)的直播流程。開(kāi)場(chǎng)、留客、鎖客學(xué)的一套一套的。。中文理解、學(xué)習(xí)和文本生成都相當(dāng)在線。

到這一步,中文能力測(cè)試算暫時(shí)告一段落了。下面看看大模型的究極弱項(xiàng)——數(shù)學(xué)邏輯題和代碼,是否有提高。

當(dāng)年考倒過(guò)無(wú)數(shù)大模型的 “ 雞兔同籠 ” 、 “ 青蛙跳井 ” 等等簡(jiǎn)單的數(shù)學(xué)題,通義應(yīng)對(duì)起來(lái)是沒(méi)問(wèn)題了。

就算稍微給題目變一下形,也是分步解答,輕松駕馭。

但也是跟很多大模型一樣的毛病,題目一旦難起來(lái),到個(gè)初高中水平,就傻眼了。問(wèn)它:任取三個(gè)長(zhǎng)度小于 1 的線段,能組成一個(gè)三角形的概率為?

它和我說(shuō), 0 個(gè)交點(diǎn)組不成三角形, 1 個(gè)和 3 個(gè)交點(diǎn)組得成。。。我去,這么簡(jiǎn)單的解題思路,我怎么沒(méi)想到呢?

以前有差友問(wèn)說(shuō),大模型能不能用來(lái)改試卷。如果是數(shù)學(xué)老師,那世超建議還是三思。。通義確實(shí)是進(jìn)步了,不過(guò)只進(jìn)步到了小升初水平。

數(shù)學(xué)題這種嚴(yán)格推理的題目,對(duì)大模型來(lái)說(shuō)還是一塊最難啃的骨頭。

不過(guò),在代碼方面,世超倒是沒(méi)有把通義問(wèn)倒,它應(yīng)答自如。

甩了一堆要求,讓它做一個(gè)非常簡(jiǎn)潔的差評(píng)雙十一大促頁(yè)面。

人家三下五除二就做完了,效果還是非常符合差評(píng)的審美的,需要預(yù)留的位置也都做了。

雖然可能為了嚴(yán)格執(zhí)行我對(duì)于頁(yè)面簡(jiǎn)潔的要求,所以導(dǎo)致看起來(lái)有點(diǎn)過(guò)于明了了。

測(cè)試到這里,還沒(méi)有結(jié)束。除了基礎(chǔ)能力的提高之外,通義還增加了圖片和文檔解析兩個(gè)新功能。

其實(shí)像圖片上傳功能,是很多家的重點(diǎn)攻克對(duì)象, GPT-4 后續(xù)也主要是在這一塊發(fā)力了。

不過(guò),世超試下來(lái),通義目前的圖片解析能力,還是有點(diǎn)弱的。

基礎(chǔ)圖片識(shí)別,是沒(méi)啥問(wèn)題的。比如丟個(gè)馬斯克給他,問(wèn)它這哪位。它能一眼認(rèn)出,還順道給你科普上兩句。

但是,如果加點(diǎn)抽象互聯(lián)網(wǎng)難度,比如說(shuō)世超給了一張自己桌子上的玩偶,讓它給我分析分析。

它雖然能認(rèn)出了這是 “ 小雞 ”,還有打籃球這兩個(gè)元素。但不太理解圖片里的梗,還堅(jiān)持不懈地胡謅了一段 “ 灌籃小雞 ” 梗的來(lái)歷。。

我們的伍佰老師,更是輕而易舉地把通義耍得團(tuán)團(tuán)轉(zhuǎn)。

給了一張 “ 隨 520 ” 的梗圖,里面是一張伍佰老師的靚照和一張 20 元人民幣。

結(jié)果,通義不光讀不懂什么梗,連圖片里有多少錢也數(shù)不明白了。

圖片識(shí)別能力更被徹底地干垮了,指著伍佰說(shuō),這是吳彥祖。。。

不僅圖片上傳還差點(diǎn)意思,后面世超試了試文檔功能,也輕松把通義考倒了。

世超甩了一篇電動(dòng)牙刷的行業(yè)報(bào)告給它,問(wèn)了句電動(dòng)牙刷行業(yè)的發(fā)展痛點(diǎn)是啥。

通義嘎嘎一頓總結(jié),各種分點(diǎn)羅列,系統(tǒng)分析。看起來(lái)答的很努力,實(shí)際答案全錯(cuò)了。

原因很簡(jiǎn)單,這里世超特地挖了個(gè)坑,預(yù)防大模型會(huì)胡說(shuō)八道。

所以,給的文檔里只有目錄,沒(méi)有內(nèi)容。通義這些分析是不錯(cuò),可惜全是胡編的,跟我的參考資料沒(méi)半點(diǎn)關(guān)系。。

幾輪測(cè)試結(jié)束,通義同學(xué)的成績(jī)是一目了然了。

雖然整體來(lái)沒(méi)有特別亮眼的強(qiáng)悍更新,但也算穩(wěn)扎穩(wěn)打,基本能力提高得更扎實(shí),學(xué)習(xí)能力也一直在線。但其中,圖片和文檔倆能力,還有挺大的提升空間的。

其實(shí),比起通義千問(wèn),世超覺(jué)得自己閑逛時(shí)發(fā)現(xiàn)的產(chǎn)品,更有意思。

阿里通義官網(wǎng)里,還有七大產(chǎn)品方向,比如代碼助手、客服等等。雖然大部分還是內(nèi)測(cè),都試用不了。

不過(guò),世超了一下開(kāi)放的通義智文,文檔體驗(yàn)比通義千問(wèn)要好不少。

這個(gè)產(chǎn)品是專門用來(lái)解讀文檔的,你不僅可以丟長(zhǎng)篇的電子書(shū),也可以甩各種文章鏈接給它。

世超試著把前面挖坑的行業(yè)目錄,輸入進(jìn)去。通義智文就沒(méi)有中招。

不僅明確指出里面沒(méi)提到,回答還標(biāo)注出,數(shù)據(jù)來(lái)源于文章里的那幾句。這點(diǎn)設(shè)計(jì)的就挺好,避免了胡言亂語(yǔ)。

比起通義千問(wèn)本身,世超反而更期待這些專項(xiàng)訓(xùn)練的應(yīng)用大模型。

大部分工種,只用得到通識(shí)大模型一兩個(gè)功能。像世超這種碼字的,需要的就是文本分析和生成。更針對(duì)性的訓(xùn)練,其實(shí)更有助于提高大模型的實(shí)用性。

不僅是從能力方面考慮,其實(shí)現(xiàn)在挺多大模型都到了一個(gè)平臺(tái)期,很難有極大的突破。從這些小點(diǎn)入手,或許會(huì)成為一個(gè)更好的解題思路。

本文來(lái)源:差評(píng)

差評(píng)

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部