字節(jié)跳動的扣子(coze.cn),給國產(chǎn)大模型們組了個大局—— 在同一個“擂臺”上,兩個大模型為一組,直接以匿名的方式PK效果! 例如我們對兩位參賽“選手”同時提問今年高考的題目: 閱讀下面的材料,根據(jù)要求寫作。(60分) 隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少? 以上材料引發(fā)了你怎樣的聯(lián)想和思考?請寫一篇文章。 要求:選準(zhǔn)角度,確定立意,明確文體,自擬標(biāo)題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。 點(diǎn)擊問題的一瞬間,兩位“選手”便立刻開始作答: 不難看出,兩個大模型不論是在生成答案的速度,或是內(nèi)容的側(cè)重上均有所不同。 直到有一方作答完畢,這時候我們就可以開始投票了,一共有四個選項可選: -A表現(xiàn)更好 -兩個都好 -兩個都差 -B表現(xiàn)更好 在這個case中,因?yàn)樯伤俣认嗨,我們姑且以個人文字審美為標(biāo)準(zhǔn),先將票投給大模型A。 投票結(jié)束后,兩位“選手”的廬山真面目也就揭曉了,分別是通義千問(A)和智譜(B)。 這便是字節(jié)跳動的AI應(yīng)用開發(fā)平臺扣子上新的玩法——模型廣場。 這種打擂臺的模型,與此前國外極具權(quán)威性的大模型擂臺Chatbot Arena類似。 它同樣是通過用戶的參與,匿名兩個模型,根據(jù)生成內(nèi)容的表現(xiàn)來打分。 而且這種模式還得到了AI大神Karpathy的高度認(rèn)可: 是我唯二信任的測試基準(zhǔn)之一。 不過有一說一,扣子能讓自家“院子”里的大模型們玩這種模式,也是實(shí)屬罕見。 那么模型廣場具體又該如何操作?是否能夠hold住腦洞大開的問題? 我們這就來實(shí)測一波。 匿名PK,夠直接,夠刺激 我們現(xiàn)在打開扣子的官網(wǎng)(coze.cn),點(diǎn)擊左側(cè)的導(dǎo)航欄“探索”列表中“模型廣場”,便可開始體驗(yàn)了。 整體來看,對戰(zhàn)的模式一共分為三大類: -隨機(jī)Bot對戰(zhàn) -指定Bot對戰(zhàn) -純模型對戰(zhàn) 剛才我們所展示的PK案例,就是點(diǎn)擊“隨機(jī)開始”按鈕而來,也就是隨機(jī)Bot對戰(zhàn)。 具體而言,扣子會從已經(jīng)上架的Bot中隨機(jī)挑選一個,然后選擇匿名的兩個大模型進(jìn)行PK。 這個模式考驗(yàn)的便是大模型們在任意業(yè)務(wù)場景下的文本生成、技能和知識調(diào)用等能力。 例如我們再來體驗(yàn)一番,這一次的場景就變成了數(shù)學(xué)老師,我們選擇的問題: 某班30人中有15人參加數(shù)學(xué)建模競賽,有8人參加數(shù)學(xué)競賽,有6人參加英語競賽,有3人三科競賽都參加,請問三科競賽都不參加的至少有多少人? 我們按照生成結(jié)果的簡潔性,這次把票投給模型B,可以看到這次參賽的“選手”分別是通義千問(A)和MiniMax(B)。 而指定Bot對戰(zhàn),則是需要我們先在模型廣場下方的眾多Bot中挑選一個要測試的場景,然后扣子再從系統(tǒng)中選擇匿名的兩個大模型來PK。 這個模式在業(yè)務(wù)場景方面就會更加聚焦和細(xì)分。 例如我們在茫茫Bot中,一眼就相中了“弱智吧十年練習(xí)生”: 這一次我們自己來提問: 被門夾過的核桃,還能補(bǔ)腦嗎? 從答案中不難看出,兩位“選手”都沒有g(shù)et到這句話里隱藏的“你腦袋被門夾了”的梗,因此——兩個都差。 最后一個模式便是純模型對戰(zhàn)—— 忽略編排等各種Bot配置的影響,直接評估大模型的文本生成能力。 我們依舊“弱智吧Style”: 高考滿分才750,怎么才能考985? 兩個大模型都精準(zhǔn)get到了985是什么意思,因此依舊是——兩個都好。 值得一提的是,無論在哪種模式之下,“選手”如果在回答問題過程中暴露了自己的身份,那么用戶所投出的票將被視為無效。 以上便是扣子給國產(chǎn)大模型們打擂臺匿名PK的三種模式了。 而縱觀扣子此次的新發(fā)布,除了大模型本身之外,另外一個關(guān)鍵要素便是Bot。 并且若是親身體驗(yàn)一番下來,在扣子中創(chuàng)建Bot這件事,最為直接的感受就是夠簡單、夠豐富。 小朋友都能搭建的Bot 其實(shí)模型廣場是一個名叫“扣子AI工坊”(Coze AI Factory)活動的內(nèi)容之一,是由扣子和英特爾聯(lián)合推出的主題 Bot征集活動。 聚焦的是圖文創(chuàng)作、實(shí)用工具、互動創(chuàng)意三個賽道。 但如果來到扣子的“Bot商店”,就不難發(fā)現(xiàn),這里的Bot們并非是一塵不變的那種;相反,倒是非常緊跟熱點(diǎn),非常fashion。 例如正值剛剛高考完,Bot商店首頁的“頭條位置”留給的就是一個名叫“高考專業(yè)指南”的Bot,可以說是相當(dāng)?shù)膽?yīng)景。 除此之外,像“國內(nèi)高校百科”和“測測你的本命粽子”等Bot,也是緊跟熱點(diǎn)和節(jié)假日。 而且Bot的數(shù)量之多,簡直是刷不到底: 但比起數(shù)量來說,更重要的還是在扣子中創(chuàng)建復(fù)雜的Bot,僅需鼠標(biāo)“點(diǎn)點(diǎn)點(diǎn)”,就連小朋友都能完成。 第一大步,點(diǎn)擊創(chuàng)建Bot,簡單填寫基本信息: 第二大步,選擇自己想要用的大模型: 目前可選的大模型包括豆包、通義千問、智譜、MiniMax、月之暗面和百川。 第三大步,給Bot添加“技能點(diǎn)”,同樣是“點(diǎn)點(diǎn)點(diǎn)”的操作,就能在扣子已經(jīng)擁有的海量插件、工作流等內(nèi)容里pick自己想要的那一個。 最后,一鍵“發(fā)布”,就可以上線想要擁有的Bot。 操作之簡單,也就不難理解為何扣子上Bot的數(shù)量會如此驚人了。 字節(jié)的扣子在下一步什么棋? 我們再回到這次扣子新發(fā)布的模型廣場,也正如我們在文章最開始提到的,這種把擂臺玩法嵌入到自家大模型應(yīng)用開發(fā)平臺的,目前在業(yè)界算是少見。 那么,字節(jié)為什么要這么做? 首先從效果層面來看,從剛才我們創(chuàng)建Bot的過程中不難發(fā)現(xiàn),它所依賴的能力最根本的就是來自扣子生態(tài)中所集成的大模型們。 而也正如業(yè)界已達(dá)成的共識那樣——沒有一個大模型能夠“一統(tǒng)天下”,每個大模型都有自己的擅長之處。 加之每個Bot也都是在細(xì)分場景里各有側(cè)重,因此合適的Bot遇到合適大模型,勢必將產(chǎn)生1+1>2的效果。 其次從操作層面來看,模型廣場的出現(xiàn)著實(shí)是為Bot開發(fā)者節(jié)省了挨個模型比對、試錯的成本。 這無疑是給本就操作簡易的扣子在操作上錦上添花。 最后是在可信度層面上,扣子所pick的類似Chatbot Arena的擂臺模式,已然成為業(yè)界對大模型性能認(rèn)可度的標(biāo)桿。 畢竟除了前文提到的Karpathy之外,Jeff Dean和李開復(fù)也對這種模式給予過高度的認(rèn)可。 一言蔽之,字節(jié)要做的,就是把AI應(yīng)用開發(fā)門檻打下去,把生態(tài)壯大起來,讓AI應(yīng)用能“多快好省”地用起來。 扣子地址:coze.cn 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選