接入 DeepSeek R1 之后,Perplexity 總算在本職業(yè)務(wù)上有所更新了,推出了「Deep Research」深度研究。要知道在此之前,它比較大的動(dòng)作是接入購物功能…… 「深度研究」是對(duì)標(biāo) OpenAI 的 Deep Research 的模式,主打深度檢索、專業(yè)輸出。在 Humanity's Last Exam 上獲得了 21.1% 的準(zhǔn)確率,遠(yuǎn)高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和許多其他領(lǐng)先模型。這個(gè)測試包含 3,000 多個(gè)問題,涵蓋 100 多個(gè)學(xué)科,從數(shù)學(xué)和科學(xué)到歷史和文學(xué),被視為人工智能系統(tǒng)的綜合基準(zhǔn)。 新功能已經(jīng)全量推送,注意:免費(fèi)用戶每天只有五次試用。 指路:https://www.perplexity.ai/ 既然說是「深度研究」,那么為了區(qū)別于以往的常規(guī)模式測試,我們?cè)趩栴}設(shè)計(jì)上有所調(diào)整,直接上難度,重點(diǎn)檢驗(yàn)一下它是不是真的到了能出報(bào)告的地步。 基本面測試,升級(jí)了但沒完全升 這意味著問題艱深、資料保有量大、需要在輸出時(shí)體現(xiàn)報(bào)告邏輯——所有的提問都要滿足這樣的要求。 【引用權(quán)威性】:2023 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主的主要理論貢獻(xiàn)是什么? 這里主要考察 Deep Research 的信息準(zhǔn)確性、引用權(quán)威性。給定的范圍很明確了:2023 年、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng),對(duì)象基本是唯一的。 這一年的經(jīng)濟(jì)學(xué)諾獎(jiǎng)得主是克勞迪婭·戈?duì)柖,她的研究橫跨了美國 200 年間的數(shù)據(jù),性別差異如何影響收入和就業(yè)率。 這是幾個(gè)世紀(jì)以來,女性收入和勞動(dòng)力市場參與情況的首次全面概述,推進(jìn)了對(duì)導(dǎo)致性別薪酬差距的因素以及女性在勞動(dòng)力市場中的角色的理解,這對(duì)社會(huì)具有重要意義。 原本我很期待 Deep Research 能進(jìn)一步展開講講:這個(gè)話題的資料保有量很大,足以制作一份詳盡的報(bào)告書。但實(shí)際上它就是這么短短幾段,導(dǎo)出來的效果也不好。 對(duì)比了 DeepSeek R1(元寶版),雖然也總結(jié)了三點(diǎn),但每一個(gè)點(diǎn)的闡釋都比 Perplexity 更完整。 【資料實(shí)時(shí)性】:對(duì)比美聯(lián)儲(chǔ)最近三次議息會(huì)議聲明的措辭變化 這里主要考察抓取的資料時(shí)效性是否夠新?梢钥吹 Deep Research 給出的整理還是非常細(xì)致的。 題目解析的準(zhǔn)確度是可以的,第二部分就給出了聯(lián)邦公開市場委員會(huì)聲明里,各種措辭上的變化。 【音視頻理解能力】:解析 NASA 最新發(fā)布的黑洞合并模擬視頻中的物理原理 這是 NASA 發(fā)布的一個(gè)制作很美,但注解很少的視頻。不到兩分鐘的視頻,通過動(dòng)態(tài)影像展示了黑洞合并,但幾乎沒有任何文字。 這里考察的就是 Deep Research 對(duì)音視頻模態(tài)材料的理解能力,解答針對(duì)性地解釋了視頻中的圖像呈現(xiàn),比如「該模擬將引力波以彩色場的形式可視化」「合并的黑洞上方形成類似漏斗的結(jié)構(gòu)」,看來是有一定讀圖能力的。 對(duì)比了一下,雖然調(diào)取了視頻,但具體解答中,應(yīng)該還是參考了 NASA 給出的視頻介紹?梢岳斫獍,畢竟是這么專業(yè)的內(nèi)容。 不過在時(shí)效性方面,有點(diǎn)摻在了一起。右側(cè)給出的視頻既有去年的,也有 8 年前的,屬實(shí)不能算「最新」。這點(diǎn)應(yīng)該要能更清晰的標(biāo)注出來。 推理+調(diào)研,攻克復(fù)雜提問 內(nèi)容準(zhǔn)確性、時(shí)效性這些都是基礎(chǔ)要求,任何一個(gè) AI 搜索都應(yīng)該具備。更進(jìn)階的,是能不能整合資料,哪怕提問是模糊的,輸出時(shí)依然完整、清晰。 【邏輯完整性】:推導(dǎo)從發(fā)現(xiàn)石墨烯超導(dǎo)特性到商業(yè)應(yīng)用的技術(shù)路徑 這里考察的是邏輯鏈條,是否清晰有道理、是否邏輯完整。重點(diǎn)在「從發(fā)現(xiàn)」到「商業(yè)應(yīng)用」,兩邊都應(yīng)該有所涉及。 Deep Research 通過在這兩個(gè)題眼中間,擴(kuò)展了「理解機(jī)制」和「材料學(xué)進(jìn)展」,把回答串起來。 先是介紹了在 2018 年時(shí),麻省理工科研人員發(fā)現(xiàn)的石墨烯超導(dǎo)現(xiàn)象。然后解釋了為什么這種超導(dǎo)性有價(jià)值、它的簡單原理是什么;谶@種原理,科研人員探索了有什么樣的使用價(jià)值,最后就是更商業(yè)的應(yīng)用。 雖然每一個(gè)部分都不長,但是不僅理解了問題,基于提問建設(shè)了一個(gè)解答邏輯,而且是完滿、順暢的。 【模糊問題處理】:如何評(píng)估發(fā)展中國家建設(shè)數(shù)據(jù)中心的速度? 這個(gè)問題考察對(duì)于模糊需求的理解!赴l(fā)展中國家」是個(gè)范圍很大的主語。而且,數(shù)據(jù)中心建設(shè)的資料未必齊全,不好查詢。 這個(gè)任務(wù)中,能看到 Deep Research 在信息來源的權(quán)重上有所挑選,把來自信通院、商務(wù)部的研究報(bào)告放在了前面。 這樣一來,內(nèi)容的權(quán)威性是有所保證,但是給出的解答有點(diǎn)流于表面。整個(gè)解答看著跟普通模式區(qū)別不是很大 從內(nèi)容上來講,不論是準(zhǔn)確性、時(shí)效性、權(quán)重配比,都沒有大問題,「research」的工作還是完成了的。 但是夠不夠「深度」,就見仁見智了。平心而論,這幾個(gè)問題下來,沒有哪次的輸出是真的撐得起一份報(bào)告的,起碼沒有到它官方宣傳的那樣(下圖右)。 即便有導(dǎo)出 pdf 的功能,也更像是走個(gè)過場,交互上還不如秘塔。 「調(diào)研」是一個(gè)需要兼顧形式和內(nèi)容的場景。正如前面講到的,內(nèi)容的準(zhǔn)確性、權(quán)威性,已經(jīng)是 AI 搜索的基本操作。想要立住「報(bào)告」這個(gè)形式,不僅是對(duì)資料保有量提出要求,更加是對(duì)「怎么組織資料」有要求。 同樣的材料,可以壓縮到中學(xué)生作文般的 800 字,也可以拉伸成 8000 字的開題報(bào)告。這中間的差異,正是對(duì)資料的組織。 Perplexity 對(duì)這個(gè)方向有所想象了,但同一時(shí)間,所有的對(duì)家都有所想象了。前有 OpenAI,后有 Grok 3,連名字都是大差不差的 Deep (Re)search。這的確是一個(gè)大有可為的場景,但很顯然,也是一個(gè)競爭非常激烈的場景。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選