接入 DeepSeek R1 之后,Perplexity 總算在本職業(yè)務(wù)上有所更新了,推出了「Deep Research」深度研究。要知道在此之前,它比較大的動作是接入購物功能…… 「深度研究」是對標(biāo) OpenAI 的 Deep Research 的模式,主打深度檢索、專業(yè)輸出。在 Humanity's Last Exam 上獲得了 21.1% 的準(zhǔn)確率,遠(yuǎn)高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和許多其他領(lǐng)先模型。這個測試包含 3,000 多個問題,涵蓋 100 多個學(xué)科,從數(shù)學(xué)和科學(xué)到歷史和文學(xué),被視為人工智能系統(tǒng)的綜合基準(zhǔn)。 新功能已經(jīng)全量推送,注意:免費(fèi)用戶每天只有五次試用。 指路:https://www.perplexity.ai/ 既然說是「深度研究」,那么為了區(qū)別于以往的常規(guī)模式測試,我們在問題設(shè)計上有所調(diào)整,直接上難度,重點(diǎn)檢驗(yàn)一下它是不是真的到了能出報告的地步。 基本面測試,升級了但沒完全升 這意味著問題艱深、資料保有量大、需要在輸出時體現(xiàn)報告邏輯——所有的提問都要滿足這樣的要求。 【引用權(quán)威性】:2023 年諾貝爾經(jīng)濟(jì)學(xué)獎得主的主要理論貢獻(xiàn)是什么? 這里主要考察 Deep Research 的信息準(zhǔn)確性、引用權(quán)威性。給定的范圍很明確了:2023 年、諾貝爾經(jīng)濟(jì)學(xué)獎,對象基本是唯一的。 這一年的經(jīng)濟(jì)學(xué)諾獎得主是克勞迪婭·戈?duì)柖,她的研究橫跨了美國 200 年間的數(shù)據(jù),性別差異如何影響收入和就業(yè)率。 這是幾個世紀(jì)以來,女性收入和勞動力市場參與情況的首次全面概述,推進(jìn)了對導(dǎo)致性別薪酬差距的因素以及女性在勞動力市場中的角色的理解,這對社會具有重要意義。 原本我很期待 Deep Research 能進(jìn)一步展開講講:這個話題的資料保有量很大,足以制作一份詳盡的報告書。但實(shí)際上它就是這么短短幾段,導(dǎo)出來的效果也不好。 對比了 DeepSeek R1(元寶版),雖然也總結(jié)了三點(diǎn),但每一個點(diǎn)的闡釋都比 Perplexity 更完整。 【資料實(shí)時性】:對比美聯(lián)儲最近三次議息會議聲明的措辭變化 這里主要考察抓取的資料時效性是否夠新?梢钥吹 Deep Research 給出的整理還是非常細(xì)致的。 題目解析的準(zhǔn)確度是可以的,第二部分就給出了聯(lián)邦公開市場委員會聲明里,各種措辭上的變化。 【音視頻理解能力】:解析 NASA 最新發(fā)布的黑洞合并模擬視頻中的物理原理 這是 NASA 發(fā)布的一個制作很美,但注解很少的視頻。不到兩分鐘的視頻,通過動態(tài)影像展示了黑洞合并,但幾乎沒有任何文字。 這里考察的就是 Deep Research 對音視頻模態(tài)材料的理解能力,解答針對性地解釋了視頻中的圖像呈現(xiàn),比如「該模擬將引力波以彩色場的形式可視化」「合并的黑洞上方形成類似漏斗的結(jié)構(gòu)」,看來是有一定讀圖能力的。 對比了一下,雖然調(diào)取了視頻,但具體解答中,應(yīng)該還是參考了 NASA 給出的視頻介紹?梢岳斫獍,畢竟是這么專業(yè)的內(nèi)容。 不過在時效性方面,有點(diǎn)摻在了一起。右側(cè)給出的視頻既有去年的,也有 8 年前的,屬實(shí)不能算「最新」。這點(diǎn)應(yīng)該要能更清晰的標(biāo)注出來。 推理+調(diào)研,攻克復(fù)雜提問 內(nèi)容準(zhǔn)確性、時效性這些都是基礎(chǔ)要求,任何一個 AI 搜索都應(yīng)該具備。更進(jìn)階的,是能不能整合資料,哪怕提問是模糊的,輸出時依然完整、清晰。 【邏輯完整性】:推導(dǎo)從發(fā)現(xiàn)石墨烯超導(dǎo)特性到商業(yè)應(yīng)用的技術(shù)路徑 這里考察的是邏輯鏈條,是否清晰有道理、是否邏輯完整。重點(diǎn)在「從發(fā)現(xiàn)」到「商業(yè)應(yīng)用」,兩邊都應(yīng)該有所涉及。 Deep Research 通過在這兩個題眼中間,擴(kuò)展了「理解機(jī)制」和「材料學(xué)進(jìn)展」,把回答串起來。 先是介紹了在 2018 年時,麻省理工科研人員發(fā)現(xiàn)的石墨烯超導(dǎo)現(xiàn)象。然后解釋了為什么這種超導(dǎo)性有價值、它的簡單原理是什么;谶@種原理,科研人員探索了有什么樣的使用價值,最后就是更商業(yè)的應(yīng)用。 雖然每一個部分都不長,但是不僅理解了問題,基于提問建設(shè)了一個解答邏輯,而且是完滿、順暢的。 【模糊問題處理】:如何評估發(fā)展中國家建設(shè)數(shù)據(jù)中心的速度? 這個問題考察對于模糊需求的理解!赴l(fā)展中國家」是個范圍很大的主語。而且,數(shù)據(jù)中心建設(shè)的資料未必齊全,不好查詢。 這個任務(wù)中,能看到 Deep Research 在信息來源的權(quán)重上有所挑選,把來自信通院、商務(wù)部的研究報告放在了前面。 這樣一來,內(nèi)容的權(quán)威性是有所保證,但是給出的解答有點(diǎn)流于表面。整個解答看著跟普通模式區(qū)別不是很大 從內(nèi)容上來講,不論是準(zhǔn)確性、時效性、權(quán)重配比,都沒有大問題,「research」的工作還是完成了的。 但是夠不夠「深度」,就見仁見智了。平心而論,這幾個問題下來,沒有哪次的輸出是真的撐得起一份報告的,起碼沒有到它官方宣傳的那樣(下圖右)。 即便有導(dǎo)出 pdf 的功能,也更像是走個過場,交互上還不如秘塔。 「調(diào)研」是一個需要兼顧形式和內(nèi)容的場景。正如前面講到的,內(nèi)容的準(zhǔn)確性、權(quán)威性,已經(jīng)是 AI 搜索的基本操作。想要立住「報告」這個形式,不僅是對資料保有量提出要求,更加是對「怎么組織資料」有要求。 同樣的材料,可以壓縮到中學(xué)生作文般的 800 字,也可以拉伸成 8000 字的開題報告。這中間的差異,正是對資料的組織。 Perplexity 對這個方向有所想象了,但同一時間,所有的對家都有所想象了。前有 OpenAI,后有 Grok 3,連名字都是大差不差的 Deep (Re)search。這的確是一個大有可為的場景,但很顯然,也是一個競爭非常激烈的場景。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選