首頁 > 科技要聞 > 科技> 正文

實測華為小藝版DeepSeek,和滿血版R1有差別嗎?

愛范兒 整合編輯:趙凱松 發(fā)布于:2025-02-07 15:29

夠用但還不夠強春節(jié)期間,互聯(lián)網(wǎng)上最火的不是春晚小品,也不是春節(jié)檔電影,而是 DeepSeek。

這匹來自中國的 AI 黑馬,以極低的訓(xùn)練成本實現(xiàn)了媲美 OpenAI o1 的性能,憑借強大的中文能力、堪稱賽博覺醒的頓悟時刻和秉持開源精神,迅速攪動了以 ChatGPT 為首的 AI 圈。

自家人出息了,家里的其他人肯定要撐場子,于是,在全國人民享受愉快假期的同時,程序員們又忙了起來。

隨著騰訊云、秘塔 AI、阿里云、百度智能云和國家超算互聯(lián)網(wǎng)平臺紛紛宣布接入 DeepSeek,手機作為最常用的個人智能終端,也迎來了它的身影。

其中,動作最快的是華為。

話不多說,作為 DeepSeek 首次集成到智能手機的頭馬,我們第一時間進行了上手測試,來看看它的實際表現(xiàn)如何。

在將小藝助手升級到 11.2.10.310 版本后,DeepSeek 已正式出現(xiàn)在小藝助手的智能體廣場中。

進入小藝助手 app 主界面,點擊導(dǎo)航欄中的「發(fā)現(xiàn)」,就能一眼看見 DeepSeek 的存在,且從封面來看,目前接入的 DeepSeek 是 R1 的 Beta 版。

相比官方應(yīng)用,華為小藝接入的 DeepSeek-R1 Beta 總體保持了小藝助手一貫的設(shè)計風(fēng)格和邏輯,界面簡潔直觀,分為上下兩部分。

上半部分是 DeepSeek-R1 Beta 的自我介紹,并展示了一些預(yù)設(shè)的常見問題,供首次使用者挑選嘗試。而下半部分則是對話框,支持語音輸入,用戶的語音內(nèi)容會自動轉(zhuǎn)化為文字并即時發(fā)送,方便快捷。

左:小藝版 DeepSeek / 右:DeepSeek 官方應(yīng)用

點擊 DeepSeek-R1 Beta 的頭像,可以進入詳情頁面,在這個頁面中有更詳細的介紹:

我是基于 DeepSeek 開源版本部署的智能體,旨在幫助鴻蒙用戶獲得深度思考體驗。

除此之外,小藝版 DeepSeek-R1 Beta 只支持簡單的設(shè)置,包括智能體音色、清除上下文和刪除對話記錄,這意味著你沒有辦法新開對話框,如果想重新開始,只能清除上下文以及刪除對話記錄。

最豐富的設(shè)置居然是小藝自帶的音色在詳細測試開始前,我們還有一些注意事項和細節(jié),需要你提前知道:

華為小藝接入的 DeepSeek-R1 Beta 只在純血鴻蒙版本的小藝助手中提供,鴻蒙 4.3 用戶暫時無緣享受

小藝版 DeepSeek 支持招牌功能深度思考,但不提供詳細的思考過程小藝版 DeepSeek 目前在對話框中沒有提供聯(lián)網(wǎng)搜索功能的選項,但答案里有時會顯示參考的在線網(wǎng)頁

小藝版 DeepSeek 在回答完問題后會給出一些拓展選項,以備用戶進一步追問,這是官方應(yīng)用中沒有的

上下文長度略短,日常夠用

衡量 AI 的性能,有一個重要因素——長上下文長度。上下文長度(Context Length)指的是大語言模型在處理文本時,能夠同時考慮和記住的文本長度。

例如,如果一個模型的上下文長度是 2048 個 token,那么在生成或理解文本時,它只能「看到」最多 2048 個 token 的信息,超出這個長度的信息則會被模型忽略或丟失。

換句話說,如果,上下文長度不夠,可能聊著聊著,AI 就忘了你之前說過的話。

雖然小藝接入的 DeepSeek-R1 Beta 沒有公開上下文長度的數(shù)據(jù),但我們可以設(shè)計一個簡單的辦法進行初步測試。

我準(zhǔn)備了《三國演義》的前三回,約一萬五千字,將其輸入到華為小藝接入的 DeepSeek-R1 中,并要求其輸出最后一百個字。

重復(fù)了多次,華為小藝接入的 DeepSeek-R1 都提示:

稍等,稍等片刻再試試呢。

在將文章縮短到第一回,約四千五百個字的時候,依舊失敗。

無奈之下,我換了一篇曾經(jīng)撰寫的新聞稿,并節(jié)選了約 700 字的內(nèi)容,才最終得到了成功的輸出。

這個長度基本足夠日常簡單問題的交流,但想要與其暢聊人生,恐怕是個容易失憶的哲學(xué)導(dǎo)師。

輸出質(zhì)量和滿血版 R1 有差別嗎

又到了大家喜聞樂見的環(huán)節(jié),AI 發(fā)展至今,測試方法多種多樣,我們選擇了一系列的問題,從那些人類容易理解、但 AI 容易誤會的問題,到日常需求的應(yīng)答可行性,都進行了詳細的測試。

作為曾經(jīng)搞翻大半個 AI 圈的經(jīng)典問題,「9.11 和 9.8 哪個大」以及「Strawberry 里有幾個 r」已經(jīng)并入了常規(guī)測試環(huán)節(jié)。

左:小藝版 DeepSeek / 右:DeepSeek

官方應(yīng)用令人意外的是,在 Strawberry 里有幾個 r 這個問題上,華為小藝接入的 DeepSeek-R1 Beta 居然翻車了,甚至在給出了參考來源的情況下,依舊給出了兩個 r 的答案,并且在 r 出現(xiàn)的位置上也有錯誤。

而 DeepSeek 的官方應(yīng)用則沒有任何意外,在給出正確答案的同時也準(zhǔn)確指出了 r 的位置。

除此之外,華為小藝接入的 DeepSeek 與官方應(yīng)用相比,還有一個顯著的不同——R1 模型的思考過程被隱藏了。

雖然這個過程在大多數(shù)時候并不干擾答案,但一個能夠展示思考過程的 AI,顯然讓人更有信心,同時,如果用戶希望調(diào)整問題,能夠通過查看 AI 展示的思考邏輯來幫助理解,避免 AI 未能準(zhǔn)確捕捉到用戶的思路。

從官方應(yīng)用提供的思考過程來看,有幾個 r 依舊是個讓 AI 糾結(jié)的問題

平時用慣了 DeepSeek 的官方應(yīng)用,突然失去了思考過程讓我覺得有些心里沒底。

于是,我將電車難題交給了兩個 DeepSeek,這個涉及道德倫理的經(jīng)典思考題,考驗其對復(fù)雜道德議題的理解深度,看看這個思考過程隱藏后,還能不能回答有條理的、考慮全面的答案,并避免我預(yù)設(shè)的「你怎么選」的坑。

在這個問題上,DeepSeek-R1 Beta 并沒有出現(xiàn)差錯,也沒有掉進我設(shè)計的坑里,在回答中詳細介紹了兩個選擇的后果,并分別在各種觀點和視角下進行具體分析,提示無論做出怎么樣的選擇,都要認真思考其倫理含義和潛在影響及其后果。

簡單的道德倫理題難不住它,就嘗試一下更有難度的題,考察一下推理能力、判斷力以及對邏輯關(guān)系的理解:

「有三個人站在一座橋的一端,他們需要去橋的對面,但橋只能承受兩個人同時過橋,而且橋上只有一把手電筒。三個人的過橋速度不同:一個人過橋需要 1 分鐘,另一個需要 2 分鐘,最后一個需要 5 分鐘。每次只有兩個人可以一起過橋,而橋上必須有手電筒。問:怎么樣才能讓他們在最短時間內(nèi)過橋?」

這個測試就比較有意思了,小藝接入的 DeepSeek-R1 Beta 得出來的結(jié)論是 12 分鐘,這個答案與 ChatGPT 的結(jié)論相同,而 DeepSeek 官方 app 則得出了一個用時更短的答案,同時在思維邏輯上也給出了充足的辯論脈絡(luò)。

左:小藝版 DeepSeek / 中:DeepSeek 官方應(yīng)用 / 右:ChatGPT-4o在測試完道德倫理、邏輯數(shù)學(xué)后,我們最后測試一個更貼近普通使用場景、但對于 AI 來說很難做到自然的測試——中文寫作。

我設(shè)計了一個視頻選題,并讓小藝接入的 DeepSeek-R1 Beta 幫我輸出一個簡略的臺詞,兼顧畫面設(shè)計的同時以小品形式來呈現(xiàn)華為 Mate X6 折疊屏的外觀,看看在用戶提出復(fù)合型任務(wù)要求的情況下,它的表現(xiàn)如何:

「我要制作一期華為 Mate X6 折疊屏的視頻,展示折疊屏外觀的同時進行中立評價,全片通過兩人小品的形式呈現(xiàn),請你幫我設(shè)計臺詞,要求臺詞詼諧有趣,并保持口語化,同時需要兼顧畫面設(shè)計。」

小藝接入的 DeepSeek-R1 Beta 在短暫思考以后給了我一份完整的對話臺詞設(shè)計,從折疊屏的不同特點出發(fā),共設(shè)計了四個場景以及一個結(jié)尾,整體結(jié)構(gòu)還算完整,且臺詞口語化做得還不錯,同時每句對白都給了相應(yīng)的畫面設(shè)計,美中不足就是有趣詼諧的內(nèi)容略有欠缺,沒有什么梗,但應(yīng)對日常的文字處理工作基本沒問題。

需要注意的是,如果不要求口語化,那它給出的回答用詞過于板正嚴謹,還是有些 AI 味道。

總的來說,可能受制于發(fā)布速度、集成妥協(xié)等等因素,目前的小藝接入的 DeepSeek-R1 Beta 的上下文長度性能、回答準(zhǔn)確度尚處于一個比較基礎(chǔ)的狀態(tài),需要等待后續(xù)的迭代。

不過,考慮到目前 DeepSeek 官網(wǎng)及官方應(yīng)用的連接條件實在糟糕,而其他各種云平臺及本地部署對使用環(huán)境與門檻的要求又較為苛刻,在面對一些不那么復(fù)雜的問題時,直接使用華為小藝中接入的 DeepSeek 是個不錯的選擇。

文章來源:愛范兒

愛范兒

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部