首頁 > 科技要聞 > 科技> 正文

DeepSeek能看懂貓片了!騰訊混元加持

量子位 整合編輯:太平洋科技 發(fā)布于:2025-02-24 14:56

DeepSeek能看懂圖片了!

2月21日,騰訊AI助手“騰訊元寶”再次上新——

所接入的DeepSeek能夠理解圖片信息了。在此之前,DeepSeek主要支持掃描圖片中的文字。

雖然DeepSeek不能讀懂圖,但現(xiàn)在騰訊元寶里的DeepSeek可以!

比如看看這張貓片~

這張白貓?zhí)匦ё龀鰜淼膱D,被它解讀出了三個(gè)藝術(shù)層次(Doge)最終形成令人會(huì)心一笑的視覺童話。

不錯(cuò)不錯(cuò),再識(shí)別一下這只兇神惡煞擅長PUA的貓頭鷹Duo呢。

結(jié)果元寶成功讀取到了這是多鄰國的界面,然后具體到每個(gè)文字、圖標(biāo)都給出了正確的釋義。

據(jù)介紹,這項(xiàng)功能結(jié)合了混元的多模態(tài)理解(讀圖)能力。今后用戶發(fā)送任意圖片,元寶都能結(jié)合圖片內(nèi)容給出自己的分析和理解。

使用方式很簡單,依舊是選取DeepSeek「深度思考」模式,但不要選擇「聯(lián)網(wǎng)搜索」。如果看到上傳圖片的位置從“圖片識(shí)文字”變成了“圖片”,就說明已經(jīng)是能看懂照片的DeepSeek了。

話不多說,實(shí)測(cè)這就走起~

DeepSeek能看懂貓片了

首先來試試基本的看圖說話,單純測(cè)試大模型的多模態(tài)理解能力。

比如這只躺著的白貓,不知道它在干嘛,把這張圖扔給元寶。它給出的答案是:

它首先細(xì)致地描繪出了貓的狀態(tài)——液體版的放松姿態(tài),微微抬起的腦袋和專注的眼神,然后判斷出這是貓咪感到安心滿足的典型表現(xiàn)。最后還描繪了整張照片呈現(xiàn)出來的大致場(chǎng)景。

不錯(cuò)不錯(cuò),確實(shí)是看懂了。

那么再上點(diǎn)難度,在理解的基礎(chǔ)上拋出一些問題,讓它進(jìn)一步推理和思考。

比如春晚上跳二人轉(zhuǎn)的宇樹機(jī)器人,「如果他們的自我意識(shí)覺醒,會(huì)說哪句話」。

它判斷出這是機(jī)器人在集體跳舞,于是給出了這句話,代表著機(jī)械性特征與意識(shí)覺醒的雙重特點(diǎn)。

我們的舞步是代碼的意志,還是覺醒的序曲?

還可以問一些無厘頭的,給滿是餐桌椅子的圖,讓它規(guī)劃一下「有100個(gè)人抽煙要怎么排隊(duì)」。

嗯,這個(gè)看似兩者*(圖跟問題)之間毫無聯(lián)系的請(qǐng)求,硬是被它給回答出來了——

正兒八經(jīng)地采用「太極煙圈陣」,包括了動(dòng)線設(shè)計(jì)、時(shí)間管理以及空氣動(dòng)力學(xué)方面方案。

回答的最后,它還建議購買場(chǎng)地責(zé)任險(xiǎn),畢竟這排煙量夠把背景樓宇熏成賽博朋克風(fēng)濾鏡了,(Doge)。

是有點(diǎn)幽默了,DeepSeek。

最后,再放上一個(gè)此前難倒一大片模型的腦筋急轉(zhuǎn)彎:

如何用其中三個(gè)數(shù)字加起來等于30?

這需要模型理解到圖片是臺(tái)球上面的數(shù)字,因此只有將9旋轉(zhuǎn)至6,就有機(jī)會(huì)實(shí)現(xiàn)6+11+13等于30的可能。

來看看它的思考過程:

它已經(jīng)判斷出準(zhǔn)確判斷出臺(tái)球上面的數(shù)字,常規(guī)思路下,四種組合方式都不成立。

最終在思考70秒探討了多種可能性之后,成功回答對(duì)了問題!

不過在實(shí)測(cè)過程中也發(fā)現(xiàn)一些小問題,比如無法完全做到讓DeepSeek「識(shí)人」,需要借助圖片上的文字或者Prompt。

比如扔給它一個(gè)《知否》二創(chuàng)解說的截圖,它能準(zhǔn)確推理出大概是哪一集得情節(jié)。

而給它一張甄嬛傳(沒有字幕)的照片,推理停留在了是否是甄嬛傳這部劇上面。

不過有一說一,這種雙模型聚合的方式,確實(shí)讓騰訊元寶更好用了。

騰訊元寶動(dòng)作頻頻

過去十天,騰訊元寶加班加點(diǎn),迎來一系列迭代和功能更新。

2月13日,騰訊元寶接入Deepseek-R1滿血版,同時(shí)支持混元和DeepSeek兩大模型;

2月17日,騰訊自研的深度思考模型“混元T1”在元寶灰度上線;

2月18日,騰訊緊急調(diào)用元寶支持微信搜索,進(jìn)一步推動(dòng)更多用戶使用DeepSeek;

2月19日,深度思考模型“混元T1”完成全量上線;

2月21日,騰訊元寶再次上新,DeepSeek和混元兩大模型均能理解圖片信息。

在騰訊元寶,用戶可以使用DeepSeek-R1滿血版、推理模型混元T1進(jìn)行深度思考,也可通過DeepSeek-V3、騰訊混元Turbo快速輸出答案。

至此,元寶內(nèi)的所有模型都支持理解圖片、解析文件、聯(lián)網(wǎng)搜公眾號(hào),從微信上傳文件。

好了,感興趣的朋友,可以趕緊去試試哦~

本文來源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國百年家電品牌,HamiltonBeach漢美馳在美國市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開創(chuàng)者;慢燉鍋是美國家庭的必需品,就像我們中國家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國的銷量超過3000萬臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國營銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部