DeepSeek能看懂圖片了! 2月21日,騰訊AI助手“騰訊元寶”再次上新—— 所接入的DeepSeek能夠理解圖片信息了。在此之前,DeepSeek主要支持掃描圖片中的文字。 雖然DeepSeek不能讀懂圖,但現(xiàn)在騰訊元寶里的DeepSeek可以! 比如看看這張貓片~ 這張白貓?zhí)匦ё龀鰜淼膱D,被它解讀出了三個(gè)藝術(shù)層次(Doge):最終形成令人會(huì)心一笑的視覺童話。 不錯(cuò)不錯(cuò),再識(shí)別一下這只兇神惡煞擅長PUA的貓頭鷹Duo呢。 結(jié)果元寶成功讀取到了這是多鄰國的界面,然后具體到每個(gè)文字、圖標(biāo)都給出了正確的釋義。 據(jù)介紹,這項(xiàng)功能結(jié)合了混元的多模態(tài)理解(讀圖)能力。今后用戶發(fā)送任意圖片,元寶都能結(jié)合圖片內(nèi)容給出自己的分析和理解。 使用方式很簡單,依舊是選取DeepSeek「深度思考」模式,但不要選擇「聯(lián)網(wǎng)搜索」。如果看到上傳圖片的位置從“圖片識(shí)文字”變成了“圖片”,就說明已經(jīng)是能看懂照片的DeepSeek了。 話不多說,實(shí)測(cè)這就走起~ DeepSeek能看懂貓片了 首先來試試基本的看圖說話,單純測(cè)試大模型的多模態(tài)理解能力。 比如這只躺著的白貓,不知道它在干嘛,把這張圖扔給元寶。它給出的答案是: 它首先細(xì)致地描繪出了貓的狀態(tài)——液體版的放松姿態(tài),微微抬起的腦袋和專注的眼神,然后判斷出這是貓咪感到安心滿足的典型表現(xiàn)。最后還描繪了整張照片呈現(xiàn)出來的大致場(chǎng)景。 不錯(cuò)不錯(cuò),確實(shí)是看懂了。 那么再上點(diǎn)難度,在理解的基礎(chǔ)上拋出一些問題,讓它進(jìn)一步推理和思考。 比如春晚上跳二人轉(zhuǎn)的宇樹機(jī)器人,「如果他們的自我意識(shí)覺醒,會(huì)說哪句話」。 它判斷出這是機(jī)器人在集體跳舞,于是給出了這句話,代表著機(jī)械性特征與意識(shí)覺醒的雙重特點(diǎn)。 我們的舞步是代碼的意志,還是覺醒的序曲? 還可以問一些無厘頭的,給滿是餐桌椅子的圖,讓它規(guī)劃一下「有100個(gè)人抽煙要怎么排隊(duì)」。 嗯,這個(gè)看似兩者*(圖跟問題)之間毫無聯(lián)系的請(qǐng)求,硬是被它給回答出來了—— 正兒八經(jīng)地采用「太極煙圈陣」,包括了動(dòng)線設(shè)計(jì)、時(shí)間管理以及空氣動(dòng)力學(xué)方面方案。 回答的最后,它還建議購買場(chǎng)地責(zé)任險(xiǎn),畢竟這排煙量夠把背景樓宇熏成賽博朋克風(fēng)濾鏡了,(Doge)。 是有點(diǎn)幽默了,DeepSeek。 最后,再放上一個(gè)此前難倒一大片模型的腦筋急轉(zhuǎn)彎: 如何用其中三個(gè)數(shù)字加起來等于30? 這需要模型理解到圖片是臺(tái)球上面的數(shù)字,因此只有將9旋轉(zhuǎn)至6,就有機(jī)會(huì)實(shí)現(xiàn)6+11+13等于30的可能。 來看看它的思考過程: 它已經(jīng)判斷出準(zhǔn)確判斷出臺(tái)球上面的數(shù)字,常規(guī)思路下,四種組合方式都不成立。 最終在思考70秒探討了多種可能性之后,成功回答對(duì)了問題! 不過在實(shí)測(cè)過程中也發(fā)現(xiàn)一些小問題,比如無法完全做到讓DeepSeek「識(shí)人」,需要借助圖片上的文字或者Prompt。 比如扔給它一個(gè)《知否》二創(chuàng)解說的截圖,它能準(zhǔn)確推理出大概是哪一集得情節(jié)。 而給它一張甄嬛傳(沒有字幕)的照片,推理停留在了是否是甄嬛傳這部劇上面。 不過有一說一,這種雙模型聚合的方式,確實(shí)讓騰訊元寶更好用了。 騰訊元寶動(dòng)作頻頻 過去十天,騰訊元寶加班加點(diǎn),迎來一系列迭代和功能更新。 2月13日,騰訊元寶接入Deepseek-R1滿血版,同時(shí)支持混元和DeepSeek兩大模型; 2月17日,騰訊自研的深度思考模型“混元T1”在元寶灰度上線; 2月18日,騰訊緊急調(diào)用元寶支持微信搜索,進(jìn)一步推動(dòng)更多用戶使用DeepSeek; 2月19日,深度思考模型“混元T1”完成全量上線; 2月21日,騰訊元寶再次上新,DeepSeek和混元兩大模型均能理解圖片信息。 在騰訊元寶,用戶可以使用DeepSeek-R1滿血版、推理模型混元T1進(jìn)行深度思考,也可通過DeepSeek-V3、騰訊混元Turbo快速輸出答案。 至此,元寶內(nèi)的所有模型都支持理解圖片、解析文件、聯(lián)網(wǎng)搜公眾號(hào),從微信上傳文件。 好了,感興趣的朋友,可以趕緊去試試哦~ 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選