首頁(yè) > 科技要聞 > 科技> 正文

谷歌“狙擊”O(jiān)penAI,發(fā)布新一代大模型!主打Agent+多模態(tài)

量子位 整合編輯:太平洋科技 發(fā)布于:2024-12-12 11:33

繼量子芯片之后,谷歌又來(lái)?yè)尅癘penAI雙12直播”的流量了!

就在剛剛,谷歌新一代大模型Gemini 2.0突然登場(chǎng),再次由谷歌CEO皮猜親自官宣。

新一代模型專為AI Agent而打造,谷歌表示目前已經(jīng)將2.0版本提供給了一些開發(fā)者內(nèi)測(cè),正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。

好消息是,Gemini 2.0 Flash實(shí)驗(yàn)版模型今天就在網(wǎng)頁(yè)端開放,大家都能玩,移動(dòng)端即將推出。

除此之外,谷歌還推出了一項(xiàng)名為深度研究(Deep Research)的新功能,基于高級(jí)推理和長(zhǎng)上下文能力,它能直接幫你干研究助理的活兒——給個(gè)主題,自己出報(bào)告的那種。

目前這個(gè)新功能在Gemini Advanced版本中可用。

谷歌這一波出手,再結(jié)合Sora的不盡如人意,新一天的直播還沒開始,已經(jīng)有人開始唱衰OpenAI了:

OpenAI的護(hù)城河是什么?

“面向智能體時(shí)代的新AI模型”

在谷歌CEO皮猜、Google DeepMind CEO哈薩比斯,以及Google DeepMind CTO科雷(Koray Kavukcuoglu)三人共同撰寫的博客文章中,官方給Gemini 2.0的定位是:

面向智能體時(shí)代的AI模型。

在多模態(tài)方面的新進(jìn)展,以及原生工具的使用,使我們能夠構(gòu)建新的AI智能體,以更接近實(shí)現(xiàn)通用助手的愿景。

具體如何體現(xiàn)?在Gemini 2.0 Flash實(shí)驗(yàn)版第一時(shí)間上線的同時(shí),谷歌還在Gemini Advanced中推出了一項(xiàng)名為深度研究(Deep Research)的智能體新功能。

你可以把它當(dāng)成以研究助理,圍繞一個(gè)復(fù)雜主題生成研究報(bào)告。有點(diǎn)像是個(gè)科研版AI搜索。

另外一個(gè)Gemini 2.0的重點(diǎn)關(guān)鍵詞是:多模態(tài)

2.0 Flash實(shí)驗(yàn)版除了支持圖像、視頻、音頻多模態(tài)輸入,還支持多模態(tài)輸出。

不單單是簡(jiǎn)單的圖文混排,可控的多語(yǔ)種文本到語(yǔ)音(TTS)輸出也行,還能直接本地調(diào)用工具,比如谷歌搜索、代碼工具、第三方用戶定義的功能。

有ChatGPT插件那味兒了。

不過,作為實(shí)驗(yàn)?zāi)P,其文本到語(yǔ)音和原生圖像生成功能目前僅提供給早期訪問合作伙伴。谷歌透露2.0 Flash將在1月份正式推出,會(huì)提供更多不同大小的模型。

而根據(jù)谷歌發(fā)布的基準(zhǔn)測(cè)試結(jié)果,不論是在多模態(tài)的圖片、視頻能力上,還是編碼、數(shù)學(xué)等能力上,僅是Flash實(shí)驗(yàn)版的Gemini 2.0表現(xiàn)就已幾乎全面超越Gemini 1.5 Pro 002。

而且它的速度是1.5 Pro的兩倍。

谷歌表示,明年年初,會(huì)將Gemini 2.0擴(kuò)展到更多旗下產(chǎn)品中,比如Project Astra。

就是I/O大會(huì)上谷歌推出來(lái)跟GPT-4o的語(yǔ)音功能打擂臺(tái)的那個(gè)。

此次,基于Gemini 2.0,Project Astra更新了以下功能:

更好的對(duì)話:現(xiàn)在能夠以多種語(yǔ)言和混合語(yǔ)言進(jìn)行對(duì)話,更好地理解口音和不常見的單詞。

使用新工具:Project Astra會(huì)用谷歌搜索、Lens和地圖了。

更強(qiáng)的記憶力:Project Astra現(xiàn)在擁有10分鐘的會(huì)話記憶,并且可以記住更多歷史對(duì)話,也就說(shuō),憑借這些“記憶”,它能更懂你了。

改進(jìn)延遲:Project Astra可以按正常人類對(duì)話的節(jié)奏來(lái)理解對(duì)話。

谷歌還提到,正在將Project Astra移植到眼鏡等更多移動(dòng)終端中。

另外,谷歌透露,他們正在和Supercell等游戲開發(fā)商合作,測(cè)試基于Gemini 2.0打造的游戲智能體們的實(shí)力。

這些智能體可以根據(jù)屏幕上的動(dòng)作對(duì)游戲進(jìn)行推理,并與玩家實(shí)時(shí)對(duì)話提供行動(dòng)建議。

除了網(wǎng)頁(yè)端可用,Gemini 2.0 Flash實(shí)驗(yàn)?zāi)P瓦通過Google AI Studio和Vertex AI的Gemini API向開發(fā)者提供。

從OpenAI跳槽到谷歌的Logan Kilpatrick表示,他們?cè)贕oogle AI Studio中創(chuàng)建了一個(gè)全新體驗(yàn),展示了Gemini 2.0視頻理解、原生工具使用、空間理解的入門應(yīng)用。

那么,你覺得這夠Agent嗎?

參考鏈接:
[1]https://x.com/GoogleDeepMind/status/1866869343570608557
[2]https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents

本文來(lái)源:量子位

量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部