OpenAI Day 5,風(fēng)頭被谷歌再一次搶了。 12月12日,谷歌CEO劈柴、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬聯(lián)手官宣:新一代原生多模態(tài)模型Gemini 2.0 Flash正式發(fā)布! 至此,Gemini正式進(jìn)入2.0時(shí)代! 從命名來看,Gemini 2.0 Flash很可能是新系列的最小杯,但它的性能已經(jīng)超越了上一代大哥1.5 Pro,而且速度提高了一倍。 甚至,它的性能完全超越o1-preview、o1-mini,僅次于GPT-4o(2024-11-20)。 不僅如此,2.0 Flash還具有出色的多語言能力,并可以原生調(diào)用谷歌搜索等工具。 值得一提的是,Gemini 2.0 Flash非常擅長編碼,在SWE-bench Verified基準(zhǔn)上,直接擊敗完整版o1。 當(dāng)然,除了新模型之外,谷歌還帶來了一系列基于Gemini 2.0打造的智能體創(chuàng)新: 通用AI助手Project Astra 在瀏覽器中進(jìn)行交互的智能體Project Mariner 為開發(fā)者打造的AI代碼智能體Jules 游戲輔助智能體 機(jī)器人智能體 而這僅僅是一個(gè)開始。 對于AI智能體來說,2025年將是關(guān)鍵之年,而谷歌將憑借著Gemini 2.0支撐起自己的智能體工作流。 Gemini 2.0,迄今最強(qiáng)大的AI模型 Gemini 1.0和1.5,是第一批原生多模態(tài)模型。 NotebookLM就是很好的例子,說明了多模態(tài)和長上下文可以為人們帶來什么。 今天,谷歌專為新智能體時(shí)代打造的下一代模型——Gemini 2.0,重磅登場了。 這個(gè)迄今最強(qiáng)大的模型,能使我們構(gòu)建更接近通用助手的全新AI智能體。 下一步,谷歌會(huì)將Gemini 2.0的高級推理功能引入AI Overviews,解決更復(fù)雜的主題和多步驟問題,包括高級數(shù)學(xué)方程、多模態(tài)查詢和編碼。 Gemini 2.0的進(jìn)步,得益于谷歌對全棧式AI創(chuàng)新長達(dá)十年的投資。它基于定制硬件構(gòu)建,比如第六代 TPU Trillium。TPU為Gemini 2.0的訓(xùn)練和推理,提供了100%的支持。 Gemini 2.0支持全新的多模態(tài)AI智能體,它們能看到、聽到你周圍的世界,還能思考、計(jì)劃、記住、采取行動(dòng)。 Gemini 2.0 Flash,原生多模態(tài) 今天,谷歌發(fā)布了Gemini 2.0系列模型中的第一個(gè)——Gemini 2.0 Flash的實(shí)驗(yàn)版本。 基于谷歌迄今最受開發(fā)者歡迎的1.5 Flash,Gemini 2.0 Flash在保持同樣快速響應(yīng)時(shí)間的同時(shí),提供了更強(qiáng)勁的性能表現(xiàn)。 值得注意的是,2.0 Flash在關(guān)鍵基準(zhǔn)測試上不僅超越了1.5 Pro的表現(xiàn),而且速度提高了一倍。 除了支持圖像、視頻和音頻等多模態(tài)輸入外,2.0 Flash還支持多模態(tài)輸出,包括原生生成的圖文混合內(nèi)容和可調(diào)控的多語言文本轉(zhuǎn)語音(Text-to-Speech,TTS)功能,并且可以原生調(diào)用多種工具,如谷歌搜索、代碼執(zhí)行以及第三方用戶自定義函數(shù)等。 在各項(xiàng)基準(zhǔn)測試中,相較于前一代1.5 Pro和1.5 Flash,最新2.0 Flash實(shí)現(xiàn)了全面的提升,尤其是代碼、數(shù)學(xué)、推理能力方面。 不過,在長上下文、音頻方面,2.0 Flash性能非常有限。 目前,Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平臺上,通過Gemini API正式向開發(fā)者開放。多模態(tài)輸入和文本輸出功能,均可使用。 不過,文本轉(zhuǎn)語音、原生圖像生成功能,現(xiàn)僅向首批合作伙伴開放。 為支持開發(fā)者構(gòu)建動(dòng)態(tài)交互式應(yīng)用,谷歌還同步推出了新的多模態(tài)實(shí)時(shí)API,支持實(shí)時(shí)音頻、視頻流輸入,并能夠集成調(diào)用多種工具組合。 對于普通用戶來說,即日就可直接用上2.0 Flash Experimental(網(wǎng)頁端),移動(dòng)端很快就會(huì)上線。 另外,正式版模型將于2025年1月份推出,同時(shí)將提供更多模型規(guī)模選擇。 開啟智能體新紀(jì)元Gemini 2.0 Flash的面世,標(biāo)志著AI交互再次進(jìn)入了全新的階段。 最令人興奮的是,2.0 Flash具備了原生的用戶交互界面的能力。 同時(shí),它還在多模態(tài)推理、長文本理解、復(fù)雜指令執(zhí)行與規(guī)劃組合式函數(shù)調(diào)用、原生工具調(diào)用以及更低的延遲,取得多項(xiàng)技術(shù)突破。 這意味著,用戶可以獲得更加流暢、更直觀的AI交互體智能體體驗(yàn)。 AI智能體的實(shí)際應(yīng)用,是一個(gè)充滿無限可能的研究領(lǐng)域。 谷歌正通過不斷原型創(chuàng)新,打造出原生用戶界面新體驗(yàn): 「Project Astra」——探索通用AI助手的未來 「Project Mariner」——從瀏覽器入手,探索人類與智能體交互的未來方向 「Jules」——專為開發(fā)者打造的AI代碼智能體 Project Astra:讓多模態(tài)AI走入現(xiàn)實(shí)生活 今年I/O大會(huì)上,谷歌大殺器Project Astra首次亮相,在視覺識別和語音交互上,與GPT-4o幾乎不相上下。 這一次,得到Gemini 2.0加持后,Project Astra能力也在以下四大方面得到改進(jìn): - 更強(qiáng)的對話能力 Project Astra現(xiàn)在不僅能夠使用多種語言進(jìn)行對話,還支持混合語言交談,同時(shí)對口音和生僻詞的理解也更加出色。 - 擴(kuò)展的工具集成 通過Gemini 2.0,Project Astra可以調(diào)用谷歌搜索、Lens和地圖功能,讓其作為日常生活助手變得更加實(shí)用。 - 增強(qiáng)的記憶能力 Project Astra現(xiàn)在可以保持長達(dá)10分鐘的對話記憶,并能記住更多用戶之前的對話內(nèi)容,從而提供更加個(gè)性化的服務(wù)。 - 優(yōu)化的響應(yīng)速度 借助新的流式處理能力和原生音頻理解技術(shù),Project Astra現(xiàn)在可以以近乎人類對話的速度來理解語言。 此外,谷歌還計(jì)劃將些功能引入Gemini應(yīng)用等產(chǎn)品,并進(jìn)一步擴(kuò)展到智能眼鏡等其他設(shè)備形式。 在演示視頻中,研究小哥用裝載了Project Astra的測試版Pixel手機(jī)和智能眼鏡向我們展示了Astra的多模態(tài)能力。 首先,小哥在手機(jī)里打開了一封包含公寓信息的郵件,讓Astra幫他識別并記住門禁碼。 Astra直接讀屏獲取密碼,告訴了他該如何操作開門,并記住了這個(gè)密碼。 在視頻的結(jié)尾,研究小哥在倫敦逛了一大圈回來,戴著智能眼鏡向Astra詢問門禁碼,Astra準(zhǔn)確地回答了出來。 小哥讓Astra讀取衣服上的洗滌標(biāo)簽,Astra馬上給出洗衣建議。 接著他又將手機(jī)鏡頭轉(zhuǎn)向洗衣機(jī),詢問Astra該如何操作洗衣機(jī),Astra很快地提供了指導(dǎo)。 研究小哥準(zhǔn)備出門,于是拿了一份地點(diǎn)清單,請Astra介紹了幾個(gè)地方。 路過面包店看到司康(scone),小哥順口問了下「scone」發(fā)音的問題。 隨便指了個(gè)街邊的雕塑,Astra就能講出它的來歷。 小哥看到倫敦街頭的山羊絨,詢問Astra它適不適合帶回家種。 要知道,小哥在提問的時(shí)候并沒有告訴Astra他的家在紐約,但Astra記得之前的對話,流暢回答。這體現(xiàn)出Astra的跨會(huì)話記憶能力。 研究小哥還測試了一下Astra給朋友挑禮物的能力。他在手機(jī)里瀏覽了一遍朋友的書單,讓Astra讀屏識別,并總結(jié)出這個(gè)朋友的閱讀品味。 然后小哥挑了幾本書,讓Astra從中挑選最適合的一本。 小哥將手機(jī)攝像頭對著路邊的一輛公交車,詢問Astra它是否會(huì)路過唐人街。 對于沿途會(huì)路過的地標(biāo),Astra也能迅速提供相關(guān)信息。 Astra的多語言能力也不容小覷,不僅英語溜,還能用法語和泰米爾語聊天。 除了能在手機(jī)上使用Astra,Astra還能搭載在智能眼鏡上。 視頻中,研究小哥戴著搭載Astra的智能眼鏡上街了,上來就問了一句倫敦的天氣,Astra對答如流。 騎行時(shí),Astra還能認(rèn)出路過的公園并介紹它的信息。 小哥準(zhǔn)備騎車回公寓,讓Astra查詢沿途有沒有超市。 Project Mariner:能幫你完成復(fù)雜任務(wù)的AI智能體 Project Mariner,或許聽起來陌生。 但此前曾有外媒爆料稱,谷歌自研全新智能體項(xiàng)目「Project Jarvis」能夠?qū)hrome任務(wù)自動(dòng)化,并由未來Gemini 2.0版本驅(qū)動(dòng),預(yù)計(jì)在今年12月發(fā)布。 種種跡象表明,賈維斯項(xiàng)目與Project Mariner有極大的關(guān)聯(lián)。 正如博客所述,Project Mariner是一個(gè)基于Gemini 2.0構(gòu)建的早期「研究原型」。它從瀏覽器入手,探索人工智能與人類交互的未來。 Project Mariner的核心能力在于,卓越的信息理解和分析,它能夠全面感知瀏覽器屏幕上的各種信息。 比如像素級精準(zhǔn)識別,以及網(wǎng)頁元素(如文本、代碼、圖像、表單等)智能分析。 演示中,打開一個(gè)在線谷歌表格——戶外公司,然后喚出Project Mariner(目前是Chrome實(shí)驗(yàn)性擴(kuò)展程序)。 輸入提示「記住這份公司的名單,然后,找到他們的網(wǎng)站,并查找我可以聯(lián)系到他們的郵箱。記住這些方便我日后使用」 隨后,智能體讀取了表格中的內(nèi)容,并了解到了所有公司名稱。 通過搜索第一家公司名字,AI智能體點(diǎn)擊查詢后,進(jìn)入了Benchingmark Climbing的官網(wǎng)主頁,找到右上角「信息」菜單欄中的「關(guān)于我們」。 一直下滑到網(wǎng)頁末端,找到了這家公司的郵箱地址。 接下來,是第二家公司Lunkerhunt,同樣搜索找到官網(wǎng),公司信息介紹得到郵件地址。 在右側(cè)對話欄中,你可以清晰看到智能體的推理過程,能夠更清晰理解它的操作。 表格中另外兩家公司郵件查找,AI智能體同樣執(zhí)行如上的重復(fù)操作——導(dǎo)航搜索、點(diǎn)擊鏈接、滾動(dòng)頁面、記錄信息。 在瀏覽完第四個(gè)網(wǎng)站后,智能體完成了任務(wù),并列出了所有的郵箱地址。 以上,我們所看到的能力,其實(shí)與Anthropic所展示的Claude 3.5操作計(jì)算機(jī)界面,執(zhí)行各種任務(wù)的能力幾乎一致。 智能體也是巨頭們將在明年,重點(diǎn)布局的方向之一。 在業(yè)界權(quán)威的WebVoyager基準(zhǔn)測試中,Project Mariner已交出了令人驚艷的成績單: 作為單一AI智能體系統(tǒng),它在真實(shí)網(wǎng)絡(luò)任務(wù)的端到端測試中,取得了驚人的83.5%成功率。 這可能意味著,AI已經(jīng)能夠相對準(zhǔn)確地模仿人類在互聯(lián)網(wǎng)上,完成任務(wù)的行為。 此外,Project Mariner最大的亮點(diǎn)是其嚴(yán)格的安全設(shè)計(jì),用戶始終可以保持對系統(tǒng)的控制。 舉例來說,其操作權(quán)限僅限當(dāng)前瀏覽器的標(biāo)簽頁,而且僅能執(zhí)行一些基本操作:輸入、滾動(dòng)、點(diǎn)擊。 若在執(zhí)行購物等敏感操作之前,必須獲得用戶的最終確認(rèn)。 盡管仍處于早期研究階段,但Project Mariner證明了智能體在瀏覽器中導(dǎo)航的可能性,其意義遠(yuǎn)遠(yuǎn)超過了技術(shù)本身。 雖然目前在完成任務(wù)時(shí),可能存在準(zhǔn)確度不足和速度較慢的問題,但這都將隨著技術(shù)迭代快速得到改善。 Jules:面向開發(fā)者的AI智能體 隨著AI代碼助手的迅速發(fā)展,它已從基礎(chǔ)的代碼搜索工具進(jìn)化為深度融入開發(fā)者工作流程的智能助手。 如今,在評測真實(shí)軟件工程任務(wù)的基準(zhǔn)SWE-bench Verified中,搭載了代碼執(zhí)行工具的2.0 Flash已經(jīng)可以取得51.8%的優(yōu)異成績。 得益于2.0 Flash超群的推理速度,智能體能夠快速生成和評估數(shù)百個(gè)潛在解決方案,并通過現(xiàn)有單元測試和Gemini自身的判斷,篩選出最優(yōu)方案。 想象一下,你的團(tuán)隊(duì)剛剛完成了一次Bug Bash,現(xiàn)在你面臨著一大堆待修復(fù)的bug。 從今天開始,這些讓人頭大的Python和Javascript編程任務(wù),全部都可以交給由Gemini 2.0驅(qū)動(dòng)的AI代碼智能體——Jules去做了。 Jules可以異步工作并與你的GitHub工作流程集成,在你專注于真正想要構(gòu)建的內(nèi)容時(shí),它會(huì)處理bug修復(fù)和其他耗時(shí)的任務(wù)。 Jules會(huì)制定全面的多步驟計(jì)劃來解決問題,高效地修改多個(gè)文件,甚至準(zhǔn)備拉取請求(pull request)直接將修復(fù)合并回 GitHub。 雖然還處于早期階段,但從谷歌內(nèi)部的使用經(jīng)驗(yàn)來看,Jules可以為開發(fā)者帶來諸多便利: - 更高的生產(chǎn)力 把問題和編程任務(wù)交給 Jules,實(shí)現(xiàn)高效的異步編程。 - 進(jìn)度跟蹤 通過實(shí)時(shí)更新隨時(shí)了解情況,優(yōu)先處理最需要關(guān)注的任務(wù)。 - 完全的開發(fā)者控制 審查Jules制定的計(jì)劃,根據(jù)需要提供反饋或請求調(diào)整,并在合適的時(shí)候?qū)ules編寫的代碼合并到項(xiàng)目當(dāng)中。 游戲、機(jī)器人AI智能體 谷歌DeepMind一直致力于通過游戲來提升AI模型在規(guī)則遵循、策略規(guī)劃和邏輯推理方面的能力。 秉承這一研究傳統(tǒng),谷歌基于Gemini 2.0開發(fā)了新的AI智能體,能夠協(xié)助玩家在視頻游戲的虛擬世界中探索。 這些「游戲助手」智能體可以單純依靠觀察屏幕上的動(dòng)作來理解游戲機(jī)制,并通過實(shí)時(shí)對話為玩家提供下一步行動(dòng)的建議。 此外,它們還能通過接入谷歌搜索,幫助你獲取網(wǎng)絡(luò)上海量的游戲攻略和相關(guān)知識。 目前,谷歌正與Supercell等頂尖游戲開發(fā)商展開合作,深入研究這些AI智能體的運(yùn)作機(jī)制,并在不同類型的游戲中測試它們理解游戲規(guī)則和應(yīng)對挑戰(zhàn)的能力,涵蓋從《部落沖突》等策略游戲到《Hay Day》等農(nóng)場模擬游戲。 除了在虛擬世界中探索AI智能體的應(yīng)用能力,谷歌還在機(jī)器人領(lǐng)域進(jìn)行創(chuàng)新性研究,將Gemini 2.0強(qiáng)大的空間推理能力應(yīng)用其中,開發(fā)能在現(xiàn)實(shí)世界中提供實(shí)際幫助的AI智能體。 下面這些demo,展示了Gemini 2.0玩游戲的強(qiáng)大潛力。 注意,過程中沒有任何具體的后訓(xùn)練或者游戲集成,Agent就可以對音頻、游戲視頻和從網(wǎng)絡(luò)獲取的實(shí)時(shí)信息做出響應(yīng)。 在demo中,研究者對Gemini 2.0說:「我打算玩游戲了,我想確保完成每周的任務(wù)。你能看到它們嗎?」 Gemini 2.0立刻回答,「是的,我能看見,看起來你需要收集300顆寶石,擊敗10個(gè)boss,你已經(jīng)有10個(gè)寶石了! 因?yàn)檠芯空弑硎咀约航?jīng)常忘記這件事,Gemini 2.0承諾會(huì)在游戲過程中留意,提醒她關(guān)于任務(wù)的事。 在另一個(gè)demo中,研究者表示在計(jì)劃進(jìn)行一次攻擊,但首先需要訓(xùn)練一支軍隊(duì),請AI幫他推薦一下軍隊(duì)構(gòu)成。 Gemini立刻給出了非常明智的建議: 「根據(jù)屏幕左上角你的可用部隊(duì)和數(shù)量,我們應(yīng)該訓(xùn)練巨人、野蠻人、弓箭手和法師的組合。重點(diǎn)是使用巨人來吸收傷害,法師可以對付高輸出防御設(shè)施,野蠻人和弓箭手可以處理較弱的建筑! 另外,Gemini 2.0還能自己查攻略。比如幫我們選角色,完成「在Reddit上搜索一下Donetta是什么」這樣的任務(wù)。 深度研究,個(gè)人研究助理來了 在智能體方面,谷歌今天還放出了一個(gè)名為Deep Research研究助理,并在Gemini Advanced中上線。 不過,這項(xiàng)新功能由Gemini 1.5 Pro加持。 它可以深入研究復(fù)雜的主題,創(chuàng)建報(bào)告,并提供相關(guān)來源的鏈接。 假設(shè)你想要完成一篇機(jī)器學(xué)術(shù)論文,主題是關(guān)于自動(dòng)駕駛傳感器的研究趨勢,直接Deep Research。 它便會(huì)列出一項(xiàng)研究計(jì)劃清單,包含了6個(gè)要點(diǎn)的信息查找、分析網(wǎng)址、創(chuàng)建報(bào)告,點(diǎn)擊「開始研究」。 接下來,AI全網(wǎng)搜索分析,并匯總出一份全面詳細(xì)的研究報(bào)告,包括了清晰的表格分析、搜索的62個(gè)網(wǎng)址來源。 有了Deep Research,能為我們節(jié)省大把的研究時(shí)間。 參考資料: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message https://deepmind.google/technologies/project-astra/ 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選