首頁 > 科技要聞 > 科技> 正文

o1駕駛無人機后空翻,OpenAI開發(fā)者日驚掉下巴!2分鐘爆改代碼寫App

新智元 整合編輯:太平洋科技 發(fā)布于:2024-11-03 22:09
OpenAI倫敦開發(fā)者日上,首次曝出了o1五大核心能力,還有圖像理解。o1兩分鐘構建應用駕駛無人機、電話訂餐、講解太陽系,現場演示讓所有開發(fā)者沸騰。

完整版o1的解禁,離我們不遠了!

最近舉辦的OpenAI倫敦開發(fā)者日上,開發(fā)者體驗主管Romain Huet帶著o1模型來秀場了。

o1 mini聯動Cursor在不到2分鐘時間內,搭建了一個可以交互的應用,駕駛無人機表演后空翻。

現場數百名開發(fā)者, 掌聲不斷。

還有利用RealTimeAPI,構建的實時語音AI智能體向人一樣,電話賣家訂購200個派。而且,o1還不忘了幽默風趣,對話情商非常高。

不僅如此,有了o1構建的太陽系可視化介紹應用,想必未來的教學一定非常有趣。

這還僅僅是預覽版+mini版o1的功能,在演講末,一張PPT展示了未來o1的五大能力:

函數調用、開發(fā)者message、流式傳輸、結構化輸出、圖像理解。

o1演示炸場,臺下觀眾歡呼不斷

寫代碼搭App,駕駛無人機后空翻

整場最讓人震撼的是,用o1 mini+Cursor搭建應用駕駛無人機飛行。

Romain Huet告訴o1,我現在有一架無人機,還缺少一個用JavaScript編寫的交互界面,但是我不會如何編程。

接下來,他要求o1去構建這個應用,并設定好所有的交互按鈕和組件。

并且,他向模型發(fā)送了一個樣本視頻,作為參考。

o1收到請求后,開始執(zhí)行所有的任務。

在這過程中,為了確保應用程序搭建能夠實時更新,Huet通過在UDP數據庫上發(fā)送可能與用戶-按鈕交互相關信息,從而實現實時數據傳輸。

并且,這個操作也非常簡單,只需要點擊每個按鈕,并發(fā)送更改評論,便可以在應用中得到更新。

最后,我們就得到了這樣的一個交互界面。

左邊黑的的框框是無人機攝像頭顯示屏,右邊就是各種交互的按鈕了。

見證奇跡的時刻到了,Huet將無人機放置在地面上,打開終端,開始運行o1搭建的應用。

只見o1駕駛的無人機演講臺上飛起,與臺下的觀眾來了一張大合影。

更驚喜的是,無人機現場還來一個360度的運鏡。

整個應用構建,用了不到2分鐘的時間。

AI實時語音訂購派,堪比真人

另外,Huet還秀了一波用RealTimeAPI構建實現實時語音的能力。這一功能實際上在上個月已經推出。

他表示,現在能夠實現更長時間、更穩(wěn)定的對話。

旅行應用程序Wanderlust中,Huet假設自己正計劃倫敦和新加坡之旅,假設下周就要去新加坡。

他問道,你能給我提供一些游覽的景點嗎?

隨后,在屏幕右邊可視化圖中,展示除了新加坡一些著名打卡點。

緊接著,Huet又讓他為自己推薦酒店,以及更多細節(jié)。

實時語音一邊說,一邊給出了結果。

接下里,他又讓o1在倫敦chiswell街區(qū)的當地商店訂購一份pie。

OpenAI開發(fā)者論壇負責人Spencer Bentley分享

Huet:我們臺下有數百位開發(fā)者,他們可能喜歡吃一些甜點,你能幫我看看附近這兒可能有哪些商店?

o1:這是一些關于pie商店更多的細節(jié)。

不過,o1給出的結果中,第二個并非是真實存在的商店,只有其余兩個是。

為了方便演示,讓現場工作人員擔任賣家,Huet邀請同伴上臺,一起來完成這個任務。

「在預算允許的情況下,幫我們訂購200個pie,可以是肉和蔬菜的混合餡料」。

o1直接給IIan's Poah Pies打去了電話,并像人一樣主動訂購。

介紹太陽系,讓教學更有趣

另外一個用RealTimeAPI構建太陽系導航應用程序,利用o1實時語音能力介紹星系。

從太陽系中最大的木星,到地球,再到火星深入介紹,o1全部都能娓娓道來。

OpenAI研究員表示,這一功能教會了自己:在教女兒新知識時如何成為有趣的父母。

奧特曼QA環(huán)節(jié),自曝最敬佩Cursor

沒有Sam Altamn的開發(fā)者日,就不算是完整的。在整場演講結束后,最后一個環(huán)節(jié),就是Altamn QA問答了。

在線上,奧特曼拋出了一個深刻的思考:

人們總是傾向于用歷史上的技術革命來類比當前的AI革命。

但這種類比方式本身是存在問題的。比如說,互聯網革命就與現在的情況有很大的不同。

也許拿晶體管來做比較會更恰當。

晶體管是物理學領域的重大發(fā)現,它具有驚人的規(guī);瘽摿,并且迅速在全球范圍內得到應用和普及。

雖然晶體管技術讓整個人類社會受益,但現在人們并不會把那些最早開發(fā)晶體管的公司僅僅定義為「晶體管公司」。

「我不祈求上帝站在我這邊,而是祈求自己能夠站在上帝這邊。在開發(fā)這些人工智能模型的過程中,我確實感覺自己是在追隨光明與正義的道路。」

問:我們應該期待像o1這樣的模型還是更大規(guī)模的模型?

奧特曼:希望全面提升大語言模型的性能,但這個推理思路很重要。

「不方便透露太多細節(jié)...但我預計視覺模型領域會有突破性進展!梗ㄟ@似乎暗示即將推出比GPT-4更強大的視覺模型)

問:在技術整合方面會達到什么程度?基于OpenAI構建產品的AI創(chuàng)業(yè)公司應該如何規(guī)劃?

奧特曼:建議創(chuàng)始人應該打造這樣的公司——既能充分利用當前大語言模型的優(yōu)勢,又能在未來模型升級時獲得更大發(fā)展空間。

問:開源的定位是什么?

奧特曼:答案表明開源確實有其存在空間,但同時也需要很好地整合專有模型。不過,這個回答似乎沒有提供太多實質性內容。

問:什么是AI智能體(Agent)?

奧特曼:「一個可以接受長期任務并且在執(zhí)行過程中只需少量監(jiān)督的系統(tǒng)!刮艺J為Harrison Chase在Langchain的博客中給出的定義更加嚴謹,但從商業(yè)角度來看,這個定義很實用。

問:AI智能體能做什么?

奧特曼:它們能夠完成人類因能力限制而無法完成的任務,比如同時與300家餐廳進行通話,讓AI智能體在每家餐廳進行交談并即時收集信息。

或者說,它像一位極其智慧的高級同事,你可以放心地交給他兩天或一周的工作任務。

說實話,我很討厭「agentic」這個詞。不讓我們一起邊討論邊思考,然后創(chuàng)造一個新詞吧!

問:在過去10年里,他的領導方式發(fā)生了哪些變化?

奧特曼:公司發(fā)展速度驚人,僅用兩年時間就實現了數十億美元的營收規(guī)模。從追求10%的提升轉向追求10倍的突破,這需要進行大量的調整和改變。

問:對于Peter Thiel「要招聘30歲以下的員工」的建議,你怎么看?

奧特曼:我創(chuàng)立OpenAI時就已經過了30歲。團隊需要不同年齡層的人才,真正重要的是要始終保持極高的人才標準。

問:你最擔憂的是什么?

奧特曼:從整個行業(yè)角度來看,我們正在嘗試解決的問題的系統(tǒng)性復雜度。

問:如果現在要創(chuàng)建新公司,他會選擇什么方向?

奧特曼:專注于某個特定領域,比如開發(fā)AI法律顧問或AI工程師助手。

問:你覺得有什么重要信息需要讓更多人知道?

奧特曼:一個能夠全面了解并陪伴你生活的智能助手。

問:除了OpenAI的團隊,你最敬佩誰?

奧特曼:Cursor團隊——他們打造了一個極具突破性的AI應用體驗。

問:如果能夠實現理想中的未來,你覺得會是什么樣子?

奧特曼:在接下來的5年里,我們可能會看到AI技術以難以想象的速度進步。但有趣的是,社會表面的變化可能并不會那么劇烈——真正的影響可能要在更長遠的未來才會完全顯現。

本文來源:新智元

OpenAI    o1    無人機
新智元

網友評論

聚超值•精選

手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部