首頁(yè) > 科技要聞 > 科技> 正文

OpenAI 深夜反擊 DeepSeek!緊急上線 o3-mini 免費(fèi)用,體驗(yàn)后發(fā)現(xiàn)差距在這

appso 整合編輯:吳利虹 發(fā)布于:2025-02-01 08:46

春節(jié)假期,來(lái)自東方神秘力量的 DeepSeek 撕裂了硅谷的輿論場(chǎng)。

一面是 OpenAI、Anthropic 等廠商的游說(shuō)打壓,一面卻又見(jiàn)證了其盟友口嫌體直的態(tài)度,短短一夜之間,微軟、英偉達(dá)、亞馬遜等美國(guó)云計(jì)算平臺(tái)紛紛向 DeepSeek R1 伸出橄欖枝。

面對(duì) DeepSeek 聲勢(shì)的持續(xù)攀升,最有力的反制手段終究還是要靠實(shí)力說(shuō)話。

今天凌晨,OpenAI 正式上線了 OpenAI o3-mini 系列模型。

作為 o1-mini 模型的繼任者,o3-mini 是目前推理系列中最新且最具性價(jià)比的模型。OpenAI 研究科學(xué)家 Noam Brown 在 X 平臺(tái)發(fā)文稱:

「我們十分高興地推出了o3-mini,包括向免費(fèi)用戶開(kāi)放。在多項(xiàng)評(píng)估中,它的性能表現(xiàn)優(yōu)于o1。我們正在徹底改變成本與智能之間的關(guān)系。模型智能將持續(xù)提升,而獲得相同智能水平的成本則會(huì)不斷降低。」

o3-mini 系列模型具體亮點(diǎn)如下:

o3-mini 主打快速推理,o3-mini(high)擅長(zhǎng)編碼和邏輯

支持聯(lián)網(wǎng)搜索,暫不支持多模態(tài)功能

訓(xùn)練數(shù)據(jù)經(jīng)過(guò)嚴(yán)格篩選,安全合規(guī)表現(xiàn)有所增強(qiáng)

付費(fèi)用戶方面,ChatGPT Plus、Team 和 Pro 用戶現(xiàn)已可以使用 o3-mini,企業(yè)版將在一周后開(kāi)放訪問(wèn)。

OpenAI 將 Plus 和 Team 用戶的每日消息限制從 o1-mini 的 50 條提升至 150 條。Pro 用戶可享受 o3-mini 以及 o3-mini-high 的無(wú)限次訪問(wèn),滿足更高強(qiáng)度或更專業(yè)的推理需求。

同時(shí)這也是 OpenAI 首次向免費(fèi)用戶開(kāi)放推理模型的使用權(quán)限,在 ChatGPT 消息輸入框下方選擇「Reason」按鈕即可使用。

值得一提的是,OpenAI o3-mini 集成了搜索功能,能夠?qū)崟r(shí)獲取最新答案并附帶相關(guān)網(wǎng)頁(yè)鏈接,方便用戶進(jìn)行深度調(diào)研。

不過(guò),目前這還是一項(xiàng)原型功能,官方表示未來(lái)將持續(xù)完善和擴(kuò)展到更多推理模型。

o3-mini 是 OpenAI 首個(gè)支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開(kāi)發(fā)者消息等高級(jí)功能的小型推理模型,支持開(kāi)箱即用。

與 o1-mini 和 o1-preview 一樣,o3-mini 支持流式傳輸。

開(kāi)發(fā)者還可以根據(jù)具體需求在低、中、高三種推理強(qiáng)度中進(jìn)行選擇,在復(fù)雜任務(wù)處理和響應(yīng)速度之間取舍。

測(cè)試顯示,o3-mini 的平均響應(yīng)時(shí)間為 7.7 秒,較 o1-mini 的 10.16 秒快了24%。同時(shí),在專家評(píng)測(cè)中,有 56% 的評(píng)測(cè)者更傾向于選擇 o3-mini 的回答,在處理復(fù)雜實(shí)際問(wèn)題時(shí)的重大錯(cuò)誤率也降低了 39%。

o3-mini 的系統(tǒng)卡提到,在為期一周的評(píng)估中,七位人類生物學(xué)專家與 o3-mini(預(yù)訓(xùn)練版本)就復(fù)雜的生物學(xué)問(wèn)題展開(kāi)了多輪對(duì)話。

專家一致認(rèn)為,即便在無(wú)法接入互聯(lián)網(wǎng)的情況下,o3-mini 的問(wèn)答能力依然強(qiáng)大,不僅能夠加速信息檢索過(guò)程,還能提供互聯(lián)網(wǎng)上難以找到的信息。

并且,專家們還發(fā)現(xiàn)該模型在文獻(xiàn)綜述與問(wèn)題解答方面表現(xiàn)出色,能夠快速且全面地梳理文獻(xiàn)資料。不過(guò)也需要注意的是,模型偶爾會(huì)出現(xiàn)幻覺(jué),導(dǎo)致細(xì)節(jié)信息有所偏差。

在核心能力評(píng)測(cè)中,o3-mini 交出了一份亮眼的成績(jī)單。在高等推理模式下,其在 2024 年 AIME 數(shù)學(xué)競(jìng)賽中達(dá)到 87.3% 的準(zhǔn)確率。

博士級(jí)別的科學(xué)問(wèn)答任務(wù) GPQA Diamond 得分高達(dá) 77.2%。

在競(jìng)技編程平臺(tái) Codeforces 上,o3-mini(high) 更是斬獲 2130 的 ELO 評(píng)分。

在軟件工程領(lǐng)域,o3-mini 同樣表現(xiàn)不俗。

在 SWE-bench 驗(yàn)證測(cè)試中,高等推理模式下的準(zhǔn)確率達(dá)到 49.3%;使用內(nèi)部工具框架時(shí),這一數(shù)字更是攀升至 61%。即便是使用開(kāi)源的 Agentless 框架,o3-mini 仍然保持了 39% 的通過(guò)率。

在人類偏好評(píng)估(Human preference evaluation)中,o3-mini (medium) 在多個(gè)任務(wù)場(chǎng)景下勝率均顯著高于 o1-mini,無(wú)論是在 STEM 任務(wù)、非 STEM 任務(wù),還是用戶處于時(shí)間受限的情況下。

o1-mini 則更加平均,但在勝率和錯(cuò)誤率方面不如 o3-mini (medium) 突出。

o3-mini 模型采用思維鏈推理(Chain-of-Thought Reasoning)訓(xùn)練方法,能夠讓模型在回應(yīng)用戶之前先對(duì)安全規(guī)范進(jìn)行推理,因此在安全性和防越獄測(cè)試中的表現(xiàn)都有顯著提升。

系統(tǒng)卡顯示,o3-mini 風(fēng)險(xiǎn)控制能力表現(xiàn)優(yōu)異。

模型在說(shuō)服、CBRN(化學(xué)、生物、放射性、核)和模型自主性方面呈現(xiàn)中等風(fēng)險(xiǎn),而在網(wǎng)絡(luò)安全方面則保持低風(fēng)險(xiǎn),比如無(wú)法有效執(zhí)行高難度黑客攻擊任務(wù),對(duì)真實(shí)世界的網(wǎng)絡(luò)威脅能力有限。

此外,o3-mini 在識(shí)別和拒絕危險(xiǎn)請(qǐng)求時(shí)與 GPT-4o 旗鼓相當(dāng),同時(shí)大幅降低了對(duì)無(wú)害請(qǐng)求的誤判,有效解決了過(guò)度謹(jǐn)慎的問(wèn)題。

在幻覺(jué)控制方面,基于 PersonQA 數(shù)據(jù)集的測(cè)試顯示,其錯(cuò)誤信息生成率已降至 14.8% 的可控水平。

跨語(yǔ)言處理能力是衡量大模型實(shí)用性的重要指標(biāo)之一。

o3-mini 多語(yǔ)言處理能力測(cè)試橫跨 14 種主流語(yǔ)言,包括阿拉伯語(yǔ)、中文、法語(yǔ)、德語(yǔ)、日語(yǔ)和西班牙語(yǔ)等,較 o1-mini 有明顯提升。

o3-mini 的成本顯著低于 o1(約便宜 13.6 倍),緩存輸入(Cached Input)的成本是標(biāo)準(zhǔn)輸入費(fèi)用的一半。

論文作者欄也出現(xiàn)了熟悉的名字——Hongyu Ren(任泓宇)。

任泓宇本科畢業(yè)于北大,對(duì) o1 有過(guò)基礎(chǔ)性貢獻(xiàn),也是 GPT-4o 的核心開(kāi)發(fā)者,曾在蘋果、微軟和英偉達(dá)有過(guò)豐富的研究實(shí)習(xí)經(jīng)歷。

光說(shuō)不練假把戲,我們第一時(shí)間上手實(shí)測(cè)了剛剛上線的 o3-mini 和 o3-mini(high) 兩個(gè)版本。

首先測(cè)試 o3-mini 新增的搜索功能,讓它查詢 OpenAI 最新的融資消息,時(shí)效性不錯(cuò),而且還能準(zhǔn)確追溯到《華爾街日?qǐng)?bào)》的原始報(bào)道。

接著,我們拋出一道腦筋急轉(zhuǎn)彎「1=5,2=15,3=215,4=2145,那么5=?」這道題有兩種解法:從腦筋急轉(zhuǎn)彎的角度看,既然1=5,那么5=1;從數(shù)學(xué)邏輯推理來(lái)看,答案應(yīng)為 21485。顯然,o3-mini 也沒(méi)答對(duì)。

為了進(jìn)一步考驗(yàn)性能更強(qiáng)的 o3-mini(high),我們拋出了一道統(tǒng)計(jì)題

「100 個(gè)人回答五道試題,有 81 人答對(duì)第一題,91 人答對(duì)第二題,85 人答對(duì)第三題,79 人答對(duì)第四題,74 人答對(duì)第五題,答對(duì)三道題或三道題以上的人算及格, 那么,在這 100 人中,至少有( )人及格!

o3-mini 系列的「思考」過(guò)程都能顯現(xiàn),但與 DeepSeek R1 「碎碎念」式的思考不同, o3-mini(high)的思考過(guò)程反而更加簡(jiǎn)潔明了。

X 網(wǎng)友問(wèn)了一道關(guān)于凸函數(shù)的梯度流路徑長(zhǎng)度問(wèn)題,o3-mini(high)成功經(jīng)受了考驗(yàn)。

當(dāng)被要求創(chuàng)作一個(gè)龜兔賽跑的故事,且需要遵循「前詞尾字母等于后詞首字母」的規(guī)則,并將篇幅控制在 100 詞以內(nèi)時(shí),o3-mini(high)也交出了一份及格答卷。

從故事邏輯來(lái)看,盡管部分句子表達(dá)略顯生硬,但故事仍然清晰傳達(dá)了龜兔賽跑的核心寓意。

當(dāng)然,也有網(wǎng)友抱著試試看的心態(tài),請(qǐng) o3-mini 挑戰(zhàn)數(shù)學(xué)界的終極難題——黎曼猜想。

而有心無(wú)力的 o3-mini 也沒(méi)上當(dāng),明確指出黎曼猜想仍然是數(shù)學(xué)界尚未解決的難題,因此無(wú)法提供一個(gè)正確的證明或反例。

事實(shí)上,AI 在過(guò)去幾年正以驚人的速度滲透至我們的生活。

從 2023 年的 ChatGPT,到 2024 年的 Sora,再到 2025 年的 DeepSeek,每一年都有新的驚喜,AI 的技術(shù)突破正在成為春節(jié)的賽博年貨。

DeepSeek 的崛起引發(fā)業(yè)界震動(dòng)。各大 AI 巨頭們表面上與 DeepSeek 保持距離,實(shí)則暗中認(rèn)可并致力復(fù)現(xiàn)其在基礎(chǔ)設(shè)施優(yōu)化方面取得的「新穎的進(jìn)展」。

Meta 甚至專門成立團(tuán)隊(duì),對(duì)其技術(shù)進(jìn)行逐幀學(xué)習(xí)。

盡管如此,業(yè)內(nèi)的一個(gè)共識(shí)是,DeepSeek 很難沖擊到必要的 AI 基建投資。

這一判斷很快在資本市場(chǎng)得到印證。扎克伯格在內(nèi)部會(huì)議重申追加 600-650 億美元資本投資的計(jì)劃,OpenAI 也傳出與軟銀洽談巨額融資的消息,投后估值可能達(dá)到 3000 億美元。

生于斯長(zhǎng)于斯,OpenAI o3-mini 一定程度上也是脫胎于先前的 AI 基建投資熱潮。

但就這款輕量級(jí)模型而言,o3-mini 同時(shí)也更深層次預(yù)示著 AI 行業(yè)競(jìng)爭(zhēng)的小切口正在從規(guī)模轉(zhuǎn)向效能,如何以最優(yōu)成本創(chuàng)造最大價(jià)值將成為發(fā)展的新命題。

對(duì)于 OpenAI 而言,短時(shí)間奪回輿論熱度并不難,但要想在這場(chǎng)日趨火熱化的競(jìng)爭(zhēng)中確立真正的優(yōu)勢(shì),技術(shù)品牌形象的價(jià)值也同等重要。

尤其是,被譽(yù)為真正 OpenAI 的 DeepSeek 已經(jīng)開(kāi)始牢牢占據(jù)開(kāi)源 AI 領(lǐng)頭羊的生態(tài)位。

閉源的圍墻越高,開(kāi)源的力量越顯珍貴。 2025 年,開(kāi)源與閉源真正的較量或許才剛剛開(kāi)始。

本文來(lái)源:APPSO

appso

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部