2月1日消息,OpenAI正式上線o3-mini,并從即日起在Chat Completions API、Assistants API和Batch API中逐步向?qū)蛹?jí)3-5的開發(fā)者推出。ChatGPT Plus、Team和Pro用戶可率先使用,企業(yè)用戶一周后可訪問。
o3-mini是OpenAI首款支持開發(fā)者需求功能的小型推理模型,繼承o1-mini的低成本、低延遲優(yōu)勢(shì),并支持函數(shù)調(diào)用、流式傳輸、結(jié)構(gòu)化輸出等功能。開發(fā)者可根據(jù)需求選擇推理強(qiáng)度,平衡思考深度和響應(yīng)速度,但不支持視覺任務(wù),視覺推理仍需使用o1。
此外,o3-mini現(xiàn)已支持與搜索功能結(jié)合,能夠提供最新答案并鏈接至相關(guān)網(wǎng)絡(luò)資源。這標(biāo)志著OpenAI正在將搜索功能逐步整合到其推理模型中。
有外媒將o3-mini 和DeepSeek的R1模型進(jìn)行了對(duì)比,在用于衡量模型理解和響應(yīng)復(fù)雜指令能力的2024年美國數(shù)學(xué)邀請(qǐng)賽(AIME)測(cè)試中,o3-mini僅在高推理強(qiáng)度下表現(xiàn)優(yōu)于R1。在以編程為重點(diǎn)的SWE-bench Verified基準(zhǔn)測(cè)試中,o3-mini同樣僅在高推理強(qiáng)度下以微弱優(yōu)勢(shì)(0.1 分)領(lǐng)先R1。然而,在低推理強(qiáng)度下,o3-mini在博士級(jí)科學(xué)問題(GPQA Diamond)基準(zhǔn)測(cè)試中落后于R1,該測(cè)試主要用于衡量模型在博士級(jí)別物理、生物和化學(xué)問題上的表現(xiàn)。
聚焦STEM領(lǐng)域推理優(yōu)化 OpenAI表示,o3-mini專注于STEM領(lǐng)域(如編程、數(shù)學(xué)和科學(xué))的相關(guān)問題以及邏輯推理問題。也就是說,這個(gè)模型在涉及技術(shù)性、復(fù)雜性較高的任務(wù)時(shí)表現(xiàn)出色,能幫助開發(fā)者解決代碼編寫、數(shù)學(xué)計(jì)算、工程設(shè)計(jì)等方面的挑戰(zhàn)。
根據(jù)OpenAI介紹,在中等推理強(qiáng)度下,o3-mini在數(shù)學(xué)、編程和科學(xué)等STEM領(lǐng)域與o1模型相當(dāng),并且更快速、準(zhǔn)確,推理能力更強(qiáng)。專家評(píng)測(cè)顯示,o3-mini的回答更準(zhǔn)確、清晰,重大錯(cuò)誤率降低39%,測(cè)試者56%的時(shí)間更傾向于選擇o3-mini的回答。
OpenAI在官方博客中也將o3-mini的性能與o1系列進(jìn)行了比較:
在低推理強(qiáng)度下,o3-mini的表現(xiàn)與o1-mini相當(dāng);
在中等推理強(qiáng)度下,o3-mini的表現(xiàn)與o1相當(dāng)。在數(shù)學(xué)、編程和科學(xué)領(lǐng)域,o3-mini以更快的響應(yīng)速度實(shí)現(xiàn)了與o1相當(dāng)?shù)男阅埽?/p>
在高推理強(qiáng)度下,o3-mini的表現(xiàn)優(yōu)于o1-mini和o1。
值得注意的是,在某些領(lǐng)域,o3-mini相對(duì)于o1的性能優(yōu)勢(shì)較為微弱。例如,在2024年美國數(shù)學(xué)邀請(qǐng)賽(AIME)測(cè)試中,o3-mini在高推理強(qiáng)度下僅比o1高出0.3個(gè)百分點(diǎn)。而在博士級(jí)科學(xué)問題(GPQA Diamond)基準(zhǔn)測(cè)試,即使在高推理強(qiáng)度下,o3-mini也未能超過o1的得分。
2024年美國數(shù)學(xué)邀請(qǐng)賽(AIME) 注:在數(shù)學(xué)領(lǐng)域,OpenAI的o3-mini模型展現(xiàn)了不同的推理強(qiáng)度下的多樣化性能。在2024年美國數(shù)學(xué)邀請(qǐng)賽(AIME)測(cè)試中,當(dāng)推理強(qiáng)度設(shè)置為低時(shí),o3-mini的表現(xiàn)與o1-mini相當(dāng);在中等推理強(qiáng)度下,o3-mini的性能與o1模型相當(dāng)。當(dāng)推理強(qiáng)度調(diào)至高時(shí),o3-mini的表現(xiàn)超越了o1-mini和o1。這表明o3-mini在不同推理強(qiáng)度下能夠靈活適應(yīng)不同的任務(wù)需求,為用戶提供更精準(zhǔn)、高效的解決方案。
博士級(jí)科學(xué)問題(GPQA Diamond)
FrontierMath(高級(jí)數(shù)學(xué)推理基準(zhǔn)測(cè)試集) 注:在研究級(jí)數(shù)學(xué)領(lǐng)域,OpenAI的o3-mini模型在高推理強(qiáng)度下于FrontierMath基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于o1-mini。在FrontierMath測(cè)試中,當(dāng)提示使用Python工具時(shí),高推理強(qiáng)度的o3-mini在首次嘗試中解決了超過32%的問題,其中包括超過28%的高難度(T3 類別)問題。
編程競(jìng)賽(Codeforces) 注:在編程競(jìng)賽領(lǐng)域,OpenAI的o3-mini模型隨著推理強(qiáng)度的增加,Elo評(píng)分逐步提高,全面超越了o1-mini。在中等推理強(qiáng)度下,o3-mini的性能與o1持平。
軟件工程(SWE-bench Verified) 注:在SWE-bench Verified基準(zhǔn)測(cè)試中,o3-mini是OpenAI表現(xiàn)最為出色的模型。在高推理強(qiáng)度下,o3-mini的表現(xiàn)顯著優(yōu)于o1-mini。其中:使用開源的Agentless scaffold,o3-mini的準(zhǔn)確率為 39%;使用內(nèi)部工具scaffold,o3-mini的準(zhǔn)確率提升至61%。
LiveBench Coding(評(píng)估大型語言模型在編程任務(wù)中的表現(xiàn)) 人類偏好評(píng)估(Human Preference Evaluation) 注:外部專家測(cè)試者的評(píng)估結(jié)果表明,OpenAI的o3-mini在生成回答的準(zhǔn)確性、清晰度以及推理能力方面均優(yōu)于o1-mini,尤其是在STEM領(lǐng)域。測(cè)試者在56%的情況下更傾向于選擇o3-mini的回答,并且在處理復(fù)雜現(xiàn)實(shí)問題時(shí),o3-mini 的重大錯(cuò)誤率降低了39%。 OpenAI表示,Plus和Team企業(yè)用戶的速率限制從每天50條消息(使用 o1-mini)提升至每天150條消息(使用 o3-mini)。并且,免費(fèi)用戶也可通過“推理”選項(xiàng)體驗(yàn)o3-mini,這是ChatGPT首次向免費(fèi)用戶開放推理模型。
價(jià)格“骨折”、安全性更高了 在春節(jié)期間備受關(guān)注的國產(chǎn)大模型DeepSeek,其R1模型的推出對(duì)OpenAI構(gòu)成了競(jìng)爭(zhēng)壓力,尤其在成本方面呈現(xiàn)出顯著差異。OpenAI 的推理模型o1系列相對(duì)成本較高,o1模型的API定價(jià)為每百萬輸入tokens 15美元,每百萬輸出tokens 60美元,而DeepSeek R1的API定價(jià)為每百萬輸入tokens 0.14美元(緩存命中)/0.55美元(緩存未命中),每百萬輸出tokens 2.19美元。
這次發(fā)布中,OpenAI強(qiáng)調(diào)了成本問題。與OpenAI的o1-mini相比,o3-mini的價(jià)格降低了63%。o3-mini定價(jià)為每百萬輸入tokens 1.10美元,每百萬輸出tokens 4.40美元, 可謂是打了“骨折價(jià)”。不過,相比DeepSeek-R1,o3-mini的價(jià)格依然高出了不少。
禁止內(nèi)容評(píng)估(Disallowed Content Evaluations)
越獄評(píng)估(Jailbreak Evaluations)
安全方面,OpenAI表示,在訓(xùn)練o3-mini以實(shí)現(xiàn)安全響應(yīng)的過程中,采用了一種關(guān)鍵技術(shù)--“深思熟慮的對(duì)齊(deliberative alignment)”。通過這種方法,OpenAI訓(xùn)練模型在回答用戶提示之前,先對(duì)人類編寫的安全規(guī)范進(jìn)行推理。我們可以理解為,OpenAI希望確保o3-mini生成的內(nèi)容更加安全、符合道德,并降低了模型生成不良或有害響應(yīng)的風(fēng)險(xiǎn)。 與OpenAI o1類似,o3-mini在應(yīng)對(duì)具有挑戰(zhàn)性的安全和越獄評(píng)估時(shí),表現(xiàn)顯著優(yōu)于GPT-4o。在部署之前,OpenAI使用與o1相同的方法,對(duì)o3-mini的安全風(fēng)險(xiǎn)進(jìn)行了仔細(xì)評(píng)估,包括準(zhǔn)備性評(píng)估、外部紅隊(duì)測(cè)試以及安全性評(píng)估。
總之,o3-mini的正式上線,標(biāo)志著OpenAI在推動(dòng)成本效益型智能發(fā)展方面邁出了重要一步。通過優(yōu)化STEM領(lǐng)域的推理能力并保持低成本,這一模型也延續(xù)了OpenAI降低智能成本的記錄。 本文來源:騰訊科技
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。