太平洋科技要聞

OpenAI急了？o3-mini上線，性能未能全面超越DeepSeek R1

騰訊科技整合編輯：吳利虹發(fā)布于：2025-02-01 23:17

2月1日消息，OpenAI正式上線o3-mini，并從即日起在Chat Completions API、Assistants API和Batch API中逐步向?qū)蛹?-5的開發(fā)者推出。ChatGPT Plus、Team和Pro用戶可率先使用，企業(yè)用戶一周后可訪問。

o3-mini是OpenAI首款支持開發(fā)者需求功能的小型推理模型，繼承o1-mini的低成本、低延遲優(yōu)勢，并支持函數(shù)調(diào)用、流式傳輸、結構化輸出等功能。開發(fā)者可根據(jù)需求選擇推理強度，平衡思考深度和響應速度，但不支持視覺任務，視覺推理仍需使用o1。

此外，o3-mini現(xiàn)已支持與搜索功能結合，能夠提供最新答案并鏈接至相關網(wǎng)絡資源。這標志著OpenAI正在將搜索功能逐步整合到其推理模型中。

有外媒將o3-mini 和DeepSeek的R1模型進行了對比，在用于衡量模型理解和響應復雜指令能力的2024年美國數(shù)學邀請賽（AIME）測試中，o3-mini僅在高推理強度下表現(xiàn)優(yōu)于R1。在以編程為重點的SWE-bench Verified基準測試中，o3-mini同樣僅在高推理強度下以微弱優(yōu)勢（0.1 分）領先R1。然而，在低推理強度下，o3-mini在博士級科學問題（GPQA Diamond）基準測試中落后于R1，該測試主要用于衡量模型在博士級別物理、生物和化學問題上的表現(xiàn)。

聚焦STEM領域推理優(yōu)化

OpenAI表示，o3-mini專注于STEM領域（如編程、數(shù)學和科學）的相關問題以及邏輯推理問題。也就是說，這個模型在涉及技術性、復雜性較高的任務時表現(xiàn)出色，能幫助開發(fā)者解決代碼編寫、數(shù)學計算、工程設計等方面的挑戰(zhàn)。

根據(jù)OpenAI介紹，在中等推理強度下，o3-mini在數(shù)學、編程和科學等STEM領域與o1模型相當，并且更快速、準確，推理能力更強。專家評測顯示，o3-mini的回答更準確、清晰，重大錯誤率降低39%，測試者56%的時間更傾向于選擇o3-mini的回答。

OpenAI在官方博客中也將o3-mini的性能與o1系列進行了比較：

在低推理強度下，o3-mini的表現(xiàn)與o1-mini相當；

在中等推理強度下，o3-mini的表現(xiàn)與o1相當。在數(shù)學、編程和科學領域，o3-mini以更快的響應速度實現(xiàn)了與o1相當?shù)男阅埽?/p>

在高推理強度下，o3-mini的表現(xiàn)優(yōu)于o1-mini和o1。

值得注意的是，在某些領域，o3-mini相對于o1的性能優(yōu)勢較為微弱。例如，在2024年美國數(shù)學邀請賽（AIME）測試中，o3-mini在高推理強度下僅比o1高出0.3個百分點。而在博士級科學問題（GPQA Diamond）基準測試，即使在高推理強度下，o3-mini也未能超過o1的得分。

2024年美國數(shù)學邀請賽（AIME）

注：在數(shù)學領域，OpenAI的o3-mini模型展現(xiàn)了不同的推理強度下的多樣化性能。在2024年美國數(shù)學邀請賽（AIME）測試中，當推理強度設置為低時，o3-mini的表現(xiàn)與o1-mini相當；在中等推理強度下，o3-mini的性能與o1模型相當。當推理強度調(diào)至高時，o3-mini的表現(xiàn)超越了o1-mini和o1。這表明o3-mini在不同推理強度下能夠靈活適應不同的任務需求，為用戶提供更精準、高效的解決方案。

博士級科學問題（GPQA Diamond）

FrontierMath（高級數(shù)學推理基準測試集）

注：在研究級數(shù)學領域，OpenAI的o3-mini模型在高推理強度下于FrontierMath基準測試中的表現(xiàn)優(yōu)于o1-mini。在FrontierMath測試中，當提示使用Python工具時，高推理強度的o3-mini在首次嘗試中解決了超過32%的問題，其中包括超過28%的高難度（T3 類別）問題。

編程競賽（Codeforces）

注：在編程競賽領域，OpenAI的o3-mini模型隨著推理強度的增加，Elo評分逐步提高，全面超越了o1-mini。在中等推理強度下，o3-mini的性能與o1持平。

軟件工程（SWE-bench Verified）

注：在SWE-bench Verified基準測試中，o3-mini是OpenAI表現(xiàn)最為出色的模型。在高推理強度下，o3-mini的表現(xiàn)顯著優(yōu)于o1-mini。其中：使用開源的Agentless scaffold，o3-mini的準確率為 39%；使用內(nèi)部工具scaffold，o3-mini的準確率提升至61%。

LiveBench Coding（評估大型語言模型在編程任務中的表現(xiàn)）

人類偏好評估（Human Preference Evaluation）

注：外部專家測試者的評估結果表明，OpenAI的o3-mini在生成回答的準確性、清晰度以及推理能力方面均優(yōu)于o1-mini，尤其是在STEM領域。測試者在56%的情況下更傾向于選擇o3-mini的回答，并且在處理復雜現(xiàn)實問題時，o3-mini 的重大錯誤率降低了39%。

OpenAI表示，Plus和Team企業(yè)用戶的速率限制從每天50條消息（使用 o1-mini）提升至每天150條消息（使用 o3-mini）。并且，免費用戶也可通過“推理”選項體驗o3-mini，這是ChatGPT首次向免費用戶開放推理模型。

價格“骨折”、安全性更高了

在春節(jié)期間備受關注的國產(chǎn)大模型DeepSeek，其R1模型的推出對OpenAI構成了競爭壓力，尤其在成本方面呈現(xiàn)出顯著差異。OpenAI 的推理模型o1系列相對成本較高，o1模型的API定價為每百萬輸入tokens 15美元，每百萬輸出tokens 60美元，而DeepSeek R1的API定價為每百萬輸入tokens 0.14美元（緩存命中）/0.55美元（緩存未命中），每百萬輸出tokens 2.19美元。

這次發(fā)布中，OpenAI強調(diào)了成本問題。與OpenAI的o1-mini相比，o3-mini的價格降低了63%。o3-mini定價為每百萬輸入tokens 1.10美元，每百萬輸出tokens 4.40美元, 可謂是打了“骨折價”。不過，相比DeepSeek-R1，o3-mini的價格依然高出了不少。

禁止內(nèi)容評估（Disallowed Content Evaluations）

越獄評估（Jailbreak Evaluations）

安全方面，OpenAI表示，在訓練o3-mini以實現(xiàn)安全響應的過程中，采用了一種關鍵技術--“深思熟慮的對齊（deliberative alignment）”。通過這種方法，OpenAI訓練模型在回答用戶提示之前，先對人類編寫的安全規(guī)范進行推理。我們可以理解為，OpenAI希望確保o3-mini生成的內(nèi)容更加安全、符合道德，并降低了模型生成不良或有害響應的風險。

與OpenAI o1類似，o3-mini在應對具有挑戰(zhàn)性的安全和越獄評估時，表現(xiàn)顯著優(yōu)于GPT-4o。在部署之前，OpenAI使用與o1相同的方法，對o3-mini的安全風險進行了仔細評估，包括準備性評估、外部紅隊測試以及安全性評估。

總之，o3-mini的正式上線，標志著OpenAI在推動成本效益型智能發(fā)展方面邁出了重要一步。通過優(yōu)化STEM領域的推理能力并保持低成本，這一模型也延續(xù)了OpenAI降低智能成本的記錄。

本文來源：騰訊科技

OpenAI o3-mini STEM領域

騰訊科技

原創(chuàng)欄目