o3-mini,真的來了。 剛剛,OpenAI官宣o3-mini和o3-mini-high兩大版本正式在ChatGPT上線。 誠如奧特曼所言,免費(fèi)用戶直接打開「Reason」即可體驗(yàn),Plus用戶每天會(huì)有更多用量,具體來說: - ChatGPT免費(fèi)版:首次體驗(yàn)推理模型 - ChatGPT Plus和團(tuán)隊(duì)版:每天150次對(duì)話限制 - ChatGPT Pro:無限制訪問 - ChatGPT Enterprise和ChatGPT Edu:將在一周內(nèi)可用 - API:向3-5級(jí)開發(fā)者開放(初期暫不支持圖像分析功能) - 輸入1.10美元/百萬token、輸出4.40美元/百萬token感謝DeepSeek,o3-mini的價(jià)格這次算是徹底給打下來了——比OpenAI o1-mini便宜63%,比滿血版o1便宜93%。(但仍是GPT-4o mini的7倍左右) 訂閱用戶已經(jīng)在第一時(shí)間「告別」了o1-mini,還沒來得及說再見 OpenAI表示,o3-mini的發(fā)布是在追求高效能智能技術(shù)道路上的又一重要里程碑。通過優(yōu)化科學(xué)(Science)、技術(shù)(Technology)、工程(Engineering)和數(shù)學(xué)(Mathematics)領(lǐng)域的推理能力,同時(shí)保持較低的成本,讓高質(zhì)量AI技術(shù)變得更加平易近人。 值得一提的是,在ChatGPT中,o3-mini采用的是「中等推理強(qiáng)度」,在速度和準(zhǔn)確性之間取得平衡。所有付費(fèi)用戶還可以在模型選擇器中選擇o3-mini-high——響應(yīng)時(shí)間略長但智能水平更高的版本。 目前,由于太過火爆,ChatGPT的項(xiàng)目和自定義GPTs功能都已經(jīng)被擠崩了。 集成搜索,兩種版本可選 去年12月,十二天直播最后一彈,o3系列首次亮相便驚艷了所有人。 相較于上一代o1模型,o3在ARC-AGI等多項(xiàng)基準(zhǔn)測(cè)試中刷新SOTA。與o1-mini一樣,o3-mini是最具性價(jià)比的推理模型,可謂是突破性能邊界的「小巨人」。 在STEM領(lǐng)域,尤其是科學(xué)、數(shù)學(xué)和編程等方面,o3-mini性能表現(xiàn)卓越超越o1,并繼承了上一代低成本和低延遲的優(yōu)點(diǎn)。 對(duì)于開發(fā)者來說,o3-mini簡(jiǎn)直就是一份「大禮包」,它首次在小型推理模型中支持:包括函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者消息、流式傳輸功能。 開發(fā)者可以根據(jù)需求選擇低、中、高三種推理強(qiáng)度,讓o3-mini在處理復(fù)雜問題時(shí)進(jìn)行「深度思考」,靈活平衡速度和準(zhǔn)確性。遺憾地是,o3-mini暫不支持視覺功能。 如前所述,從今天起,o3-mini將通過Chat Completions API,Assistants API和Batch API向3-5級(jí)指定開發(fā)者開放。同時(shí),o3-mini還整合了搜索功能,能夠提供帶有相關(guān)網(wǎng)絡(luò)來源鏈接最新響應(yīng)。一起來看看這款「小而美」的o3-mini有什么過人之處。 快速、強(qiáng)大、專為STEM領(lǐng)域推理優(yōu)化 與其前身OpenAI o1類似,OpenAI o3-mini專門針對(duì)STEM推理進(jìn)行了優(yōu)化。采用了中等推理強(qiáng)度的o3-mini,在數(shù)學(xué)、編程和科學(xué)領(lǐng)域的表現(xiàn)與o1不相上下,且響應(yīng)速度更快。 報(bào)告地址:https://cdn.openai.com/o3-mini-system-card.pdf 專家測(cè)試評(píng)估顯示,o3-mini相比o1-mini能夠生成更準(zhǔn)確、更清晰的答案,推理能力更強(qiáng)。 在測(cè)試中,o3-mini的響應(yīng)結(jié)果獲得了56%的偏好度,在處理復(fù)雜現(xiàn)實(shí)問題時(shí)的重大錯(cuò)誤率更是降低了39%。在中等推理強(qiáng)度設(shè)置下,o3-mini在最具挑戰(zhàn)性的推理和智能評(píng)估項(xiàng)目(包括AIME和GPQA)中,均達(dá)到了與o1相當(dāng)?shù)乃健?/p> 數(shù)學(xué)競(jìng)賽(AIME 2024) 在低推理強(qiáng)度下,o3-mini達(dá)到了與o1-mini相當(dāng)?shù)乃;在中等推理?qiáng)度下,其表現(xiàn)可與o1媲美;而在高推理強(qiáng)度下,o3-mini的表現(xiàn)更是超越了o1-mini和o1。 博士級(jí)科學(xué)問題(GPQA Diamond) 研究級(jí)數(shù)學(xué)(FrontierMath) 在高推理強(qiáng)度模式下,o3-mini在FrontierMath中的表現(xiàn)優(yōu)于前代產(chǎn)品。當(dāng)配合Python工具使用時(shí),高推理強(qiáng)度的o3-mini能夠一次性解決超過32%的測(cè)試題目,其中包括28%以上的T3級(jí)問題。 編程競(jìng)賽(Codeforces)隨著推理強(qiáng)度的提升,OpenAI o3-mini的Elo得分不斷提高,各層級(jí)表現(xiàn)均優(yōu)于o1-mini。在中等推理強(qiáng)度下,其表現(xiàn)已能與o1相媲美。 軟件工程(SWE-bench Verified) o3-mini在高推理強(qiáng)度模式下,使用開源Agentless框架能達(dá)到39%的成功率,使用內(nèi)部工具框架則可達(dá)到61%的成功率。 LiveBench編碼 人類偏好評(píng)估 外部專家評(píng)測(cè)結(jié)果顯示,o3-mini較o1-mini表現(xiàn)出更強(qiáng)的推理能力,能夠生成更準(zhǔn)確、更清晰的答案,尤其是在STEM領(lǐng)域中。在對(duì)比測(cè)試中,o3-mini獲得了56%的用戶偏好度,且在處理復(fù)雜現(xiàn)實(shí)問題時(shí)的重大錯(cuò)誤率降低了39%。 在技術(shù)報(bào)告中,o3-mini編程性能超越了GPT-4o和o1-preview,與o1不相上下。 模型的速度與性能 o3-mini在保持與o1相當(dāng)智能水平的同時(shí),實(shí)現(xiàn)了更快的運(yùn)行速度和更高的計(jì)算效率。除前文提到的STEM評(píng)估外,在中等推理強(qiáng)度下,o3-mini在其他數(shù)學(xué)能力和事實(shí)準(zhǔn)確性測(cè)試中均取得了顯著優(yōu)勢(shì)。對(duì)比測(cè)試(A/B Testing)結(jié)果顯示,o3-mini的平均響應(yīng)時(shí)間為7.7秒,較o1-mini的10.16秒提升了24%。 o1-mini和o3-mini(medium)的延遲對(duì)比 安全評(píng)估 OpenAI在訓(xùn)練o3-mini確保其安全響應(yīng),采用的關(guān)鍵技術(shù)之一是審慎對(duì)齊(deliberative alignment)。這項(xiàng)技術(shù)使模型能夠在響應(yīng)用戶提示詞前,對(duì)人工制定的安全規(guī)范進(jìn)行全面推理。與o1相似,o3-mini在高難度安全性測(cè)試和越獄評(píng)估中,明顯優(yōu)于GPT-4o。在正式部署前,研究人員采用與o1相同的準(zhǔn)備方法,結(jié)合外部紅隊(duì)測(cè)試和安全性評(píng)估,對(duì)o3-mini的安全風(fēng)險(xiǎn)進(jìn)行了全面評(píng)估。 禁止內(nèi)容評(píng)估 越獄評(píng)估 OpenAI急了 去年年底放出o3和o3-mini的預(yù)覽時(shí),CEO奧特曼就曾表示,o3-mini將會(huì)在1月份發(fā)布。隨后,奧特曼又在1月17日預(yù)告稱,o3-mini會(huì)在幾周內(nèi)發(fā)布。 現(xiàn)在,o3-mini果然如約而至(卡在ddl最后一天),但外面的世界已經(jīng)是天差地別。面對(duì)正在快速崛起的DeepSeek-R1,o3-mini存在著一個(gè)關(guān)鍵問題——「不開源」。 這也就意味著,它無法離線使用、無法下載代碼,也無法以相同的程度進(jìn)行自定義。對(duì)于很多應(yīng)用過來說,它的吸引力相對(duì)于R1明顯大打折扣。 在上下文窗口方面,DeepSeek-R1約為128K/130K token,而o3-mini略勝一籌達(dá)到了200K token。其中,每個(gè)輸出最多100K token,跟滿血版o1相同。在價(jià)格方面,相比于輸入/輸出token分別為0.14/0.55美元的DeepSeek-R1,o3-mini依然貴出了天際。 但作為一款美國模型,o3-mini在身份上無疑占盡了好處:應(yīng)該會(huì)是歐美很多企業(yè)的首選。 奧特曼親自率隊(duì) 這一次,最強(qiáng)最新的o3-mini模型訓(xùn)練,奧特曼本尊下場(chǎng)親自率隊(duì)。研究項(xiàng)目主管分別是Carpus Chang和Kristen Ying。 接下來,如果說OpenAI還藏在什么殺手锏,那就是滿血版的o3了。根據(jù)12月時(shí)的說法,它將在「此后不久」發(fā)布。 本文來源:新智元
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。