首頁(yè) > 科技要聞 > 科技> 正文

楊植麟發(fā)布Kimi新模型:數(shù)學(xué)對(duì)標(biāo)o1,中考高考考研成績(jī)?nèi)谝?

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-19 15:54

kimi全面開放一周年之際,創(chuàng)始人楊植麟親自發(fā)布新模型——

數(shù)學(xué)模型k0-math,對(duì)標(biāo)OpenAI o1系列,主打深入思考。

在MATH、中考、高考、考研4個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中,k0-math成績(jī)超過o1-mini和o1-preview。

在demo展示中,k0-math思考過程全面展示,解題過程可能會(huì)非常長(zhǎng)。

它會(huì)一邊自言自語(yǔ)“我卡殼了”,一邊不斷嘗試用各種思路。

以下面這道AIME競(jìng)賽題目為例,k0-math通過不斷探索和試錯(cuò),嘗試了八九次做法后,最終得出了正確結(jié)果。

楊植麟現(xiàn)場(chǎng)直言,很簡(jiǎn)單的問題有時(shí)它也會(huì)反復(fù)思考。

比如遇到簡(jiǎn)單的“1+1等于幾”,它要“先可視化一下”,“再檢查一遍”、“用數(shù)學(xué)方式來確認(rèn)”、“再用另一種方法來驗(yàn)證”,最終才能“信心滿滿”得出最終答案1+1=2:

再比如4046/476等于多少,它其實(shí)一開始就得到了答案,但又進(jìn)行反思經(jīng)過一系列驗(yàn)證推出等于8.5:

在楊植麟看來,這是一個(gè)機(jī)遇,也是一個(gè)局限。預(yù)計(jì)在下一階段的模型迭代中,會(huì)逐步改善這個(gè)問題,讓模型能夠自己知道何時(shí)需要深入思考。

發(fā)布k0-math也反映出月之暗面現(xiàn)在的著重點(diǎn)——提升模型的深入思考能力、基于強(qiáng)化學(xué)習(xí)的Scaling Law

楊植麟表示最近Kimi探索版還運(yùn)用強(qiáng)化學(xué)習(xí)技術(shù)創(chuàng)新搜索體驗(yàn),提升了意圖增強(qiáng)、信源分析和鏈?zhǔn)剿伎既笸评砟芰Α?/p>

k0-math模型和更強(qiáng)的Kimi探索版,未來幾周就將分批陸續(xù)上線Kimi網(wǎng)頁(yè)版和Kimi智能助手APP。

除新產(chǎn)品外,楊植麟現(xiàn)場(chǎng)還一并回答了大伙兒感興趣的諸多問題,包括接下來的研發(fā)重點(diǎn)、對(duì)多模態(tài)的看法、預(yù)訓(xùn)練情況等。

Kimi探索版推理能力提升

Kimi探索版意圖增強(qiáng)能力提升,指的是它可以將抽象的問題和模糊的概念具體化,拓展用戶的真實(shí)搜索意圖。

例如,當(dāng)互聯(lián)網(wǎng)產(chǎn)品經(jīng)理調(diào)研某產(chǎn)品的用戶忠誠(chéng)度,Kimi探索版會(huì)思考當(dāng)用戶搜索“忠誠(chéng)度”時(shí),本質(zhì)上是想做數(shù)據(jù)的分析,然后找到可以體現(xiàn)忠誠(chéng)度的維度,將這個(gè)比較模糊和抽象的概念,轉(zhuǎn)化為更加具體的“活躍度、留存率、使用頻率、使用時(shí)長(zhǎng)”等關(guān)鍵詞。

然后通過機(jī)器更擅長(zhǎng)的海量并行搜索,查找更全面和準(zhǔn)確的答案。

Kimi 探索版信源分析能力也有提升,會(huì)從大量的搜索來源結(jié)果中,分析篩選出更具權(quán)威性和可靠性的信源。

現(xiàn)在在答案中還提供溯源鏈接了,可一鍵定位信源具體出處,精確到段落級(jí)別,讓條信息都有據(jù)可查。

最后鏈?zhǔn)剿伎寄芰μ嵘傅氖荎imi探索版可以更好地基于思維鏈推理能力處理產(chǎn)品、公司、行業(yè)等研究問題。

例如,當(dāng)程序員做技術(shù)選型,想要了解“react中有哪些狀態(tài)管理庫(kù),最好用的是什么”。

Kimi首先會(huì)拆解問題,找到react的狀態(tài)管理庫(kù)有哪些,然后分別搜索每個(gè)狀態(tài)管理庫(kù)的優(yōu)缺點(diǎn)、使用場(chǎng)景和推薦理由,最后分析總結(jié)找到的所有高質(zhì)量信息,推薦一個(gè)最適合大多數(shù)情況的狀態(tài)管理庫(kù)和理由。

“思考決定模型上限”

Q:強(qiáng)化學(xué)習(xí)過程中,如何解決數(shù)據(jù)、算力、算法平衡問題?

A:我覺得AI的發(fā)展就是一個(gè)蕩秋千的過程,你會(huì)在兩種狀態(tài)之間來回切換。

一種狀態(tài)是算法、數(shù)據(jù)非常ready,但是算力不夠。所以你要做的事情就是做更多的工程,把infra做得更好,它就能夠持續(xù)的提升。

我覺得其實(shí)從transformer誕生到GPT-4,更多的矛盾就是怎么能夠Scale,但是可能在算法和數(shù)據(jù)上沒有本質(zhì)的問題。

今天當(dāng)Scale差不多的時(shí)候,你會(huì)發(fā)現(xiàn)我再加更多的算力,并不一定能直接解決這個(gè)問題,核心是因?yàn)槟銢]有高質(zhì)量的數(shù)據(jù),小幾十G的token是人類互聯(lián)網(wǎng)積累了20多年的上限。

這個(gè)時(shí)候要做的事情,就是通過算法的改變,讓這個(gè)東西不會(huì)成為瓶頸,F(xiàn)在可以理解成我們遇到的問題或者整個(gè)行業(yè)遇到的問題,也許你直接加更多的卡它不一定能看到直接的提升,所以你要通過這個(gè)方式的改變讓它把這個(gè)東西釋放出來。

所有的好算法就是跟Scaling做朋友,如果你的算法能夠釋放Scaling的潛力,它就會(huì)持續(xù)變得更好。

我們從很早就開始做強(qiáng)化學(xué)習(xí)相關(guān)的東西,我覺得這個(gè)也是接下來很重要的一個(gè)趨勢(shì),通過這種方式去改變你的目標(biāo)函數(shù),改變你的學(xué)習(xí)的方式,讓它能持續(xù)的Scale。

Q:非transformer會(huì)不會(huì)解決這種問題?

A:不會(huì),因?yàn)樗旧硎且粋(gè)學(xué)習(xí)算法或者是沒有學(xué)習(xí)目標(biāo)的問題。

Q:你們這個(gè)產(chǎn)品如果一兩周之后放到Kimi探索版里,用戶可以選擇使用,還是你們會(huì)根據(jù)用戶的提問來分配是否用這個(gè)模型?在不同的模式下,每個(gè)用戶一段時(shí)間內(nèi)可以用多少次?以及目前Kimi主要的收入是在打賞,不是付費(fèi)訂閱,你們?cè)趺雌胶獬杀締栴}?

A:我們接下來的版本大概率會(huì)讓用戶自己去選擇。

早期通過這種方式可以更好地分配或者更好滿足用戶的預(yù)期,我們也不想讓它1+1等于多少,想半天。

所以我覺得早期可能會(huì)用這樣的方案。

但是我覺得這里面最終可能還是一個(gè)技術(shù)問題。兩個(gè)點(diǎn),一個(gè)點(diǎn)是能夠動(dòng)態(tài)的給它分配最優(yōu)的算力。如果模型足夠聰明,它應(yīng)該知道什么樣的問題需要想多久,就跟人一樣,不會(huì)1+1也想半天。

我們現(xiàn)在已經(jīng)一定程觀察到度簡(jiǎn)單的問題它的思考時(shí)間也會(huì)更短,但是可能還不是最優(yōu),這是我們通過算法迭代去再提升的。

長(zhǎng)期來講我覺得第二個(gè)點(diǎn)是成本也在不斷下降。比如說今年如果達(dá)到去年GPT-4模型的水平,可能只需要十幾B的參數(shù)就能做到,去年可能需要一百多B。

Q:你們預(yù)訓(xùn)練的情況現(xiàn)在是怎么樣的?你著重講了Scaling Law,比較好奇像你這么聰明的人會(huì)不會(huì)被Scaling Law這個(gè)事情給限制住?

A:我先說第一個(gè)問題,我覺得預(yù)訓(xùn)練還有空間,半代到一代的模型。這個(gè)空間會(huì)在明年釋放出來,明年我覺得領(lǐng)先的模型會(huì)把預(yù)訓(xùn)練做到一個(gè)比較極致的階段,今天比如說我們?nèi)タ醋詈玫哪P退蟾庞羞@樣的空間可以去壓榨。

但是我們判斷接下來最重點(diǎn)的東西會(huì)在強(qiáng)化學(xué)習(xí)上,就是范式上會(huì)產(chǎn)生一些變化。但是它還是Scaling,并不是它不用Scale,只是說你會(huì)通過不同的方式去Scale,這是我們的判斷。

你說Scaling law會(huì)不會(huì)是一個(gè)天花板或者是上限,這個(gè)相對(duì)來說我比較樂觀一點(diǎn)。

核心就在于原來你用靜態(tài)數(shù)據(jù)集,靜態(tài)數(shù)據(jù)集其實(shí)是比較簡(jiǎn)單粗暴的使用方式,現(xiàn)在用強(qiáng)化學(xué)習(xí)的方式很多情況下是有人在參與這個(gè)過程的,但是人沒有辦法給你標(biāo)注那么多數(shù)據(jù),不可能把每道題具體的思路都標(biāo)出來,所以你其實(shí)用AI本身把人的東西加上一個(gè)杠桿。

比如說你標(biāo)100條數(shù)據(jù),就能產(chǎn)生非常大的作用,因?yàn)槭O碌亩际撬谧约核伎,我覺得更多的會(huì)用這種方式去解決。

具體從做法上來看,我覺得確定性是比較高的,很多時(shí)候是真正把它調(diào)出來的過程,所以我現(xiàn)在覺得這個(gè)大概率可以通過這種方式去做出來,所以我覺得它上限是很高的。

Q:想問一下多模態(tài)的問題,Sora大概馬上要發(fā)了。

A:我們也做,幾個(gè)多模態(tài)的能力在內(nèi)測(cè)。

我是這樣看的,我覺得AI接下來最重要的是思考和交互這兩個(gè)能力。思考的重要性遠(yuǎn)大于交互,不是說交互不重要,我覺得思考會(huì)決定上限,交互我覺得是一個(gè)必要條件,比如說vision的能力,如果沒有vision的能力沒法做交互。

所以我覺得它兩個(gè)不太一樣,就看要做這個(gè)任務(wù)標(biāo)注任務(wù)的難度有很大,到底需要一個(gè)博士去標(biāo),還是每個(gè)人都可以標(biāo),哪個(gè)東西更難找到這樣的人,那個(gè)東西就是AI的上限。

所以我覺得多模態(tài)肯定是必要的,但是我覺得是思考決定它的上限。

本文來源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷量超過3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部