在月之暗面北京總部會(huì)議室,今年剛剛31歲的楊植麟正在擺弄他的筆記本。在下個(gè)會(huì)議開始之前,這位繁忙的創(chuàng)始人要抽出一個(gè)小時(shí),為公司完成一些輸出,并回應(yīng)一些疑問(wèn)。
他全程神色輕松,能在時(shí)不時(shí)的玩笑中笑出來(lái)。這一個(gè)小時(shí)沒有回應(yīng)任何行業(yè)和產(chǎn)品以外的問(wèn)題,但好像又充分展現(xiàn)了態(tài)度。
在公司卷入風(fēng)波一周后,這是一場(chǎng)突然且罕見的產(chǎn)品發(fā)布會(huì),傳遞的信號(hào)言簡(jiǎn)意賅:公司的重心仍然在模型研發(fā)和產(chǎn)品推進(jìn)上。
11月16日,在Kimi Chat全量開放一周年之際,Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math,數(shù)學(xué)能力對(duì)標(biāo)OpenAI o1系列。
在中考、高考、考研以及包含入門競(jìng)賽題的MATH等4個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中,k0-math初代模型成績(jī)超過(guò)o1-mini和o1-preview模型。在兩個(gè)難度更大的數(shù)學(xué)題庫(kù)OMNI-MATH和AIME基準(zhǔn)測(cè)試中,k0-math初代模型的表現(xiàn)分別達(dá)到了o1-mini最高成績(jī)的90%和83%。
圖片來(lái)源:記者
此外,Kimi探索版在搜索體驗(yàn)上也加入了強(qiáng)化學(xué)習(xí),在意圖增強(qiáng)、信源分析和鏈?zhǔn)剿伎既笸评砟芰ι嫌兴嵘?br/>
月之暗面方面表示,k0-math模型和Kimi探索版,未來(lái)幾周將會(huì)分批上線Kimi網(wǎng)頁(yè)版和Kimi智能助手APP。
楊植麟作為此次產(chǎn)品發(fā)布的主講人,同時(shí)探討了行業(yè)近段時(shí)間一系列關(guān)鍵議題。
楊植麟將AI技術(shù)過(guò)去幾年的發(fā)展歸功于“Scaling”,但認(rèn)為這不是簡(jiǎn)單將模型做大就可以,核心是找到有效的方法去“Scale Up”,比如說(shuō)更好的數(shù)據(jù)或算法。
同時(shí),他提及背后的范式已經(jīng)發(fā)生一些轉(zhuǎn)變,例如要從“Next-Token Prediction(預(yù)測(cè)下一個(gè)token)”轉(zhuǎn)向更關(guān)注基于強(qiáng)化學(xué)習(xí)的“Scale Up”。
這是讓大模型打破靜態(tài)數(shù)據(jù)集帶來(lái)的局限性,進(jìn)而具備思考能力去探索更艱難任務(wù)的重要環(huán)節(jié)。
對(duì)楊植麟而言,數(shù)學(xué)場(chǎng)景被認(rèn)為是AI鍛煉思考能力最適合的場(chǎng)景。他引用了伽利略的一段話,“這個(gè)宇宙如果你把它看成一本很大的書,宇宙它其實(shí)是用數(shù)學(xué)來(lái)寫的,數(shù)學(xué)是表達(dá)這個(gè)宇宙的語(yǔ)言”。并且,在數(shù)學(xué)場(chǎng)景中,AI不用跟外界交互就可以自成一體。
除了明確表示向強(qiáng)化學(xué)習(xí)進(jìn)擊之外,楊植麟對(duì)預(yù)訓(xùn)練模型作出了自己的評(píng)價(jià)和判斷。他對(duì)Scaling Law仍然樂觀,認(rèn)為預(yù)訓(xùn)練模型還有半代到一代的提升空間,這個(gè)空間大概率會(huì)由頭部大模型在明年釋放出來(lái)。
楊植麟還透露Kimi Chat的月活用戶規(guī)模達(dá)到3600萬(wàn),他難得地強(qiáng)調(diào),提升留存就是Kimi當(dāng)前最核心的目標(biāo)。
“基本上它跟你的技術(shù)成熟度或者技術(shù)水平也是一個(gè)正相關(guān)的過(guò)程,所以對(duì)我們當(dāng)前來(lái)說(shuō)是最重要的?!彼f(shuō)。
以下為楊植麟受訪實(shí)錄,略作編輯:
記者:你們預(yù)訓(xùn)練的情況現(xiàn)在是什么樣的?
楊植麟:我覺得預(yù)訓(xùn)練還有空間,半代到一代的模型。這個(gè)空間會(huì)在明年釋放出來(lái),領(lǐng)先的模型會(huì)把預(yù)訓(xùn)練做到一個(gè)比較極致的階段。
但是我們判斷接下來(lái)的重點(diǎn)會(huì)在強(qiáng)化學(xué)習(xí)上,范式上會(huì)產(chǎn)生一些變化。它還是Scaling,只是通過(guò)不同的方式去Scale。
Scaling law會(huì)不會(huì)有一個(gè)天花板或者上限?我相對(duì)來(lái)說(shuō)比較樂觀一點(diǎn)。核心在于原來(lái)用靜態(tài)數(shù)據(jù)集是比較簡(jiǎn)單粗暴的使用方式,現(xiàn)在用強(qiáng)化學(xué)習(xí)的方式,很多情況下是有人在參與這個(gè)過(guò)程。但是人沒有辦法標(biāo)注那么多數(shù)據(jù),不可能把每道題具體的思路都標(biāo)出來(lái),所以你其實(shí)是用AI本身加上人的杠桿。比如說(shuō)你標(biāo)100條數(shù)據(jù),就能產(chǎn)生非常大的作用,因?yàn)槭O碌乃际窃谧约核伎肌?/p>
它從做法上來(lái)說(shuō)確定性是比較高的,因?yàn)楹芏鄷r(shí)候(模型)是一個(gè)調(diào)出來(lái)的過(guò)程。我現(xiàn)在覺得大概率可以通過(guò)這種方式做出來(lái),它上限是很高的。
記者:關(guān)于多模態(tài)模型的問(wèn)題,Sora馬上要發(fā)了,大概是圣誕節(jié)之前,一直不做多模態(tài)的原因是什么?
楊植麟:我們也做,幾個(gè)多模態(tài)的能力在內(nèi)測(cè)。
我是這樣看的,AI接下來(lái)最重要的是思考和交互這兩個(gè)能力。思考的重要性遠(yuǎn)大于交互,不是說(shuō)交互不重要,交互是一個(gè)必要條件,但思考會(huì)決定上限。
你就看這個(gè)任務(wù)的標(biāo)注難度有多大,你到底需要一個(gè)博士去標(biāo),還是每個(gè)人都可以標(biāo),哪個(gè)任務(wù)更難找到這樣的人,那個(gè)東西就是AI的上限。
記者:你是什么時(shí)候決定聚焦Kimi?
楊植麟:大概今年二、三月份吧,或者三、四月份,大概那個(gè)區(qū)間。一個(gè)是基于美國(guó)市場(chǎng)的判斷,二是基于我們自己的觀察,主要是這兩點(diǎn)。還有就是確實(shí)得做減法,不是瘋狂的做加法。
記者:對(duì)于Kimi來(lái)說(shuō),它目前的最核心的任務(wù)是什么?
楊植麟:最核心的任務(wù)就是提升留存,或者把留存作為一個(gè)重要的衡量指標(biāo)?;旧纤愕募夹g(shù)成熟度或者技術(shù)水平也是一個(gè)正相關(guān)的過(guò)程,所以對(duì)我們當(dāng)前來(lái)說(shuō)是最重要的。
假設(shè)我們衡量距離AGI目標(biāo)的距離,現(xiàn)在還是初級(jí)階段,當(dāng)然每年都有一些比較大的進(jìn)步,如果今年用去年的產(chǎn)品,你會(huì)發(fā)現(xiàn)可能根本沒法忍受。
記者:Kimi過(guò)去一年確實(shí)深受很多用戶的喜歡,但是它最受爭(zhēng)議的一個(gè)問(wèn)題就是燒錢投放,能不能今天有一個(gè)正式的回應(yīng),就是為什么Kimi在那么早的時(shí)間選擇投放用戶?你今天也說(shuō)到了關(guān)于留存其實(shí)并沒有那么的滿意,那接下來(lái)投放的動(dòng)作會(huì)是持續(xù)性的嗎?
楊植麟:整體留存我們相比于其它的產(chǎn)品還是有優(yōu)勢(shì)的,如果放眼去看這個(gè)產(chǎn)品的終極生態(tài),今天肯定有非常大的空間,這個(gè)是我想表達(dá)的,我們會(huì)持續(xù)在這個(gè)方面做得更好,肯定還有很大的空間
記者:因?yàn)轭A(yù)訓(xùn)練的Scale現(xiàn)在都覺得遇到瓶頸了,美國(guó)遇到瓶頸以后你覺得對(duì)中美大模型的格局的影響是什么?差距是變大還是變?。刻貏e是對(duì)于中國(guó)公司來(lái)說(shuō)是好事還是壞事?能不能對(duì)未來(lái)做一些預(yù)測(cè)?
楊植麟:對(duì)我們來(lái)說(shuō)它有可能是一個(gè)好事。假設(shè)你一直pre-train,你的預(yù)算今年1B、明年10B或者100B,它不一定可持續(xù)。當(dāng)然你做post-train也要Scaling,只是說(shuō)Scaling的起點(diǎn)很低。你可能Scale很長(zhǎng)一段時(shí)間,在一段時(shí)間內(nèi)你的算力就不會(huì)是瓶頸,這個(gè)時(shí)候你的創(chuàng)新能力是更重要的,在這種情況下我覺得對(duì)我們反而是一個(gè)優(yōu)勢(shì)。
記者:在范式轉(zhuǎn)化之后,從訓(xùn)練的Scaling到推理的Scaling,可以完整回顧一下,看到這個(gè)趨勢(shì)的時(shí)候做了哪些關(guān)鍵的判斷?之后的技術(shù)和產(chǎn)品上已經(jīng)有了哪些調(diào)整?
楊植麟:o1的變化其實(shí)是可以預(yù)測(cè)的,我們很早就在說(shuō)接下來(lái)推理占的比例會(huì)遠(yuǎn)遠(yuǎn)超過(guò)訓(xùn)練。因?yàn)槟闳绻シ治龅脑?,它是必然產(chǎn)生的,你沒有那么多數(shù)據(jù)訓(xùn)練,你肯定是要生成數(shù)據(jù),生成數(shù)據(jù)肯定是強(qiáng)化學(xué)習(xí),本質(zhì)是一樣的。
只不過(guò)在早期預(yù)訓(xùn)練的很多紅利沒有被完全發(fā)揮出來(lái),所以可能很關(guān)注怎么通過(guò)Next—Token prediction能壓縮出來(lái)更多的智能。但是我們很早去鋪墊,比如說(shuō)在強(qiáng)化學(xué)習(xí)上我們能做什么,不管是在人才上還是在技術(shù)的儲(chǔ)備上。
記者:o1發(fā)了以后大家也會(huì)覺得深層推理,還有包括你今天說(shuō)的數(shù)學(xué)模型,它離普通用戶比較遠(yuǎn),你怎么看這個(gè)功能和用戶的關(guān)系?
楊植麟:其實(shí)也不遠(yuǎn)。數(shù)學(xué)我覺得是兩個(gè)方面的價(jià)值,第一個(gè)方面它今天在教育產(chǎn)品上其實(shí)有非常大的價(jià)值。在我們整體的流量里也起到很重要的作用。第二個(gè),我覺得它是技術(shù)上的迭代和驗(yàn)證。我們可以把這個(gè)技術(shù)去放在更多的場(chǎng)景里,比如我們剛剛說(shuō)的探索版。
記者:怎么看待AI創(chuàng)業(yè)公司被收購(gòu),人才回流大的現(xiàn)象?
楊植麟:這個(gè)問(wèn)題我們沒有遇到,但可能有一些別的公司遇到。行業(yè)發(fā)展進(jìn)入了一個(gè)新的階段,它從一開始有很多公司在做,變成了現(xiàn)在少一點(diǎn)的公司在做,接下來(lái)大家做的東西會(huì)逐漸不一樣,我覺得這是必然的規(guī)律。
我們主動(dòng)選擇做了業(yè)務(wù)的減法,這個(gè)還是很重要的,你應(yīng)該聚焦一些重要的事情,然后做好。在這幾個(gè)大模型創(chuàng)業(yè)公司里,我們始終保持人數(shù)最少,始終保持卡和人的比例是最高的,這個(gè)非常關(guān)鍵。
如果你想把團(tuán)隊(duì)保持在一定的規(guī)模,最好的方式是業(yè)務(wù)上做一些減法。我們一開始確實(shí)也嘗試過(guò)幾個(gè)產(chǎn)品一塊做,這在一定的時(shí)期內(nèi)有可能是有效的,到后來(lái)發(fā)現(xiàn)還是要聚焦,把一個(gè)產(chǎn)品做好、做到極致是最重要的。
砍業(yè)務(wù)本質(zhì)上也是在控制人數(shù),不希望人數(shù)長(zhǎng)得特別猛。如果現(xiàn)在三個(gè)業(yè)務(wù)一起做,我就活生生把自己變成大廠,就沒有任何的優(yōu)勢(shì)。