Kimi向Open AI發(fā)起沖擊

Kimi向Open AI發(fā)起沖擊
2024年11月16日 23:20 市場資訊

@全體股民:《投資研報(bào)》巨額特惠,滿3000減1000,滿1500減500!【歷史低價手慢無,速搶>>

  來源:華爾街見聞

  5天前,炙手可熱的AI獨(dú)角獸公司創(chuàng)始人楊植麟陷入一場仲裁糾紛,他堅(jiān)定選擇了依法抗辯。AI大模型正處于技術(shù)追趕的關(guān)鍵階段,他要把重心放在技術(shù)和產(chǎn)品上。

  一年前的今天,Kimi正式面向全社會開放服務(wù)。一年后,Kimi迎來重磅技術(shù)迭代。

  11月16日,楊植麟在媒體溝通會上表示,Scaling范式已經(jīng)發(fā)生變化,公司接下來的重點(diǎn)是基于強(qiáng)化學(xué)習(xí)去“Scale”。Scaling是支撐AI技術(shù)在過去幾年發(fā)展的根本原因,但并不是把模型做得更大就好,核心是找到Scaling的有效方法。

  楊植麟表示,簡單去預(yù)測下一個token,其實(shí)有一定的局限性,我們希望AI能夠去探索,接下來很重要的一個東西就是讓AI具備思考的能力。

  會上,月之暗面發(fā)布了最新的數(shù)學(xué)模型k0—math,該模型主要通過數(shù)學(xué)場景去培養(yǎng)和訓(xùn)練AI深度思考的能力。這是Kimi 推出的首款推理能力強(qiáng)化模型。

  Kimi將苗頭對準(zhǔn)OpenAI的最新技術(shù)。在多項(xiàng)基準(zhǔn)能力測試中,k0-math 的數(shù)學(xué)能力可對標(biāo)OpenAI的o1系列。比如,在中考、高考、考研以及包含入門競賽題的MATH等 4 個數(shù)學(xué)基準(zhǔn)測試中,k0-math 初代模型成績超過o1-mini和o1-preview模型。

  不過,追趕OpenAI并沒有那么容易。在兩個難度更大的競賽級別的數(shù)學(xué)題庫 OMNI-MATH 和 AIME 基準(zhǔn)測試中,k0-math 初代模型的表現(xiàn)分別達(dá)到了o1-mini最高成績的90%和83%。

  目前,月之暗面已經(jīng)開始在k0-math上做產(chǎn)品化,公司將強(qiáng)化學(xué)習(xí)用到Kimi探索版,讓它做更復(fù)雜的搜索。據(jù)楊植麟介紹,Kimi探索版在搜索意圖、信源分析、鏈?zhǔn)剿伎挤矫姹憩F(xiàn)顯著。

  同時,數(shù)學(xué)本身有更廣泛的應(yīng)用場景,月之暗面計(jì)劃把k0—math應(yīng)用到教育場景,包括K12、大學(xué)甚至是競賽。

  過去一年多,月之暗面經(jīng)歷了飛速發(fā)展,無論是產(chǎn)品技術(shù)還是估值,都成為最受矚目的AI獨(dú)角獸公司。

  2023年3月,月之暗面成立;11月,Kimi 智能助手宣布全面開放,今年初,該產(chǎn)品因“長文本”出圈,誕生Kimi概念股,受到廣泛關(guān)注。截至目前,月之暗面已完成四次融資,阿里、騰訊紛紛入股,公司估值超過200億元。

  楊植麟在會上透露,Kimi在10月月活超過3600萬,而且還在持續(xù)更快的增長。業(yè)內(nèi)人士分析,Kimi是僅次于豆包的AI應(yīng)用,目前處于第一梯隊(duì),不過,相對國外幾億量級的用戶而言,Kimi還有很長一段路需要追趕。

  公司已將Scaling范式切換到強(qiáng)化學(xué)習(xí),華爾街見聞獲悉,公司的多模態(tài)產(chǎn)品已經(jīng)處于內(nèi)測當(dāng)中,預(yù)計(jì)很快會對外公布,這些動作無疑將帶來更多用戶。

  在這場全球AI競賽中,楊植麟要帶領(lǐng)月之暗面在一個裹挾著巨大希望和時刻被質(zhì)疑的行業(yè)里,闖出一條通往AGI的路,這場戰(zhàn)役才剛剛開始。

  以下為交流會實(shí)錄(經(jīng)編輯):

  問:數(shù)據(jù)會不會成為比較大的挑戰(zhàn),怎么判斷哪些數(shù)據(jù)可以用,哪些有價值?

  楊植麟:這個問題對于強(qiáng)化學(xué)習(xí)來講是一個核心問題,如果是像以前做Next—Token prediction,它是一個靜態(tài)數(shù)據(jù),相對來說,這些技術(shù)會更成熟一些。但是對強(qiáng)化學(xué)習(xí)來講,所有的學(xué)習(xí)數(shù)據(jù)可能都是自己生成的,就會對獎勵模型效果提出挑戰(zhàn)。

  對于這個問題,核心是怎么更好地訓(xùn)練獎勵模型,設(shè)置獎勵的機(jī)制,如果做得足夠好話,一定程度上是可以被解決的。有點(diǎn)像以前的(pretraining)你還要做很多的對齊工作,我覺得其實(shí)對強(qiáng)化學(xué)習(xí)來說也是一樣的。  

  問:對于強(qiáng)化學(xué)習(xí),怎么平衡數(shù)據(jù)、算力、算法?

  楊植麟:我覺得AI的發(fā)展就是一個蕩秋千的過程,你會在兩種狀態(tài)之間來回切換,一種狀態(tài)就是算法數(shù)據(jù)是非常ready,但是你的算力不夠。所以你要做更多的工程,把infra做得更好,它就能夠持續(xù)地提升。我覺得其實(shí)從transformer誕生到GPT4,其實(shí)更多的矛盾就是我怎么能夠Scale,但是你可能在算法和數(shù)據(jù)上可能沒有本質(zhì)的問題。    

  今天,當(dāng)你Scale差不多的時候,你會發(fā)現(xiàn)我再加更多的算力,并不一定能直接解決這個問題,核心是,因?yàn)槟銢]有高質(zhì)量的數(shù)據(jù),小幾十G的token是人類互聯(lián)網(wǎng)積累了20多年的上限。這個時候要做的事情,就是通過算法的改變,讓這個東西不會成為瓶頸。所有的好算法就是跟Scaling做朋友,如果你的算法能夠釋放Scaling的潛力,它就會持續(xù)變得更好。

  我們從很早就開始做強(qiáng)化學(xué)習(xí)相關(guān)的東西,我覺得這個也是接下來很重要的一個趨勢,通過這種方式去改變你的目標(biāo)函數(shù),改變你的學(xué)習(xí)的方式,讓它能持續(xù)的Scale。

  問:這個產(chǎn)品如果一至兩周之后放到Kimi探索版里,用戶可以選擇用這個東西,還是你們會根據(jù)用戶的提問來分配模型?怎么去平衡成本問題?

  楊植麟:這個問題特別好,接下來的版本大概率會讓用戶自己去選擇。早期通過這種方式可以更好地分配或者更好地滿足用戶的預(yù)期。

  這里面最終可能還是一個技術(shù)問題,兩個點(diǎn),一個點(diǎn)是能夠動態(tài)地給它分配最優(yōu)的算力。如果模型足夠聰明的話,簡單的問題它的思考時間會更短。但是它可能還不是到最優(yōu)的點(diǎn),我覺得它還有更優(yōu),這是我們通過算法迭代去做的。

  長期來講,第二個點(diǎn)是成本也是不斷下降的過程。比如說,今年如果達(dá)到去年GPT4模型的水平,可能只需要十幾B的參數(shù)就能做到。所以我覺得整個行業(yè)先做大或者做小,是這樣的普遍普世的規(guī)律。

  問:怎么看待AI創(chuàng)業(yè)公司被收購,人才回流大的現(xiàn)象?  

  楊植麟:這個問題我們沒有遇到,但可能有一些別的公司遇到。

  我覺得倒也正常,行業(yè)發(fā)展進(jìn)入了一個新的階段,它從一開始有很多公司在做。變成了現(xiàn)在少一點(diǎn)的公司在做,接下來大家做的東西會逐漸不一樣,我覺得這是必然的規(guī)律。

  我們主動選擇做了業(yè)務(wù)的減法,你應(yīng)該聚焦一些重要的事情,把一個產(chǎn)品做好,做到極致是最重要的。在幾個大模型創(chuàng)業(yè)公司里,我們始終保持人數(shù)最少,保持卡和人的比例是最高的,我覺得這個是非常關(guān)鍵的。我們不希望把團(tuán)隊(duì)擴(kuò)那么大,太大對創(chuàng)新有致命性傷害。如果想把團(tuán)隊(duì)保持在一定的規(guī)模,最好的方式是業(yè)務(wù)上做一些減法。

  另外一點(diǎn),我們也根據(jù)美國市場的情況去判斷,哪個業(yè)務(wù)最后做大的概率更高,我們聚焦在上限最高的事情,而且跟我們AGI的misson也最相關(guān)。

  問:多模態(tài)我們一直不做的原因是什么?

  楊植麟:我們幾個多模態(tài)的能力在內(nèi)測。

  我覺得AI接下來最重要的是思考和交互這兩個能力,思考的重要性遠(yuǎn)大于交互,不是說交互不重要,我覺得思考會決定上限,交互我覺得是一個必要條件,比如說vision的能力,如果沒有vision的能力沒法做交互。

  我覺得他們兩個不太一樣,多模態(tài)肯定是必要的,但是我覺得是思考決定它的上限。

  問:怎么看自己跟豆包的競爭?

  楊植麟:我們還是更希望關(guān)注怎么能給用戶帶來真正的價值,不希望過多去關(guān)注競爭本身,因?yàn)楦偁幈旧聿⒉划a(chǎn)生價值。deliver更好的技術(shù)和產(chǎn)品,給用戶創(chuàng)造更大的價值,這是我們現(xiàn)在最核心的問題。

  我們會更聚焦在,怎么提升模型的思考推理能力,通過這個東西給用戶帶來更大的價值。我覺得,只要有人實(shí)現(xiàn)AGI,它都是非常好的結(jié)果。

  問:Kimi用是你們自己的基礎(chǔ)模型,還是開源?

  楊植麟:我們自己在做。

  提問:出海怎么想?

  楊植麟:我覺得先聚焦,然后全球化,需要更耐心一點(diǎn)。

  問:大模型的投流的問題確實(shí)受關(guān)注,Kimi投了上百萬的廣告,統(tǒng)計(jì)的金額四五億,我們在投流這塊是什么策略?

  楊植麟:第一數(shù)據(jù)不完全準(zhǔn)確。第二,對我們來講最核心的是把留存和getting growth做好。適當(dāng)?shù)耐斗攀切枰?,但是需要平衡好這幾個東西之間的關(guān)系。

  問:留存到多少會滿意?

  楊植麟:永無止境。

  問:至少RIO需要為正吧?

  楊植麟:看怎么衡量吧,這個東西肯定需要去算,我們也會持續(xù)地提升。我們的好處是,跟技術(shù)的進(jìn)展高度正相關(guān)。

  問:投流成本很高?Kimi怎么能把成本收回來,怎么做良性的商業(yè)化?

  楊植麟:對我們來說,現(xiàn)在最關(guān)鍵的還是留存,我覺得這個還是需要看得再長遠(yuǎn)一些。

  問:美國預(yù)訓(xùn)練的Scale遇到瓶頸,對于中國公司來說是好事還是壞事?能不能對未來做一些預(yù)測?

  楊植麟:對我們來說它有可能是一個好事。假設(shè)你一直Pre-Training(預(yù)訓(xùn)練),你的預(yù)算今年1B、明年10B或者100B,它不一定可持續(xù)。

  當(dāng)然做強(qiáng)化學(xué)習(xí)也要Scaling,只是說Scaling的起點(diǎn)很低,可能在一段時間內(nèi)你的算力就不會是瓶頸,這個時候創(chuàng)新能力是更重要的,在這種情況下,我覺得對我們反而是一個優(yōu)勢。

  風(fēng)險提示及免責(zé)條款

  市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP

責(zé)任編輯:丁文武

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財(cái)經(jīng)公眾號
新浪財(cái)經(jīng)公眾號

24小時滾動播報(bào)最新的財(cái)經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 11-25 佳馳科技 688708 --
  • 11-22 英思特 301622 --
  • 11-18 勝業(yè)電氣 920128 9.12
  • 11-18 聯(lián)蕓科技 688449 11.25
  • 11-15 紅四方 603395 7.98
  • 新浪首頁 語音播報(bào) 相關(guān)新聞 返回頂部