DeepSeek低調(diào)發(fā)布了DeepSeek-V3模型的更新版本——DeepSeek-V3-0324。
沒有主動(dòng)傳播,但引起了AI行業(yè)的一陣波瀾,一個(gè)值得關(guān)注的信息點(diǎn)在于,該版本仍然基于V3的模型,改進(jìn)訓(xùn)練方法后,大幅提高了推理類任務(wù)的表現(xiàn)水平,在數(shù)學(xué)、代碼類相關(guān)評(píng)測(cè)集上取得超過GPT-4.5的得分成績(jī)。
多維度性能改進(jìn)
DeepSeek-V3-0324參數(shù)量為6850億,較上一版本的6710億略有增加。模型在代碼、數(shù)學(xué)推理等能力上實(shí)現(xiàn)了提升,尤其在代碼領(lǐng)域表現(xiàn)突出。在Aider的多語言基準(zhǔn)測(cè)試中,DeepSeek-V3-0324成績(jī)達(dá)到55%,較前代版本明顯提升,成為僅次于Sonnet3.7的非推理類模型第二名,代碼能力甚至可與Claude 3.7 Sonnet相媲美。
親民部署與開源升級(jí)
除了性能提升,DeepSeek-V3-0324在部署方面也表現(xiàn)出優(yōu)勢(shì)。該版本模型采用寬松的MIT開源協(xié)議,且可直接部署在M3 Ultra的Mac Studio上,這意味著大模型開發(fā)應(yīng)用的門檻更進(jìn)一步降低。蘋果機(jī)器學(xué)習(xí)工程師Awni Hannun 基于MLX框架和4-bit量化,在 512GB M3 Ultra上實(shí)現(xiàn)了超過20 token/s的運(yùn)行速度,將模型磁盤占用空間減少到352GB。
相比之前的自定義許可證,新協(xié)議還支持開發(fā)者自由修改、分發(fā)模型,支持模型蒸餾和商業(yè)化應(yīng)用,進(jìn)一步推動(dòng)了AI技術(shù)的共享與創(chuàng)新。
沖擊行業(yè)格局
從國(guó)內(nèi)市場(chǎng)來看,AI領(lǐng)域“六小龍”在DeepSeek的沖擊下出現(xiàn)分化。Quest Mobile1月數(shù)據(jù)顯示,當(dāng)月DeepSeek日活超越豆包,Kimi退居第三,月之暗面受到的沖擊較為明顯。而騰訊因全面擁抱DeepSeek,在基礎(chǔ)模型領(lǐng)域?qū)崿F(xiàn)追趕。
在國(guó)際市場(chǎng),DeepSeek的技術(shù)突破也引發(fā)了諸多討論。英偉達(dá)因DeepSeek的熱度,股價(jià)震蕩下行,投資者擔(dān)憂DeepSeek的技術(shù)進(jìn)步會(huì)降低市場(chǎng)對(duì)英偉達(dá)昂貴硬件的需求,以至于黃仁勛近日在GTC大會(huì)上特意強(qiáng)調(diào):“DeepSeek帶來的并不是硬件需求的減少,反而會(huì)推動(dòng)對(duì)強(qiáng)大硬件的需求?!秉S仁勛話音剛落,傳來騰訊增購(gòu)數(shù)十億元芯片的消息,這些需求主要就是包括布置DeepSeek在內(nèi)的大模型帶來的。
與此同時(shí),業(yè)內(nèi)共識(shí)在于,DeepSeek的火爆,表明中國(guó)在基礎(chǔ)設(shè)施軟件工程等領(lǐng)域取得了領(lǐng)先地位。
此次DeepSeek-V3-0324的更新,并非市場(chǎng)此前期待的DeepSeek-V4或R2。但從發(fā)布時(shí)間和技術(shù)特點(diǎn)來看,市場(chǎng)猜測(cè),DeepSeek-R2有可能在不久后上線。R2有望進(jìn)一步提升模型的推理能力,持續(xù)改寫AI產(chǎn)業(yè)的競(jìng)爭(zhēng)格局,推動(dòng)各行業(yè)智能化變革走向深入。