通過“開源周”以及公開發(fā)布V3/R1大模型的推理系統(tǒng)技術(shù)介紹,DeepSeek成為AI技術(shù)圈和開發(fā)者的“開源之神”,已經(jīng)被昵稱為DeepOpen。
當(dāng)DeepSeek的開源代碼如蒲公英種子飄向世界,國內(nèi)AI芯片行業(yè)是否能借此東風(fēng),迎來屬于自己的春天?
“(DeepSeek的開源)對整個AI行業(yè)都有一定程度的推動?!毙袠I(yè)研究機構(gòu)Omdia人工智能首席分析師蘇廉節(jié)告訴《中國經(jīng)營報》記者,AI芯片廠商通過這些開源代碼更加了解DeepSeek大模型的架構(gòu)和特點,進而做出相對應(yīng)的優(yōu)化,特別是算力的配置、訓(xùn)練推理的架構(gòu)、存儲資源的需求等。
摩爾線程和壁仞科技這兩家國內(nèi)AI芯片的代表廠商都在接受采訪時表示,DeepSeek這種低算力需求的大模型,對國產(chǎn)AI芯片的發(fā)展是一個重要機遇。
記者還注意到,隨著Deep-Seek的出圈,國產(chǎn)算力迎來火爆行情,一大批一體機密集上線,由此出現(xiàn)“2025是一體機元年”的觀點。“一體機今年火起來主要是因為DeepSeek,很多政企客戶都想把DeepSeek用起來?!比萋?lián)云大模型產(chǎn)品負責(zé)人唐興才表示,市面上目前滿血版Deep-Seek大模型一體機售價約為200萬元。
盤活國產(chǎn)AI生態(tài)
在“開源周”上,F(xiàn)lashMLA是DeepSeek專為英偉達Hopper架構(gòu)GPU(如英偉達H100/H800)優(yōu)化的注意力解碼內(nèi)核,已投入生產(chǎn),現(xiàn)在被視為提升顯卡潛力的“加速器”。DeepEP則是首個用于MoE模型訓(xùn)練和推理的開源EP通信庫,可以直接調(diào)用HopperGPU的TMA張量內(nèi)存加速器,被稱為大模型訓(xùn)練的“通信管家”。而Deep-GEMM是一個優(yōu)化矩陣乘法的工具,實現(xiàn)FP8低精度下的1350+TFLOPS算力,代碼僅300行,被稱為矩陣計算的“省電小能手”。Du-alPipe主要用于解決流水線并行中的“等待時間”問題;比如,多任務(wù)步驟速度不一時,其能雙向調(diào)度,減少空閑時間。EPLB則用于自動平衡GPU負載,當(dāng)某些AI專家模型任務(wù)過重時,會復(fù)制任務(wù)到空閑顯卡,避免“忙的忙死,閑的閑死”。最后的是3FS,被稱為數(shù)據(jù)處理的“極速組合”,采用了分布式文件系統(tǒng),利用高速存儲和網(wǎng)絡(luò)技術(shù)(如SSD、RDMA),讓數(shù)據(jù)讀取速度達到每秒6.6TB。
值得注意的是,DeepSeek在包括上述開源項目中直接調(diào)用比英偉達CUDA更底層的指令PTX(Par-allelThreadExecution,一種底層硬件指令集,用于直接與GPU驅(qū)動函數(shù)進行交互,實現(xiàn)更為精細的硬件操作、優(yōu)化TMA加速器等),顯示出DeepSeek對于GPU微架構(gòu)的深度了解。這種能力通常為芯片設(shè)計團隊所獨有。
蘇廉節(jié)也表示,DeepSeek團隊對GPU硬件底層技術(shù)的理解力很強,這在大模型行業(yè)并不多見。甚至有消息傳出,DeepSeek在尋找芯片設(shè)計人才,想要做自己的芯片。對此,蘇廉節(jié)認為,目前140人的DeepSeek團隊要做芯片設(shè)計很困難,但它背后的幻方量化所在的金融領(lǐng)域確實有定制化芯片的需求。
目前,摩爾線程已實現(xiàn)對DeepSeek開源周“全家桶”的支持,涵蓋FlashMLA、DeepEP、Deep-GEMM、DualPipe以及Fire-Flyer文件系統(tǒng)(3FS);壁仞科技在“開源周”之前就已經(jīng)實現(xiàn)對FlashMLA、DeepGEMM、DeepEP等核心模塊類似功能和優(yōu)化技術(shù)。
事實上,春節(jié)期間已有多家國產(chǎn)芯片企業(yè)陸續(xù)宣布對DeepSeek模型的適配或者上架服務(wù),包括華為昇騰、沐曦、天數(shù)智芯、摩爾線程、海光信息、壁仞科技、云天勵飛、燧原科技、昆侖芯等。
“通過‘開源周’,更多人尤其是開發(fā)者看到了DeepSeek的優(yōu)勢和如何去進行調(diào)優(yōu)和適配。”蘇廉節(jié)認為,國內(nèi)AI芯片廠商可以從Deep-Seek的開源代碼庫中看到和進一步了解底層的哪些代碼對未來的適配性有幫助。
“比如DeepEP是一個專門為混合專家模型開發(fā)的并行通信技術(shù),需要芯片廠商支援。”蘇廉節(jié)表示,芯片廠商因此會開發(fā)相對應(yīng)的工具,讓開發(fā)者能更順暢地進行代碼轉(zhuǎn)移和應(yīng)用支撐。
摩爾線程方面則認為,Deep-Seek的開源模式為國產(chǎn)AI芯片廠商提供了與軟件開發(fā)者合作的機會?!巴ㄟ^與DeepSeek為代表的開源模型的合作,國內(nèi)AI芯片廠商可以更好地理解AI應(yīng)用的需求,進行針對性優(yōu)化;國產(chǎn)模型+國產(chǎn)芯片可以形成完整的AI閉環(huán),加速國產(chǎn)AI生態(tài)的發(fā)展進程?!?/p>
“短期內(nèi),國產(chǎn)GPU廠商應(yīng)保持訓(xùn)練芯片的持續(xù)迭代,比如最好支持FP8,確保技術(shù)不脫節(jié),同時通過推理芯片快速切入商業(yè)化場景?!蹦柧€程方面還表示,長期來看應(yīng)該瞄準(zhǔn)“訓(xùn)(練)推(理)一體”架構(gòu),通過統(tǒng)一計算平臺降低客戶切換成本,最終在自主生態(tài)中實現(xiàn)訓(xùn)練與推理的協(xié)同增長。
激活一體機市場
摩爾線程方面還提到,DeepSeek大幅降低AI成本,讓AI更加普及,反過來又會提升行業(yè)對算力規(guī)模的需求。
中信證券研報指出,算力算法聯(lián)合優(yōu)化帶來的降本讓人們看到AI應(yīng)用落地的更多可能,同時杰文斯悖論有望支撐長期推理算力需求。杰文斯悖論指的是,當(dāng)技術(shù)進步提高了使用資源的效率,但成本降低導(dǎo)致需求增加,底層資源的消耗量反而提升。
根據(jù)《DeepSeek-V3/R1推理系統(tǒng)概覽》一文,DeepSeek算了一筆賬:“假定GPU租賃成本為2美元/小時,總成本為87072美元/天。如果所有Tokens全部按照DeepSeekR1的定價計算,理論上一天的總收入為562027美元,利潤率545%?!?/p>
如此高的成本利潤率,讓中小廠商在技術(shù)平權(quán)之下迎來降本機遇。
記者注意到,當(dāng)多地政府宣布政務(wù)系統(tǒng)接入DeepSeek、一大批AI公務(wù)員上崗時,DeepSeek一體機也頗為火爆。據(jù)不完全統(tǒng)計,至少已有華為昇騰、中科曙光、浪潮、新華三等60余家廠商,在加速部署一體機。
“一體機一直都在的,只是DeepSeek非常適合本地化部署?!碧K廉節(jié)指出,一體機并不是新產(chǎn)品,就是一個結(jié)合算力、存儲和網(wǎng)絡(luò)的小型數(shù)據(jù)中心,“主要由幾個小型服務(wù)器構(gòu)成,用于邊緣側(cè)小規(guī)模的商用場景”。
在唐興才看來,大模型一體機是把大模型和硬件(如CPU、GPU、存儲設(shè)備等)結(jié)合,封裝為一體化設(shè)備?!耙惑w機客戶目前來看主要是國央企、政府、金融機構(gòu)這些對隱私安全要求比較高的客戶?!碧婆d才說。
據(jù)唐興才觀察,大模型一體機市場玩家主要可分為系統(tǒng)集成商、應(yīng)用廠商、模型廠商和GPU資源廠商,具體有華為、聯(lián)想、阿里巴巴、百度、浪潮、新華三、中科曙光等。
“我們主要是大模型應(yīng)用廠商,會和硬件廠商一起做一體機。因為客戶想要的是模型+應(yīng)用場景?!碧婆d才表示。
“相比傳統(tǒng)的云方案,大模型一體機具備私有部署、交付便捷、算力門檻低和穩(wěn)定性的優(yōu)勢,能夠滿足金融、能源、政務(wù)、醫(yī)療等數(shù)據(jù)敏感型行業(yè)對于安全和隱私的要求?!蹦柧€程方面表示。
據(jù)市場反饋,DeepSeek一體機的價格從幾十萬元到數(shù)百萬元不等。有創(chuàng)業(yè)公司表示,“滿血一體機”價格在150萬—200萬元。
唐興才表示,200萬元一般能跑滿血版DeepSeek一體機。而另有大模型公司人士表示,一體機售價通常包括硬件+軟件,硬件毛利率約為15%,軟件毛利率在40%左右。
據(jù)浙商證券測算,隨著DeepSeek快速部署需求的增加,一體機的市場需求有望顯著增長,預(yù)計2025—2027年,一體機需求量將分別達到15萬臺、39萬臺和72萬臺,未來三年DeepSeek一體機市場空間有望達到1236億元、2937億元和5208億元。
唐興才所在公司剛開始推一體機,市場反響還可以?!艾F(xiàn)在還看不清,等幾個月看看吧?!彼麑κ袌銮熬爸?jǐn)慎樂觀。