看亚洲A级一级毛片,AV免费不卡国产观看,国产精品视频二区不卡

剛剛！DeepSeek，重大發(fā)布！

來源：證券時報網(wǎng)作者：周樂2025-03-01 17:34

周末，DeepSeek又扔出“王炸”。

今天，國內(nèi)AI大模型公司DeepSeek官方賬號在知乎首次發(fā)布《DeepSeek-V3/R1推理系統(tǒng)概覽》技術(shù)文章，不僅公開了其推理系統(tǒng)的核心優(yōu)化方案，更是首次披露了成本利潤率等關(guān)鍵數(shù)據(jù)，引發(fā)行業(yè)震動。

數(shù)據(jù)顯示，若按理論定價計算，其單日成本利潤率高達545%，這一數(shù)字刷新了全球AI大模型領(lǐng)域的盈利天花板。

業(yè)內(nèi)分析指出，DeepSeek的開源策略與成本控制能力正在打破AI領(lǐng)域的資源壟斷。DeepSeek此次“透明化”披露，不僅展示了其技術(shù)實力與商業(yè)潛力，更向行業(yè)傳遞明確信號：AI大模型的盈利閉環(huán)已從理想照進現(xiàn)實。

DeepSeek最新發(fā)布

3月1日，DeepSeek于知乎開設(shè)官方賬號，發(fā)布《DeepSeek-V3/R1推理系統(tǒng)概覽》技術(shù)文章，首次公布模型推理系統(tǒng)優(yōu)化細節(jié)，并披露成本利潤率關(guān)鍵信息。

文章寫道：“DeepSeek-V3/ R1推理系統(tǒng)的優(yōu)化目標(biāo)是：更大的吞吐，更低的延遲。”

為實現(xiàn)這兩個目標(biāo)，DeepSeek的方案是使用大規(guī)?？绻?jié)點專家并行（EP），但該方案也增加了系統(tǒng)復(fù)雜性。文章的主要內(nèi)容就是關(guān)于如何使用EP增長批量大小（batch size）、隱藏傳輸耗時以及進行負載均衡。

值得注意的是，文章還率先披露了DeepSeek的理論成本和利潤率等關(guān)鍵信息。

根據(jù)DeepSeek官方披露，DeepSeek V3和R1的所有服務(wù)均使用H800 GPU，使用和訓(xùn)練一致的精度，即矩陣計算和dispatch 傳輸采用和訓(xùn)練一致的FP8格式，core-attention計算和combine傳輸采用和訓(xùn)練一致的BF16，最大程度保證了服務(wù)效果。

另外，由于白天的服務(wù)負荷高，晚上的服務(wù)負荷低，因此DeepSeek實現(xiàn)了一套機制，在白天負荷高的時候，用所有節(jié)點部署推理服務(wù)。晚上負荷低的時候，減少推理節(jié)點，以用來做研究和訓(xùn)練。

在最近24小時（2025年2月27日12:00至28日12:00）的統(tǒng)計周期內(nèi)：GPU租賃成本按2美元/小時計算，日均成本為87072美元；若所有輸入/輸出token按R1定價（輸入1元/百萬token、輸出16元/百萬token）計算，單日收入可達562027美元，成本利潤率高達545%。

不過，DeepSeek官方坦言，實際上沒有這么多收入，因為V3的定價更低，同時收費服務(wù)只占了一部分，另外夜間還會有折扣。

DeepSeek的高利潤率源于其創(chuàng)新的推理系統(tǒng)設(shè)計，核心包括大規(guī)?？绻?jié)點專家并行（EP）、計算通信重疊與負載均衡優(yōu)化三大技術(shù)支柱：專家并行（EP）提升吞吐與響應(yīng)速度，針對模型稀疏性（每層僅激活8/256個專家），采用EP策略擴展總體批處理規(guī)模（batch size），確保每個專家獲得足夠的計算負載，顯著提升GPU利用率；部署單元動態(tài)調(diào)整（如Prefill階段4節(jié)點、Decode階段18節(jié)點），平衡資源分配與任務(wù)需求。

計算與通信重疊隱藏延遲，Prefill階段通過“雙batch交錯”實現(xiàn)計算與通信并行，Decode階段拆分attention為多級流水線，最大限度掩蓋通信開銷。

全局負載均衡避免資源浪費，針對不同并行模式（數(shù)據(jù)并行DP、專家并行EP）設(shè)計動態(tài)負載均衡器，確保各GPU的計算量、通信量及KVCache占用均衡，避免節(jié)點空轉(zhuǎn)。

簡單來說，EP就像是“多人協(xié)作”，把模型中的“專家”分散到多張GPU上進行計算，大幅提升Batch Size，榨干GPU算力，同時專家分散，降低內(nèi)存壓力，更快響應(yīng)。

DeepSeek在工程層面進一步壓縮成本。晝夜資源調(diào)配：白天高峰時段全力支持推理服務(wù)，夜間閑置節(jié)點轉(zhuǎn)用于研發(fā)訓(xùn)練，最大化硬件利用率；緩存命中率達56.3%：通過KVCache硬盤緩存減少重復(fù)計算，在輸入token中，有3420億個（56.3%）直接命中緩存，大幅降低算力消耗。

影響多大？

有分析稱，DeepSeek此次披露的數(shù)據(jù)，不僅驗證了其技術(shù)路線的商業(yè)可行性，更為行業(yè)樹立了高效盈利的標(biāo)桿：其模型訓(xùn)練成本僅為同類產(chǎn)品的1%—5%，此前發(fā)布的DeepSeek-V3模型訓(xùn)練成本僅557.6萬美元，遠低于OpenAI等巨頭；推理定價優(yōu)勢方面，DeepSeek-R1的API定價僅為OpenAI o3-mini的1/7至1/2，低成本策略加速市場滲透。

業(yè)內(nèi)分析指出，DeepSeek的開源策略與成本控制能力正在打破AI領(lǐng)域的資源壟斷。DeepSeek此次“透明化”披露，不僅展示了其技術(shù)實力與商業(yè)潛力，更向行業(yè)傳遞明確信號：AI大模型的盈利閉環(huán)已從理想照進現(xiàn)實，標(biāo)志著AI技術(shù)從實驗室邁向產(chǎn)業(yè)化的關(guān)鍵轉(zhuǎn)折。

中信證券認為，Deepseek在模型訓(xùn)練成本降低方面的最佳實踐，料將刺激科技巨頭采用更為經(jīng)濟的方式加速前沿模型的探索和研究，同時將使得大量AI應(yīng)用得以解鎖和落地。算法訓(xùn)練帶來的規(guī)模報酬遞增效應(yīng)以及單位算力成本降低對應(yīng)的杰文斯悖論等，均意味著中短期維度科技巨頭繼續(xù)在AI算力領(lǐng)域進行持續(xù)、規(guī)模投入仍將是高確定性事件。

本周以來，DeepSeek開啟“開源周”，給人工智能領(lǐng)域扔下數(shù)顆“重磅炸彈”。回顧DeepSeek這五天開源的內(nèi)容，信息量很大，具體來看：

周一，DeepSeek宣布開源FlashMLA。FlashMLA是DeepSeek用于Hopper GPU的高效MLA解碼內(nèi)核，并針對可變長度序列進行了優(yōu)化，現(xiàn)已投入生產(chǎn)；

周二，DeepSeek宣布開源DeepEP，即首個用于MoE模型訓(xùn)練和推理的開源EP通信庫，提供高吞吐量和低延遲的all-to-all GPU內(nèi)核；

周三，DeepSeek宣布開源DeepGEMM。其同時支持密集布局和兩種MoE布局，完全即時編譯，可為V3/R1模型的訓(xùn)練和推理提供強大支持等；

周四，DeepSeek宣布開源Optimized Parallelism Strategies。其主要針對大規(guī)模模型訓(xùn)練中的效率問題；

周五，DeepSeek宣布開源Fire-Flyer文件系統(tǒng)（3FS），以及基于3FS的數(shù)據(jù)處理框架Smallpond。

因此，有網(wǎng)友評論稱：“今日發(fā)布的《DeepSeek-V3/R1推理系統(tǒng)概覽》技術(shù)文章是‘開源周彩蛋’，直接亮出了底牌！”

至此，DeepSeek“開源周”的連載或許要告一段落了，但DeepSeek后續(xù)動作依然值得持續(xù)關(guān)注。

責(zé)編：戰(zhàn)術(shù)恒

校對：王蔚

責(zé)任編輯：楊國強

DeepSeek