DeepSeek新論文再次引發(fā)熱議,它最重要的創(chuàng)新是什么?
來(lái)源:界面新聞作者:伍洋宇2025-02-19 14:54

DeepSeek V3和R1兩款模型帶來(lái)的熱度尚未平息,一篇新論文再次引來(lái)科技圈對(duì)其創(chuàng)新性的集體評(píng)估。

2月18日,DeepSeek的研究團(tuán)隊(duì)發(fā)布了一篇新的技術(shù)論文,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平臺(tái)上,DeepSeek這條推文在24小時(shí)內(nèi)的閱讀量已達(dá)168萬(wàn)。

這是一種可用于超快長(zhǎng)上下文訓(xùn)練和推理的稀疏注意力機(jī)制,并具有硬件對(duì)齊和本地可訓(xùn)練的特性。其中最核心的內(nèi)容就是NSA(Native Sparse Attention),一種全新的注意力機(jī)制。

簡(jiǎn)單概括,憑借這套技術(shù)思路,大模型訓(xùn)練將不僅對(duì)硬件要求更低,并且訓(xùn)練效率更高,可能是一次相較MLA更高級(jí)別的創(chuàng)新。

稀疏注意力(Sparse Attention)是相對(duì)完全注意力(Full Attention)而言。在完全注意力機(jī)制的技術(shù)框架下,很多技術(shù)都是為了提高計(jì)算速度、減少運(yùn)算成本,例如KV-Cache(鍵值緩存),但對(duì)于大模型訓(xùn)練而言仍然可能導(dǎo)致恐怖的運(yùn)算量。

此前,DeepSeek-V2的重要?jiǎng)?chuàng)新MLA——Multi-Head Latent Attention,多頭潛在注意力機(jī)制——就在保證模型性能的情況下,對(duì)KV-Cache進(jìn)行了大幅優(yōu)化。

其中一個(gè)很重要的思路是對(duì)KV矩陣進(jìn)行了低秩分解,以低秩矩陣的形態(tài)來(lái)保存??梢岳斫鉃閷⑦@個(gè)矩陣從“多維”壓縮至“一維”,這大大降低了對(duì)顯存的占用。

但到此為止,這些注意力機(jī)制依然存在一些局限。Monica.im產(chǎn)品合伙人張濤對(duì)界面新聞?dòng)浾呓忉尫Q,過去的矩陣“壓縮”技術(shù)是一種無(wú)差別壓縮。也就是說,那些有更重要含義的信息,其重要性也被平均降低了。

NSA針對(duì)性化解了這個(gè)問題。它提出了一個(gè)“三合一”方案,對(duì)token序列大致分為了三條注意力處理路徑:壓縮(Compression)、選擇性保留(Selection)和滑動(dòng)窗口(Sliding Window)。

簡(jiǎn)單理解,Compression跟過去所做的事情類似,即“壓縮”保留粗顆粒度的token模塊。

在Selection階段,該機(jī)制通過對(duì)已壓縮模塊引入qt(query token),得到這些模塊與當(dāng)前要計(jì)算token的相關(guān)程度,以Top N(例如Top 2)的方式選出相關(guān)性最高的N個(gè)模塊,并對(duì)照原有的細(xì)顆粒程度token序列進(jìn)行保留。

最后的Sliding Window是指一個(gè)滑動(dòng)窗口,這個(gè)窗口僅獲取局部最近的一段完整token序列。張濤解釋稱,這個(gè)窗口是一個(gè)固定寬度,在時(shí)間軸上進(jìn)行滑動(dòng),但永遠(yuǎn)指向序列的最末尾處?!翱梢岳斫鉃楫?dāng)我要生成一句話時(shí),離它最近的信息也可能提供額外的含義?!?/p>

也就是說,在這三條注意力處理路徑下,我們既得到了完整token序列在壓縮下的全局印象,也得到了經(jīng)過篩選的最關(guān)鍵部分信息的細(xì)顆粒度token序列,以及離當(dāng)前計(jì)算token最近的一段token序列。

NSA架構(gòu)(圖片來(lái)源:DeepSeek)

“當(dāng)三個(gè)特性結(jié)合到一起,整個(gè)過程就已經(jīng)省了很多顯存占用和運(yùn)算量,并且把壓縮損失掉的信息補(bǔ)充回來(lái)了。”張濤表示。

另外,NSA還引入了兩項(xiàng)創(chuàng)新機(jī)制,分別是硬件對(duì)齊系統(tǒng),可保證算術(shù)強(qiáng)度平衡,以及訓(xùn)練感知設(shè)計(jì),可支持NSA進(jìn)行高效部署和端到端訓(xùn)練。

至此,這套全新注意力機(jī)制將要驗(yàn)證自己的效果。在過去,很多注意力機(jī)制的調(diào)整可能導(dǎo)致模型表現(xiàn)下降,但NSA以稀疏注意力機(jī)制給模型“減負(fù)”的方式,不僅沒有造成性能下降,反而相較完整注意力機(jī)制在一些基準(zhǔn)測(cè)試上實(shí)現(xiàn)了超越表現(xiàn),包括通用和推理等等

更關(guān)鍵的是,它在解碼(Decode)速度上提升了11.6倍。張濤表示,這可以簡(jiǎn)單理解為,運(yùn)用這套機(jī)制的R1其推理速度也可能提升同樣倍數(shù)。

不過,MLA這一創(chuàng)新也可以優(yōu)化解碼速度。在張濤看來(lái),NSA更有意義的效率提升是對(duì)于正向和反向階段還將分別提速9倍和6倍。

其中,反向傳播是指模型訓(xùn)練時(shí),每完成一輪運(yùn)行還要做一輪反向傳播,如此模型才能夠在這一輪迭代中學(xué)到“哪些做對(duì)了、哪些做錯(cuò)了,以及哪些參數(shù)需要調(diào)整”。

這意味著NSA不僅對(duì)GPU的顯存要求降低,對(duì)卡間互聯(lián)通訊能力要求降低,甚至對(duì)于模型的訓(xùn)練速度也加快了好幾倍。

“這才是這次創(chuàng)新的關(guān)鍵。”張濤說,NSA有可能進(jìn)一步解決了國(guó)產(chǎn)大模型在GPU芯片上被“卡脖子”的問題。

總體而言,張濤認(rèn)為雖然這篇論文集中論述了技術(shù)思路,沒有完整披露其中的工程細(xì)節(jié),但對(duì)于其他大模型公司來(lái)說復(fù)現(xiàn)并不難。

還有一個(gè)當(dāng)前沒有被注意到的“彩蛋”。張濤指出,在這次論文中,DeepSeek運(yùn)用到了一種叫做Triton的框架。這是由OpenAI開源的一套框架,屬于GPU的中間層語(yǔ)言,它既可以轉(zhuǎn)譯為英偉達(dá)的CUDA(其GPU并行計(jì)算平臺(tái)),AMD的ROCm(其開源計(jì)算平臺(tái)),也可以轉(zhuǎn)譯為華為昇騰的CANN(其AI芯片計(jì)算框架)。

雖然目前ROCm和CANN在Triton上表現(xiàn)還不夠好,但張濤認(rèn)為這不是不能解決的。

“這不得不給大家留下一些想象空間。”張濤說,“這意味著從推理到訓(xùn)練的算力,未來(lái)都有可能國(guó)產(chǎn)化了?!?/p>

責(zé)任編輯: 陳勇洲
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場(chǎng)
暫無(wú)評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換