国语自产偷拍精品视频偷拍,国产成人精品白浆免费视频试看

DeepSeek新論文再次引發(fā)熱議，它最重要的創(chuàng)新是什么？

來(lái)源：界面新聞作者：伍洋宇2025-02-19 14:54

DeepSeek V3和R1兩款模型帶來(lái)的熱度尚未平息，一篇新論文再次引來(lái)科技圈對(duì)其創(chuàng)新性的集體評(píng)估。

2月18日，DeepSeek的研究團(tuán)隊(duì)發(fā)布了一篇新的技術(shù)論文，《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X（原推特）平臺(tái)上，DeepSeek這條推文在24小時(shí)內(nèi)的閱讀量已達(dá)168萬(wàn)。

這是一種可用于超快長(zhǎng)上下文訓(xùn)練和推理的稀疏注意力機(jī)制，并具有硬件對(duì)齊和本地可訓(xùn)練的特性。其中最核心的內(nèi)容就是NSA（Native Sparse Attention），一種全新的注意力機(jī)制。

簡(jiǎn)單概括，憑借這套技術(shù)思路，大模型訓(xùn)練將不僅對(duì)硬件要求更低，并且訓(xùn)練效率更高，可能是一次相較MLA更高級(jí)別的創(chuàng)新。

稀疏注意力（Sparse Attention）是相對(duì)完全注意力（Full Attention）而言。在完全注意力機(jī)制的技術(shù)框架下，很多技術(shù)都是為了提高計(jì)算速度、減少運(yùn)算成本，例如KV-Cache（鍵值緩存），但對(duì)于大模型訓(xùn)練而言仍然可能導(dǎo)致恐怖的運(yùn)算量。

此前，DeepSeek-V2的重要?jiǎng)?chuàng)新MLA——Multi-Head Latent Attention，多頭潛在注意力機(jī)制——就在保證模型性能的情況下，對(duì)KV-Cache進(jìn)行了大幅優(yōu)化。

其中一個(gè)很重要的思路是對(duì)KV矩陣進(jìn)行了低秩分解，以低秩矩陣的形態(tài)來(lái)保存?？梢岳斫鉃閷⑦@個(gè)矩陣從“多維”壓縮至“一維”，這大大降低了對(duì)顯存的占用。

但到此為止，這些注意力機(jī)制依然存在一些局限。Monica.im產(chǎn)品合伙人張濤對(duì)界面新聞?dòng)浾呓忉尫Q，過去的矩陣“壓縮”技術(shù)是一種無(wú)差別壓縮。也就是說，那些有更重要含義的信息，其重要性也被平均降低了。

NSA針對(duì)性化解了這個(gè)問題。它提出了一個(gè)“三合一”方案，對(duì)token序列大致分為了三條注意力處理路徑：壓縮（Compression）、選擇性保留（Selection）和滑動(dòng)窗口（Sliding Window）。

簡(jiǎn)單理解，Compression跟過去所做的事情類似，即“壓縮”保留粗顆粒度的token模塊。

在Selection階段，該機(jī)制通過對(duì)已壓縮模塊引入qt（query token），得到這些模塊與當(dāng)前要計(jì)算token的相關(guān)程度，以Top N（例如Top 2）的方式選出相關(guān)性最高的N個(gè)模塊，并對(duì)照原有的細(xì)顆粒程度token序列進(jìn)行保留。

最后的Sliding Window是指一個(gè)滑動(dòng)窗口，這個(gè)窗口僅獲取局部最近的一段完整token序列。張濤解釋稱，這個(gè)窗口是一個(gè)固定寬度，在時(shí)間軸上進(jìn)行滑動(dòng)，但永遠(yuǎn)指向序列的最末尾處?！翱梢岳斫鉃楫?dāng)我要生成一句話時(shí)，離它最近的信息也可能提供額外的含義?！?/p>

也就是說，在這三條注意力處理路徑下，我們既得到了完整token序列在壓縮下的全局印象，也得到了經(jīng)過篩選的最關(guān)鍵部分信息的細(xì)顆粒度token序列，以及離當(dāng)前計(jì)算token最近的一段token序列。

NSA架構(gòu)（圖片來(lái)源：DeepSeek）

“當(dāng)三個(gè)特性結(jié)合到一起，整個(gè)過程就已經(jīng)省了很多顯存占用和運(yùn)算量，并且把壓縮損失掉的信息補(bǔ)充回來(lái)了。”張濤表示。

另外，NSA還引入了兩項(xiàng)創(chuàng)新機(jī)制，分別是硬件對(duì)齊系統(tǒng)，可保證算術(shù)強(qiáng)度平衡，以及訓(xùn)練感知設(shè)計(jì)，可支持NSA進(jìn)行高效部署和端到端訓(xùn)練。

至此，這套全新注意力機(jī)制將要驗(yàn)證自己的效果。在過去，很多注意力機(jī)制的調(diào)整可能導(dǎo)致模型表現(xiàn)下降，但NSA以稀疏注意力機(jī)制給模型“減負(fù)”的方式，不僅沒有造成性能下降，反而相較完整注意力機(jī)制在一些基準(zhǔn)測(cè)試上實(shí)現(xiàn)了超越表現(xiàn)，包括通用和推理等等

更關(guān)鍵的是，它在解碼（Decode）速度上提升了11.6倍。張濤表示，這可以簡(jiǎn)單理解為，運(yùn)用這套機(jī)制的R1其推理速度也可能提升同樣倍數(shù)。

不過，MLA這一創(chuàng)新也可以優(yōu)化解碼速度。在張濤看來(lái)，NSA更有意義的效率提升是對(duì)于正向和反向階段還將分別提速9倍和6倍。

其中，反向傳播是指模型訓(xùn)練時(shí)，每完成一輪運(yùn)行還要做一輪反向傳播，如此模型才能夠在這一輪迭代中學(xué)到“哪些做對(duì)了、哪些做錯(cuò)了，以及哪些參數(shù)需要調(diào)整”。

這意味著NSA不僅對(duì)GPU的顯存要求降低，對(duì)卡間互聯(lián)通訊能力要求降低，甚至對(duì)于模型的訓(xùn)練速度也加快了好幾倍。

“這才是這次創(chuàng)新的關(guān)鍵。”張濤說，NSA有可能進(jìn)一步解決了國(guó)產(chǎn)大模型在GPU芯片上被“卡脖子”的問題。

總體而言，張濤認(rèn)為雖然這篇論文集中論述了技術(shù)思路，沒有完整披露其中的工程細(xì)節(jié)，但對(duì)于其他大模型公司來(lái)說復(fù)現(xiàn)并不難。

還有一個(gè)當(dāng)前沒有被注意到的“彩蛋”。張濤指出，在這次論文中，DeepSeek運(yùn)用到了一種叫做Triton的框架。這是由OpenAI開源的一套框架，屬于GPU的中間層語(yǔ)言，它既可以轉(zhuǎn)譯為英偉達(dá)的CUDA（其GPU并行計(jì)算平臺(tái)），AMD的ROCm（其開源計(jì)算平臺(tái)），也可以轉(zhuǎn)譯為華為昇騰的CANN（其AI芯片計(jì)算框架）。

雖然目前ROCm和CANN在Triton上表現(xiàn)還不夠好，但張濤認(rèn)為這不是不能解決的。

“這不得不給大家留下一些想象空間。”張濤說，“這意味著從推理到訓(xùn)練的算力，未來(lái)都有可能國(guó)產(chǎn)化了?！?/p>

責(zé)任編輯：陳勇洲

GPU

芯片

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場(chǎng)