发布时间:2025-07-04 16:32:14源自:本站作者:PB2345素材网阅读(14)
DeepSeek 發布了最新的研究成果——原生稀疏注意力。這項技術有望大幅提升下一代大語言模型處理長文本的能力,同時還能兼顧效率。
就在馬斯克發布grok3,sam altman 還在猶豫要不要開源時,剛剛梁文鋒作為co-authors攜deepseek研究團隊丟出重磅研究論文成果,DeepSeek 發布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)!⠩項技術有望大幅提升下一代大語言模型處理長文本的能力,同時還能兼顧效率,可謂是 LLM 領域又一裏程碑式的進展!
簡單來說,論文的核心貢獻如下:
LLM 長文本能力再突破!DeepSeek 發布原生稀疏注意力 NSA:硬件友好又高效,訓推一體化!
廢話不多說,我們一起來扒一扒這篇論文:
先了解一下論文的背景
近年來,我們見證了長文本建模在 AI 領域的重要性日益凸顯。無論是深度推理、代碼庫生成、還是多輪對話,都離不開模型對長序列信息的有效處理能力。像 OpenAI 的 o-series 模型、DeepSeek-R1、以及 Google Gemini 1.5 Pro 等,都展現了處理超長文本的強大潛力。
然而,傳統 Attention 機製的計算複雜度隨著序列長度的增加而呈平方級增長,這成為了製約 LLM 發展的關鍵瓶頸。計算成本高昂,延遲成為問題,⠥悤𝕥褿證模型性能的同時,提升長文本處理的效率,成為了亟待解決的難題
稀疏注意力應運而生,它被認為是提升效率,同時維持模型能力的有希望的方向。DeepSeek 的 NSA 技術正是在這個方向上邁出了重要一步!
DeepSeek NSA:原生稀疏注意力,訓推一體化,硬件友好
DeepSeek 提出的⠎SA (Native Sparse Attention,原生稀疏注意力)⠦韨㽯𗧥晥算法創新與硬件優化相結合,旨在實現高效的長文本建模。
NSA 的核心亮點可以概括為以下兩點:
1.動態分層稀疏策略:⠎SA 采用了一種動態分層的稀疏策略,結合了粗粒度的 Token 壓縮⠥⠧𒒥 Token 選擇。這種策略既能保證模型對全局上下文的感知,又能兼顧局部信息的精確性
2.兩大關鍵創新:
算術強度平衡的算法設計與硬件優化:⠎SA 通過精巧的算法設計,並針對現代硬件進行了實現優化,顯著提升了計算速度
端到端可訓練:⠎SA 支持端到端訓練,這意味著它不僅在推理階段高效,還能減少預訓練的計算量,同時不犧牲模型性能!
實驗效果驚豔:性能不降反升,速度大幅提升!
實驗結果令人振奮!如圖 1 所示,在通用基準測試、長文本任務和指令推理方麵,使用 NSA 預訓練的模型性能不僅沒有下降,反而超越了 Full Attention 模型!
更重要的是,在處理 64k 長度的序列時,NSA 在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升,最高可達 11.6 倍!⠩充分證明了 NSA 在模型生命周期各個階段的效率優勢
現有稀疏注意力方法的局限性
論文也深入分析了現有稀疏注意力方法的局限性,主要體現在兩個方麵:
1.推理效率的“假象”:⠥䚦雖然在理論上實現了稀疏計算,但在實際推理延遲方麵提升有限。這主要是因為:
欢迎分享转载→ www.sk7pa.com