2 月 18 日消息,DeepSeek 今日官宣推出NSA(Native Sparse Attention),這是一種硬件對(duì)齊且原生可訓(xùn)練的稀疏注意力機(jī)制,用于超快速長(zhǎng)上下文訓(xùn)練與推理。
NSA 的核心組件包括:
動(dòng)態(tài)分層稀疏策略
粗粒度 token 壓縮
細(xì)粒度 token 選擇
DeepSeek 官方表示,該機(jī)制可優(yōu)化現(xiàn)代硬件設(shè)計(jì),加速推理同時(shí)降低預(yù)訓(xùn)練成本,并且不犧牲性能。在通用基準(zhǔn)、長(zhǎng)上下文任務(wù)和基于指令的推理上,其表現(xiàn)與全注意力模型相當(dāng)或更加優(yōu)秀。
附論文鏈接:
https://arxiv.org/abs/2502.11089
本文鏈接:http://www.www897cc.com/showinfo-45-10902-0.htmlDeepSeek 再放降本大招:NSA 官宣發(fā)布,加速推理降低成本,并且不犧牲性能
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com