日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

DeepSeek 下一代技術提前曝光,梁文鋒署名論文獲 ACL 2025 最佳論文獎

來源: 責編: 時間:2025-08-04 10:11:46 19觀看
導讀 在 ACL 2025 的頒獎典禮上,由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯合發表的論文榮獲最佳論文獎。這次 ACL 2025 規模空前,總投稿量達到 8360 篇,相較于去年的 4407 篇幾乎翻倍,競爭異常激烈。簡單來說,他

在 ACL 2025 的頒獎典禮上,由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯合發表的論文榮獲最佳論文獎。ZCf28資訊網——每日最新資訊28at.com

這次 ACL 2025 規模空前,總投稿量達到 8360 篇,相較于去年的 4407 篇幾乎翻倍,競爭異常激烈。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

簡單來說,他們提出的原生稀疏注意力(NSA)機制,通過算法與硬件的協同優化,直接把長文本處理速度提升了 11 倍。更厲害的是,性能不僅沒降反而還超越了傳統的全注意力模型。ZCf28資訊網——每日最新資訊28at.com

一作袁境陽在會上發表演講,透露這項技術可以把上下文長度擴展到 1 百萬 tokens,將被應用到下一個前沿模型中。ZCf28資訊網——每日最新資訊28at.com

結合論文發表于 DeepSeek-R1 推出之后,實驗設置中也提到使用了 DeepSeek-R1 的蒸餾數據來微調了新的模型。ZCf28資訊網——每日最新資訊28at.com

大家紛紛猜測,這項技術將被用于下一代 DeepSeek-V4 以及 DeepSeek-R2。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

給注意力機制瘦身,速度狂飆 11 倍

長久以來,大語言模型處理長文本就像是戴著鐐銬跳舞。傳統的全注意力機制計算復雜度隨序列長度呈平方級增長,處理 64k 長度的文本時,注意力計算竟然要占到總延遲的 70-80%。ZCf28資訊網——每日最新資訊28at.com

這篇論文的解決思路很巧妙:既然不是所有詞之間的關系都同等重要,為什么不讓模型學會”抓重點”呢?ZCf28資訊網——每日最新資訊28at.com

NSA 采用了一種動態分層的稀疏策略,通過三條并行的注意力分支協同工作:ZCf28資訊網——每日最新資訊28at.com

壓縮注意力,負責捕捉粗粒度的全局信息模式,就像快速瀏覽全文抓住大意;ZCf28資訊網——每日最新資訊28at.com

選擇性注意力,則專注于序列中最重要的詞塊,相當于精讀關鍵段落;ZCf28資訊網——每日最新資訊28at.com

滑動注意力,負責獲取局部的上下文信息,確保細節不丟失。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

這種設計最精妙的地方在于,它不是簡單地丟棄信息,而是通過精心設計的算法平衡了計算密度。ZCf28資訊網——每日最新資訊28at.com

更重要的是,整個架構針對現代 GPU 硬件進行了深度優化,實現了端到端的原生可訓練模式。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

在實際測試中,處理 64k 長度序列時,NSA 在解碼、前向傳播和反向傳播的全生命周期中都展現出驚人的速度優勢。ZCf28資訊網——每日最新資訊28at.com

解碼階段速度提升 11.6 倍,前向傳播提升 9 倍,反向傳播也有 6 倍的加速,無論是模型推理還是訓練,都能獲得實實在在的效率提升。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

不僅快還更準,長文本處理迎來新突破

速度快只是 NSA 的一面,更讓人驚訝的是它在各項基準測試中的表現。ZCf28資訊網——每日最新資訊28at.com

在通用基準測試中,采用 NSA 預訓練的 27B 參數模型在 9 個評測指標中有 7 個超越了全注意力基線。特別是在推理相關的基準測試上,DROP 提升了 0.042,GSM8K 提升了 0.034,顯示出稀疏注意力在強制模型聚焦關鍵信息方面的獨特優勢。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

長文本處理能力的測試結果更是亮眼。在 64k 上下文的”大海撈針”測試中,NSA 在所有位置都實現了完美的檢索準確率。在 LongBench 基準測試上,NSA 取得了 0.469 的平均分,不僅超越了全注意力基線(+0.032),更是大幅領先其他稀疏注意力方法。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

特別值得一提的是,在需要復雜推理的多跳問答任務上,NSA 相比全注意力分別提升了 0.087(HPQ)和 0.051(2Wiki);在代碼理解任務(LCC)上提升了 0.069;在段落檢索任務(PassR-en)上提升了 0.075。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

研究團隊還進行了一項有趣的實驗:ZCf28資訊網——每日最新資訊28at.com

他們用 DeepSeek-R1 的數學推理數據對模型進行微調,然后在美國數學邀請賽(AIME 24)上測試。ZCf28資訊網——每日最新資訊28at.com

結果顯示,NSA-R 在 8k 上下文設置下的準確率達到 0.121,而全注意力模型只有 0.046;即使在 16k 上下文下,NSA-R 仍然保持 0.146 的準確率,遠超全注意力的 0.092。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

這些結果充分證明了 NSA 不是通過犧牲性能來換取速度,而是真正實現了效率和能力的雙贏。ZCf28資訊網——每日最新資訊28at.com

Three More Thing

這次總共評選出 4 篇最佳論文,另外三篇包括:ZCf28資訊網——每日最新資訊28at.com

北大團隊的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型語言模型的“彈性”,指模型經過對齊訓練(讓模型符合人類價值觀、減少有害輸出)后,很容易因為后續的微調而變回預訓練時的狀態,就像彈簧被拉伸后會反彈一樣。ZCf28資訊網——每日最新資訊28at.com

這意味著現有的對齊方法可能只是表面上改變了模型,不夠穩固。未來需要更有效的對齊技術,才能讓模型真正穩定地符合人類需求,尤其是在開源模型中,要避免惡意微調輕易破壞安全機制。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

斯坦福團隊的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性”上的一個新視角“差異感知”。簡單來說,就是模型應該在合適的場景下對不同群體做出區分,而不是一味地一視同仁。ZCf28資訊網——每日最新資訊28at.com

研究發現那些在傳統公平性測試中表現好的模型,在“差異感知”上得分并不高;模型能力越強(比如 MMLU 分數越高),情境感知能力越好,但差異感知能力未必提升;現有的“去偏見”方法(比如提示模型“保持無偏見”)反而會讓模型更無視差異,甚至把正確答案改錯。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

亥姆霍茲信息安全中心等團隊的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

這篇論文指出大模型生成回答時的采樣機制與人類決策類似,包含描述性成分(反映概念的統計常態)和規定性成分(隱含的概念理想狀態)。ZCf28資訊網——每日最新資訊28at.com

研究通過實驗驗證,無論是新創概念還是現有概念(涵蓋 10 個領域的 500 個概念),LLMs 生成的樣本都會偏離統計平均值,向其認為的“理想值”偏移,且這種現象在 15 種不同模型中均顯著存在。案例研究顯示,這種偏向可能導致醫療等領域的有偏決策,引發倫理問題。ZCf28資訊網——每日最新資訊28at.com

ZCf28資訊網——每日最新資訊28at.com

DeepSeek 論文地址:ZCf28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2502.11089ZCf28資訊網——每日最新資訊28at.com

參考鏈接:ZCf28資訊網——每日最新資訊28at.com

[1]https://x.com/aclmeeting/status/1950572483637067786ZCf28資訊網——每日最新資訊28at.com

[2]https://x.com/casper_hansen_/status/1950649481617342803ZCf28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-25745-0.htmlDeepSeek 下一代技術提前曝光,梁文鋒署名論文獲 ACL 2025 最佳論文獎

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 美國一州要建超大 AI 數據中心,初期耗電量就是全州家庭總和的 5 倍多

下一篇: OpenAI 回應“ChatGPT 用多了會變傻”:AI 本質上是工具,關鍵在如何使用

標簽:
  • 熱門焦點
  • AI界地震!美國對OpenAI展開調查!監管風暴來襲!

    來源:清元宇宙還記得5月OpenAI在國會山聽證會上的自信、坦誠、游刃有余的問答嗎?那時的Sam Altman可謂意氣風發,在耐心、友好的國會議員面前,就AI立法、大模型安全性問題侃侃而
  • 數字人的AB面:在元宇宙中過氣,在AIGC中重生

    來源:光錐智能作者:郝 鑫“29800元一年的虛擬主播,號稱24小時不停播,月入十幾萬,實際上卻是關鍵詞都不能回復,播了半個月,直播間還因違規被快手封禁,最終投訴無門、退款無果。&
  • 關于ChatGPT的10點思考

    作者:晏濤三壽近日ChatGPT又有大動作。5月19日,OpenAI在官網宣布正式發布App應用,并登錄蘋果應用商店。與網頁版的聊天機器人相比,iOS應用程序的發布有望讓更多人接觸到ChatGPT
  • 刷完一場元宇宙世界杯音樂盛典,我爽了

    作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了?三刷都不嫌多的那種。按照慣例,每逢年底,直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
  • Meta、谷歌、微軟競相涌入元宇宙,小型企業該如何伺機而動?

    目前來看元宇宙不會影響到小型企業的發展,但在接下來的十年內可能會發生很多變化。很多有商業頭腦的企業家都在密切關注著元宇宙的發展。元宇宙這個詞,你一定或
  • 影響元宇宙土地價格的五個因素

    參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產價格主要取決于使用它的人數,以及為所有者創造收益的能力。專注于數字資產的投資公司LedgerPr
  • 以太坊倫敦升級后,隨之生效的以太坊EIP-1559是什么?

    作者:三黎過去的一年里,除了 BTC 一如既往穩坐王位,DEFI 則是貫穿一整年的狂歡熱點。 DeFi 在讓 ETH 實現價值增長的同時,也使得其網絡日漸擁堵、交易費用增高,成為
  • GameFi 深度解析,元宇宙內容雛形顯現

    GameFi=Game(游戲)+Defi(去中心化金融),核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能,GameFi 游戲資產化身為NFT 和代幣上鏈,具備了可驗證性和流通性;開
  • 冬奧會數字收藏品升溫,市場再現“一墩難求”

    根據公開信息顯示,國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售,總數為500個,每個99美元,每人限購5個。此外,不同的奧運徽章數字藏
Top 主站蜘蛛池模板: 汉中市| 屯门区| 正定县| 舒城县| 沈丘县| 雷州市| 滦平县| 平邑县| 张家口市| 泽州县| 富顺县| 松溪县| 蒲城县| 舞钢市| 六盘水市| 惠安县| 湘乡市| 延长县| 申扎县| 抚州市| 通城县| 龙南县| 丰顺县| 河池市| 汉川市| 濮阳市| 修水县| 盐城市| 虎林市| 绍兴县| 琼中| 甘肃省| 汝州市| 邢台市| 虎林市| 甘泉县| 佳木斯市| 西宁市| 蚌埠市| 桃江县| 赫章县|