在人工智能領(lǐng)域,一項(xiàng)由牛津大學(xué)劉世偉教授領(lǐng)銜的國際合作研究近日引起了廣泛關(guān)注。該研究聯(lián)合了西湖大學(xué)、埃默里大學(xué)、大連理工大學(xué)及薩里大學(xué)等多家頂尖學(xué)府,其突破性成果已于2025年7月發(fā)表于人工智能領(lǐng)域的權(quán)威期刊上。論文題為《大型語言模型中的深度困境》,感興趣的讀者可訪問arXiv:2502.05795v2獲取全文。
該研究深入探討了當(dāng)前最先進(jìn)的大型語言模型(例如ChatGPT、Claude等)在訓(xùn)練過程中的一個(gè)奇特現(xiàn)象:模型層次越深,后續(xù)層級的重要性反而越小。為了形象地說明這一問題,研究團(tuán)隊(duì)將其比喻為一座智慧大樓,其中每一層本應(yīng)各司其職,共同為最終智能輸出貢獻(xiàn)力量。然而,他們驚人地發(fā)現(xiàn),大樓的上半部分“工匠”幾乎在消極怠工,即便移除這些層級,模型的整體表現(xiàn)也幾乎不受影響。
為了驗(yàn)證這一現(xiàn)象的普遍性,研究團(tuán)隊(duì)選取了當(dāng)前流行的多個(gè)大型語言模型家族作為測試對象,包括Llama、Mistral、DeepSeek和Qwen系列。他們巧妙地設(shè)計(jì)了一系列實(shí)驗(yàn),通過逐一移除模型的不同層級,觀察并記錄模型性能的變化。實(shí)驗(yàn)結(jié)果令人震驚:移除深層的多個(gè)層級后,模型的表現(xiàn)幾乎未受影響,甚至在某些情況下略有提升;相反,移除淺層的任何一層都會(huì)導(dǎo)致模型性能顯著下降。
研究團(tuán)隊(duì)將這一奇特現(xiàn)象命名為“深度困境”。這一名稱形象地揭示了當(dāng)前大型語言模型訓(xùn)練中的一個(gè)根本矛盾:盡管我們投入了大量計(jì)算資源來訓(xùn)練更深的模型,期望獲得更強(qiáng)的能力,但實(shí)際上,越深的層級對模型的貢獻(xiàn)越小,仿佛被某種無形的困境所束縛。
為了深入理解這一現(xiàn)象,研究團(tuán)隊(duì)進(jìn)一步分析了層與層之間表示的相似性。他們利用角度距離這一數(shù)學(xué)工具來測量不同層級的輸出相似性。結(jié)果表明,在深層網(wǎng)絡(luò)中,相鄰層級的輸出幾乎完全相同,這意味著這些層級只是在重復(fù)前面層級的工作,沒有產(chǎn)生任何新的有用信息。
研究團(tuán)隊(duì)還對比了兩種不同的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì):現(xiàn)代大型語言模型普遍采用的“前置層歸一化”(Pre-LN)與較早模型使用的“后置層歸一化”(Post-LN)。通過對比實(shí)驗(yàn),他們發(fā)現(xiàn)采用Pre-LN的模型更容易出現(xiàn)深度困境現(xiàn)象,而采用Post-LN的模型則表現(xiàn)出相反的趨勢:深層比淺層更重要。這一發(fā)現(xiàn)為理解深度困境的根源提供了重要線索。
為了揭示深度困境的理論根源,研究團(tuán)隊(duì)深入探討了Pre-LN架構(gòu)的工作原理。他們發(fā)現(xiàn),在Pre-LN架構(gòu)中,隨著網(wǎng)絡(luò)層數(shù)的增加,輸出的方差會(huì)呈指數(shù)級增長。這種增長導(dǎo)致深層網(wǎng)絡(luò)的梯度趨近于單位矩陣,使得這些層級幾乎變成了“透明層”,沒有進(jìn)行任何有意義的轉(zhuǎn)換。為了直觀理解這一概念,研究團(tuán)隊(duì)用烹飪過程進(jìn)行了類比:如果后續(xù)步驟只是簡單的“保溫”操作,那么無論進(jìn)行多少步驟,最終的味道都不會(huì)有太大變化。
面對這一棘手問題,研究團(tuán)隊(duì)提出了一個(gè)簡潔而有效的解決方案:層歸一化縮放(LNS)。這一方法的核心思想是通過給每一層的輸出乘以一個(gè)與層深度相關(guān)的縮放因子來控制方差的增長。縮放因子等于當(dāng)前層深度的平方根的倒數(shù),即1/√l,其中l(wèi)為層的索引。這種設(shè)計(jì)確保了每一層都能發(fā)揮其應(yīng)有的作用,避免了深層網(wǎng)絡(luò)的“偷懶”現(xiàn)象。
為了驗(yàn)證LNS的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)涵蓋了從小型模型到大型模型的各種規(guī)模,結(jié)果顯示LNS在所有測試規(guī)模上都顯著優(yōu)于傳統(tǒng)的歸一化方法。特別是在工業(yè)級別的訓(xùn)練規(guī)模下,LNS仍然表現(xiàn)出顯著的性能提升。
研究團(tuán)隊(duì)還進(jìn)行了下游任務(wù)的微調(diào)實(shí)驗(yàn)。他們使用Commonsense170K數(shù)據(jù)集在八個(gè)不同的推理任務(wù)上測試了經(jīng)過LNS預(yù)訓(xùn)練的模型。結(jié)果顯示,使用LNS預(yù)訓(xùn)練的模型在微調(diào)后的表現(xiàn)也明顯優(yōu)于傳統(tǒng)方法。這表明LNS不僅改善了預(yù)訓(xùn)練效果,還增強(qiáng)了模型的通用學(xué)習(xí)能力。
為了深入理解LNS的工作機(jī)制,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的分析實(shí)驗(yàn)。他們驗(yàn)證了LNS確實(shí)能夠有效控制輸出方差,并分析了LNS對層間表示多樣性的影響。實(shí)驗(yàn)結(jié)果表明,LNS成功地讓每一層都發(fā)揮了應(yīng)有的作用,提高了模型的整體性能。
LNS的實(shí)現(xiàn)既簡單又巧妙。它不需要引入額外的可學(xué)習(xí)參數(shù)或調(diào)整任何超參數(shù),只需在每個(gè)層歸一化操作的輸出后乘以相應(yīng)的縮放因子即可。這種設(shè)計(jì)既保持了Pre-LN的訓(xùn)練穩(wěn)定性優(yōu)勢,又解決了深層網(wǎng)絡(luò)效果不佳的問題。
值得注意的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)LNS與某些初始化策略可能存在沖突。他們建議在使用LNS時(shí)移除縮放初始化以獲得最佳性能提升。研究團(tuán)隊(duì)還將LNS應(yīng)用到視覺Transformer中進(jìn)行了初步探索,發(fā)現(xiàn)LNS的具體實(shí)現(xiàn)可能需要根據(jù)不同的模型架構(gòu)和任務(wù)進(jìn)行調(diào)整。
這項(xiàng)研究的實(shí)際應(yīng)用價(jià)值巨大。當(dāng)前訓(xùn)練大型語言模型需要消耗大量計(jì)算資源和能源,而深度困境意味著其中相當(dāng)一部分投資實(shí)際上是浪費(fèi)的。LNS的引入能夠提高訓(xùn)練效率和最終性能,降低計(jì)算成本。
對于工業(yè)界來說,這意味著在相同的計(jì)算預(yù)算下可以獲得更好的模型性能,或者在保持性能不變的情況下顯著降低計(jì)算成本。考慮到大型語言模型的訓(xùn)練成本高昂,這種效率提升的經(jīng)濟(jì)價(jià)值不言而喻。
對于研究界來說,這項(xiàng)工作開啟了重新審視現(xiàn)有架構(gòu)設(shè)計(jì)的新視角。它表明,即使是被廣泛采用的設(shè)計(jì)選擇也可能存在根本性缺陷,需要更深入的理論分析來發(fā)現(xiàn)和解決。研究團(tuán)隊(duì)的工作為未來模型架構(gòu)的設(shè)計(jì)提供了重要指導(dǎo),強(qiáng)調(diào)了在追求更深、更大的模型時(shí),必須仔細(xì)考慮深度對模型行為的影響。
舉報(bào) 0收藏 0打賞 0評論 0分享 0 更多>同類資訊
字節(jié)跳動(dòng)Seed團(tuán)隊(duì)開源推理大模型,Seed-OSS系列斬獲7項(xiàng)SOTA成績智東西8月21日報(bào)道,今天,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)開源了Seed-OSS系列模型,這些模型專為長上下文、推理、Agent和通用場景設(shè)計(jì),將上下文窗口擴(kuò)展至512k,是業(yè)界常見上下文窗口(128k)的4倍,GP…08-22
vivo三十周年:發(fā)布輕量MR頭顯,影像生態(tài)戰(zhàn)略全面革新正值企業(yè)三十周年之際,vivo不僅重磅發(fā)布了混合現(xiàn)實(shí)頭顯探索版,還宣布了影像技術(shù)戰(zhàn)略及影像文化生態(tài)的全新布局,并揭曉了2025 vivo影像加手機(jī)攝影大賽結(jié)果。作為國內(nèi)首家同時(shí)布局手機(jī)與MR的科技企業(yè),viv…08-22
vivo胡柏山:MR技術(shù)引領(lǐng)家庭機(jī)器人時(shí)代,共筑智能生活新愿景胡柏山在闡述vivo科技戰(zhàn)略藍(lán)圖時(shí)提到:“我們致力于通過手機(jī)AI、影像和MR能力,短期滿足用戶對大屏沉浸感的需求,長遠(yuǎn)作為機(jī)器人的眼睛和大腦,攻克家庭這一非結(jié)構(gòu)化場景下的‘感知-決策’難題,搭建未來家庭機(jī)器人…08-22
百度Q2財(cái)報(bào):廣告業(yè)務(wù)下滑,AI新業(yè)務(wù)成業(yè)績增長新動(dòng)力百度新任CFO何海建在此次電話會(huì)上稱,在過去的幾個(gè)季度里,百度加大了AI投資力度,但由于AI搜索的商業(yè)化仍處于非常早期的階段,尚未擴(kuò)大規(guī)模,預(yù)計(jì)百度的收入和利潤率在短期內(nèi)面臨相當(dāng)大的壓力,第三季度將特別具有…08-22
文遠(yuǎn)知行WePilot AiDrive:年內(nèi)量產(chǎn),引領(lǐng)L2級輔助駕駛新革命08-22
文遠(yuǎn)知行WePilot AiDrive:年內(nèi)量產(chǎn),引領(lǐng)L2級輔助駕駛新紀(jì)元08-22
AI陪伴市場升溫,雷軍馬斯克等資本大佬入局,長期記憶痛點(diǎn)待解郭戈稱,資本追逐這一賽道并非偶然,因?yàn)榕惆楸旧砭褪峭婢叩暮诵膬r(jià)值,而AI的加入則賦予其“情緒價(jià)值”,擴(kuò)大了市場蛋糕。 萬物時(shí)創(chuàng)始人萬一(Roy)也向時(shí)代周報(bào)記者強(qiáng)調(diào),“情感陪伴一定是長期的本質(zhì)需求,和文化消費(fèi)…08-22
智匯教育未來:名校長共探基礎(chǔ)教育數(shù)字化變革新航向來自全國多地的名校長與專家學(xué)者齊聚一堂,圍繞基礎(chǔ)教育數(shù)字化變革、學(xué)校數(shù)字轉(zhuǎn)型與智能升級、校長數(shù)字化領(lǐng)導(dǎo)力等核心議題,深入交流聯(lián)盟內(nèi)外部實(shí)踐經(jīng)驗(yàn),共話智慧教育發(fā)展新路徑。 論壇由教育數(shù)字化行動(dòng)百校聯(lián)盟聯(lián)合北京師…08-22生成式AI投資熱,但95%企業(yè)未見回報(bào),AI價(jià)值何在?08-22DeepSeek-V3.1重磅升級:提升思考效率,強(qiáng)化Agent功能新體驗(yàn)08-22AI數(shù)學(xué)新突破:GPT-5 Pro獨(dú)立推導(dǎo)數(shù)學(xué)結(jié)論,OpenAI總裁贊其為智能新里程碑08-22
DeepSeek-V3.1發(fā)布,專為下一代國產(chǎn)芯片設(shè)計(jì),性能大幅提升08-22AI賦能旅行社:馬蜂窩繩志成詳解智能化轉(zhuǎn)型新策略08-22OpenAI員工完成60億美元股票出售,公司估值躍升至5000億美元08-22
Lumen強(qiáng)化400Gbps數(shù)據(jù)中心連接,賦能AI經(jīng)濟(jì),加速企業(yè)數(shù)字化轉(zhuǎn)型Lumen Technologies對其美國網(wǎng)絡(luò)的數(shù)據(jù)中心和云連接進(jìn)行了重大升級,通過戰(zhàn)略性擴(kuò)張為大都市區(qū)提供高速數(shù)據(jù)中心連接能力。 Lumen表示,這將使客戶能夠輕松連接到數(shù)據(jù)中心和云接入點(diǎn),擴(kuò)展企業(yè)應(yīng)用…08-21點(diǎn)擊查看更多 +全站最新
影石Insta360 GO Ultra口袋相機(jī)上市:4K60fps,磁吸設(shè)計(jì)售2598元
榮耀Magic V Flip2豎折旗艦閃耀登場,高定設(shè)計(jì)與強(qiáng)勁性能并重
谷歌Pixel 10系列:AI技術(shù)全面升級,領(lǐng)先蘋果打造智能新體驗(yàn)
vivo Vision探索版亮相:輕量化設(shè)計(jì),OriginOS Vision系統(tǒng)引領(lǐng)自然交互新體驗(yàn)
影石Insta360 GO Ultra口袋相機(jī)震撼上市:4K60fps,售價(jià)2598元
榮耀Magic V Flip2高顏值登場:2億像素鏡頭+高定設(shè)計(jì),售價(jià)5499元起熱門內(nèi)容
牛津大學(xué)揭秘大型語言模型“深度詛咒”,層歸一化縮放技術(shù)成破解關(guān)鍵
字節(jié)跳動(dòng)Seed團(tuán)隊(duì)開源推理大模型,Seed-OSS系列斬獲7項(xiàng)SOTA成績
vivo三十周年:發(fā)布輕量MR頭顯,影像生態(tài)戰(zhàn)略全面革新
vivo胡柏山:MR技術(shù)引領(lǐng)家庭機(jī)器人時(shí)代,共筑智能生活新愿景
百度Q2財(cái)報(bào):廣告業(yè)務(wù)下滑,AI新業(yè)務(wù)成業(yè)績增長新動(dòng)力
文遠(yuǎn)知行WePilot AiDrive:年內(nèi)量產(chǎn),引領(lǐng)L2級輔助駕駛新革命
本文鏈接:http://www.www897cc.com/showinfo-45-26818-0.html牛津大學(xué)揭秘大型語言模型“深度詛咒”,層歸一化縮放技術(shù)成破解關(guān)鍵
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 恒揚(yáng)數(shù)據(jù):多芯異構(gòu)技術(shù)引領(lǐng),打造智算時(shí)代中心到邊緣的完整解決方案
下一篇: 字節(jié)跳動(dòng)Seed團(tuán)隊(duì)開源推理大模型,Seed-OSS系列斬獲7項(xiàng)SOTA成績