日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

大模型訓練loss突刺原因和解決辦法

來源: 責編: 時間:2024-01-08 09:18:17 235觀看
導讀最近閱讀了《A Theory on Adam Instability in Large-Scale Machine Learning 》這篇論文。比較全面的闡述了100B以上的大模型預訓練中出現loss spike的原因(loss 突然大幅度上漲),并介紹了一些可能的解決辦法。論文寫

最近閱讀了《A Theory on Adam Instability in Large-Scale Machine Learning 》這篇論文。比較全面的闡述了100B以上的大模型預訓練中出現loss spike的原因(loss 突然大幅度上漲),并介紹了一些可能的解決辦法。論文寫的非常精彩,但整體上有點散和深,我嘗試著站在工業立場上把它串一下Mp128資訊網——每日最新資訊28at.com

突刺是什么

首先介紹一下什么是loss spike:Mp128資訊網——每日最新資訊28at.com

loss spike指的是預訓練過程中,尤其容易在大模型(100B以上)預訓練過程中出現的loss突然暴漲的情況Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

如圖所示模型訓練過程中紅框中突然上漲的loss尖峰 loss spike的現象會導致一系列的問題發生,譬如模型需要很長時間才能再次回到spike之前的狀態(論文中稱為pre-explosion),或者更嚴重的就是loss再也無法drop back down,即模型再也無法收斂Mp128資訊網——每日最新資訊28at.com

PaLM和GLM130b之前的解決辦法是找到loss spike之前最近的checkpoint,更換之后的訓練樣本來避免loss spike的出現。Mp128資訊網——每日最新資訊28at.com

突刺成因分析

這篇論文(以下稱本文)對loss spike的出現原因做了十分詳細的分析,最后認為預訓練使用的Adam優化器是導致這個現象出現的重要原因之一Mp128資訊網——每日最新資訊28at.com

Mp128資訊網——每日最新資訊28at.com

Adam算法是牛頓下降法的一個迭代逼近 Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

一切顯得十分完美,但是理想很豐滿,現實很骨感,收斂過程并不是一帆風順的Mp128資訊網——每日最新資訊28at.com

Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

非穩態Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

中間態Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

穩態 Mp128資訊網——每日最新資訊28at.com

進入正態分布的穩態之后,理想的更新參數變化趨勢應該是方差越來越小,所有更新參數逐漸向0靠近。這應該是一個單向的過程,即穩定的單峰狀態(unimodal)不會再次進入非穩定的雙峰狀態(bimodal),但事實并非如此,更新參數會再次進入非穩定的雙峰狀態Mp128資訊網——每日最新資訊28at.com

本文在理論層面做了研究和解釋,從中心極限定理(可以結合道爾頓板實驗理解)出發,認為隨機事件的疊加進入單峰的正態分布的必要條件之一是各個隨機事件事件之間應該是相互獨立的,但是梯度變化以及更新參數的變化并不能特別好的滿足獨立性這一條件,而這一點恰恰是導致更新參數振蕩,loss spike出現以及loss 不收斂的重要原因之一Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

造成梯度變化不獨立的原因(1、淺層參數長時間不更新2、batch太大,后期梯度更新趨于平穩) 上述的理論有些晦澀,本文作者可能也了解這一點,之后開始直接點題,結合實驗觀察拋出了重要現象和結論Mp128資訊網——每日最新資訊28at.com

即訓練過程中loss spike的出現與:梯度更新幅度, 大小,batch大小這三個條件密切相關Mp128資訊網——每日最新資訊28at.com

本文作者對loss spike出現時模型的前后變化做了仔細拆解,發現下列一系列連續現象的出現導致了loss spike:Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

  1. 當前模型處在穩態(健康狀態),即單峰的正態分布狀態,并且梯度值 ,此時loss平穩,訓練過程正常

圖片圖片Mp128資訊網——每日最新資訊28at.com

2.模型淺層(embedding層)梯度  ,這一般是由于訓練一段時間之后,淺層的語義知識表示此時一般已經學習的較好。但此時深層網絡(對應復雜任務)的梯度更新還是相對較大Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

3.一段時間淺層(embedding層)梯度  之后會導致  ,  。此時趨于0。因此導致淺層參數得不到更新(也對應于上述參數更新事件不獨立的原因)Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

4.此時雖然淺層(embedding層)參數長時間不更新,但是深層的參數依然一直在更新。長時間這樣的狀態之后,batch之間的樣本分布變化可能就會直接導致淺層(embedding層)再次出現較大的梯度變化(可以想象成一個水壩蓄水太久終于被沖開了。至于小模型為什么不會出現這種情況,推測是小模型函數空間小,無法捕獲樣本的分布變化,越大規模的模型對樣本之間不同維度的特征分布變化越敏感),此時 , 再次集中在 附近(此時 , ),變成雙峰的非穩定狀態,本文提到了淺層(embedding層)這種突然的參數變化可能造成模型的連鎖反應進而出現loss spike的現象(這也對應了更換樣本重新訓練有可能會減少loss spike的出現頻率,實際上就是選擇分布變化較小的樣本,減小淺層梯度變換幅度)Mp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

5.這個階段模型處于非穩態,梯度變化幅度較大,每一次的梯度變化和更新參數變化事件之間又出現了一定的獨立性,因此經過一定的時間之后模型有可能再次進入穩態,loss再次drop back down(注意,本文著重提了這個再次drop back down并不是一定出現的,也很有可能loss長期處于flat狀態,再也無法收斂)Mp128資訊網——每日最新資訊28at.com

因此我們得出一些結論,loss spike的出現和淺層的梯度更新幅度, 大小密切相關(batch大小帶來的相關性問題倒是顯得沒那么大說服力),實際上就是淺層網絡參數突然進入到了之前長時間不在的狀態與模型深層參數當前的狀態形成了連鎖反應造成了模型進入非穩態。同時一般情況即使出現loss spike也會自動回復到正常狀態,但也有可能再也不會Mp128資訊網——每日最新資訊28at.com

突刺解法

本文最后提到了防止loss spike出現的一些方法:Mp128資訊網——每日最新資訊28at.com

1.如之前提到的PaLM和GLM130B提到的出現loss spike后更換batch樣本的方法(常規方法,但是成本比較高)Mp128資訊網——每日最新資訊28at.com

2.減小learning rate,這是個治標不治本的辦法,對更新參數的非穩態沒有做改進Mp128資訊網——每日最新資訊28at.com

3.減小 大小。或者直接把 設為0,重新定義Mp128資訊網——每日最新資訊28at.com

在等于0時候的值(這應該是個值得嘗試的辦法)Mp128資訊網——每日最新資訊28at.com

值得一提的是智譜華章在本文發表之前,在去年的GLM130B訓練時似乎也觀察到了淺層梯度變化和loss spike相關這一現象(GLM-130B: An Open Bilingual Pre-trained Model),他采取的是把淺層梯度直接乘以縮放系數 來減小淺層梯度更新值Mp128資訊網——每日最新資訊28at.com

出自130b出自130bMp128資訊網——每日最新資訊28at.com

圖片圖片Mp128資訊網——每日最新資訊28at.com

其實這塊我有個自己的想法,和是否也可以做衰減,隨著訓練過程逐漸減小,來避免loss spike的現象Mp128資訊網——每日最新資訊28at.com

另外假設我們能一次性加載所有樣本進行訓練(實際上不可能做到),是否還會出現loss spike的現象Mp128資訊網——每日最新資訊28at.com

最后目前流行的fp8,fp16混合訓練,如果upscale設置的過小,導致梯度在進入優化器之前就下溢,是不是會增加淺層梯度長時間不更新的可能性,進而增加loss spike的出現的頻率。(這么看來似乎提升upscale大小以及優化 大小是進一步提升模型效果的一個思路)Mp128資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-57943-0.html大模型訓練loss突刺原因和解決辦法

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Maven的插件體系如何幫助開發人員執行各種構建任務?

下一篇: 加快SQL查詢的九種優秀實踐

標簽:
  • 熱門焦點
  • 石頭自清潔掃拖機器人G10S評測:多年黑科技集大成之作 懶人終極福音

    科技圈經常能看到一個詞叫“縫合怪”,用來形容那些把好多功能或者外觀結合在一起的產品,通常這樣的詞是貶義詞,但如果真的是產品縫合的好、縫合的實用的話,那它就成了中性詞,今
  • 6月安卓手機好評榜:魅族20 Pro蟬聯冠軍

    性能榜和性價比榜之后,我們來看最后的安卓手機好評榜,數據來源安兔兔評測,收集時間2023年6月1日至6月30日,僅限國內市場。第一名:魅族20 Pro好評率:95%5月份的時候魅族20 Pro就是
  • 0糖0卡0脂 旭日森林仙草烏龍茶優惠:15瓶到手29元

    旭日森林無糖仙草烏龍茶510ml*15瓶平時要賣為79.9元,今日下單領取50元優惠券,到手價為29.9元。產品規格:0糖0卡0脂,添加草本仙草汁,清涼爽口,富含茶多酚,保留
  • 一加首款折疊屏!一加Open渲染圖出爐:罕見單手可握小尺寸

    8月5日消息,此前就有爆料稱,一加首款折疊屏手機將會在第三季度上市,如今隨著時間臨近,新機的各種消息也開始浮出水面。據悉,這款新機將會被命名為“On
  • Golang 中的 io 包詳解:組合接口

    io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合,
  • 如何正確使用:Has和:Nth-Last-Child

    我們可以用CSS檢查,以了解一組元素的數量是否小于或等于一個數字。例如,一個擁有三個或更多子項的grid。你可能會想,為什么需要這樣做呢?在某些情況下,一個組件或一個布局可能會
  • Flowable工作流引擎的科普與實踐

    一.引言當我們在日常工作和業務中需要進行各種審批流程時,可能會面臨一系列技術和業務上的挑戰。手動處理這些審批流程可能會導致開發成本的增加以及業務復雜度的上升。在這
  • 十個簡單但很有用的Python裝飾器

    裝飾器(Decorators)是Python中一種強大而靈活的功能,用于修改或增強函數或類的行為。裝飾器本質上是一個函數,它接受另一個函數或類作為參數,并返回一個新的函數或類。它們通常用
  • OPPO K11樣張首曝:千元機影像“卷”得真不錯!

    一直以來,OPPO K系列機型都保持著較為均衡的產品體驗,歷來都是2K價位的明星機型,去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置,堪稱有
Top 主站蜘蛛池模板: 永顺县| 姜堰市| 景谷| 曲水县| 大同市| 虎林市| 永福县| 富源县| 信宜市| 顺义区| 灵川县| 山东| 马龙县| 五峰| 盘山县| 田东县| 固原市| 孝义市| 开阳县| 和硕县| 容城县| 扎赉特旗| 崇义县| 璧山县| 扎囊县| 甘谷县| 集贤县| 延寿县| 和平区| 东源县| 西华县| 奉贤区| 出国| 神木县| 确山县| 丹巴县| 辽宁省| 阿瓦提县| 滦平县| 普宁市| 北碚区|