日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 手機(jī)

訓(xùn)練MoE足足提速70% 華為只用了3招

來源: 責(zé)編: 時(shí)間:2025-06-04 08:02:10 46觀看
導(dǎo)讀 Scaling Law之下,MoE(混合專家)如今已經(jīng)成為各大模型廠商擴(kuò)展模型能力的制勝法寶。不過,在高效實(shí)現(xiàn)模型參數(shù)規(guī)模化的同時(shí),MoE的訓(xùn)練難題也日益凸顯:訓(xùn)練效率不足,甚至一半以上訓(xùn)練時(shí)間都浪費(fèi)在“等待”

Scaling Law之下,MoE(混合專家)如今已經(jīng)成為各大模型廠商擴(kuò)展模型能力的制勝法寶。Lg328資訊網(wǎng)——每日最新資訊28at.com

不過,在高效實(shí)現(xiàn)模型參數(shù)規(guī)模化的同時(shí),MoE的訓(xùn)練難題也日益凸顯:Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練效率不足,甚至一半以上訓(xùn)練時(shí)間都浪費(fèi)在“等待”上。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招Lg328資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在,為了突破MoE的訓(xùn)練瓶頸,華為出手了:Lg328資訊網(wǎng)——每日最新資訊28at.com

構(gòu)建了一套名為Adaptive Pipe & EDPB的優(yōu)化方案,開啟“上帝視角”,讓MoE面臨“交通擁堵”的訓(xùn)練集群,實(shí)現(xiàn)無等待流暢運(yùn)行。Lg328資訊網(wǎng)——每日最新資訊28at.com

MoE大規(guī)模訓(xùn)練難題:一半以上的訓(xùn)練時(shí)間在等待?Lg328資訊網(wǎng)——每日最新資訊28at.com

實(shí)踐已經(jīng)表明,MoE模型訓(xùn)練集群的效率面臨兩方面挑戰(zhàn):Lg328資訊網(wǎng)——每日最新資訊28at.com

首先,是專家并行引入了計(jì)算和通信等待。Lg328資訊網(wǎng)——每日最新資訊28at.com

當(dāng)模型規(guī)模較大時(shí),需要切分專家到不同設(shè)備形成并行(EP),這就引入額外All-to-All通信。Lg328資訊網(wǎng)——每日最新資訊28at.com

與此同時(shí),MoE層絕大部分EP通信與計(jì)算存在時(shí)序依賴關(guān)系,一般的串行執(zhí)行模式會導(dǎo)致大量計(jì)算單元空閑,等待通信。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招Lg328資訊網(wǎng)——每日最新資訊28at.com

其次,負(fù)載不均會引入計(jì)算和計(jì)算等待。Lg328資訊網(wǎng)——每日最新資訊28at.com

MoE算法核心是“有能者居之”,在訓(xùn)練過程中會出現(xiàn)部分熱專家被頻繁調(diào)用,而冷專家使用率較低的情況。Lg328資訊網(wǎng)——每日最新資訊28at.com

同時(shí),真實(shí)訓(xùn)練數(shù)據(jù)的長度不一,不同的模型層(如稀疏層、嵌入層等)的計(jì)算量也存在明顯差異,造成不同卡之間計(jì)算也在互相等待。Lg328資訊網(wǎng)——每日最新資訊28at.com

用一個(gè)形象點(diǎn)的說法就是,MoE訓(xùn)練系統(tǒng)就像一個(gè)存在局部交通阻塞的城區(qū),面臨兩大核心問題:Lg328資訊網(wǎng)——每日最新資訊28at.com

-人車混行阻塞:所有車輛(計(jì)算)與行人(通信)在紅綠燈交替通行,互相等待。Lg328資訊網(wǎng)——每日最新資訊28at.com

-車道分配僵化:固定劃分的直行、左轉(zhuǎn)車道就像靜態(tài)的專家分配,導(dǎo)致熱門車道(熱專家)大排長龍,而冷門車道(冷專家)閑置。Lg328資訊網(wǎng)——每日最新資訊28at.com

針對以上問題,華為團(tuán)隊(duì)打造了“智慧化交通”設(shè)施:Lg328資訊網(wǎng)——每日最新資訊28at.com

首先,建造“行人地下通道”(通信掩蓋技術(shù)),徹底分離人車動(dòng)線,使計(jì)算不再等待通信。Lg328資訊網(wǎng)——每日最新資訊28at.com

其次,部署“智能可變車道”(動(dòng)態(tài)專家路由),根據(jù)實(shí)時(shí)車流(數(shù)據(jù)分布)動(dòng)態(tài)調(diào)整車道功能,讓閑置的左轉(zhuǎn)車道也能分擔(dān)直行壓力,實(shí)現(xiàn)負(fù)載均衡。Lg328資訊網(wǎng)——每日最新資訊28at.com

這套組合方案既解決了資源分配不均的問題,又消除了通信阻塞的瓶頸,就像為城市交通裝上了“智慧大腦”,讓每個(gè)方向的通行效率都得到大化提升。Lg328資訊網(wǎng)——每日最新資訊28at.com

DeployMind仿真平臺,小時(shí)級自動(dòng)并行尋優(yōu)Lg328資訊網(wǎng)——每日最新資訊28at.com

具體來說,華為首先構(gòu)建了名為DeployMind的仿真平臺,它是一個(gè)基于昇騰硬件訓(xùn)練系統(tǒng)的“數(shù)字孿生”平臺,通過計(jì)算/通信/內(nèi)存三維度的多層級建模、昇騰硬件系統(tǒng)的高精度映射、全局化算法加速運(yùn)行等技術(shù),能在1小時(shí)內(nèi)模擬百萬次訓(xùn)練場景,實(shí)現(xiàn)MoE模型多樣化訓(xùn)練負(fù)載的快速分析和自動(dòng)找到與集群硬件規(guī)格匹配的優(yōu)策略選擇。Lg328資訊網(wǎng)——每日最新資訊28at.com

在訓(xùn)練實(shí)踐驗(yàn)證中,該建模框架可達(dá)到90%精度指標(biāo),實(shí)現(xiàn)低成本且高效的優(yōu)并行選擇。Lg328資訊網(wǎng)——每日最新資訊28at.com

針對Pangu Ultra MoE 718B模型,在單卡內(nèi)存使用約束下,華為通過DeployMind以訓(xùn)練性能為目標(biāo)找到了TP8/PP16/VPP2/EP32(其中TP只作用于Attention),這一適合昇騰集群硬件規(guī)格的并行方案,綜合實(shí)現(xiàn)計(jì)算、通信、內(nèi)存的佳平衡。Lg328資訊網(wǎng)——每日最新資訊28at.com

通信掩蓋>98%,讓計(jì)算不再等待通信Lg328資訊網(wǎng)——每日最新資訊28at.com

華為還提出了一套名為Adaptive Pipe的通信掩蓋框架。在DeployMind仿真平臺自動(dòng)求解優(yōu)并行的基礎(chǔ)上,采用層次化All-to-All降低機(jī)間通信和自適應(yīng)細(xì)粒度前反向掩蓋,實(shí)現(xiàn)通信幾乎“零暴露”。Lg328資訊網(wǎng)——每日最新資訊28at.com

層次化專家并行通信Lg328資訊網(wǎng)——每日最新資訊28at.com

針對不同服務(wù)器之間通信帶寬低,但機(jī)內(nèi)通信帶寬高的特點(diǎn),華為創(chuàng)新地將通信過程拆成了兩步走:Lg328資訊網(wǎng)——每日最新資訊28at.com

第一步,讓各個(gè)機(jī)器上“位置相同”的計(jì)算單元聯(lián)手,快速地從所有機(jī)器上收集完整的數(shù)據(jù)塊(Token);Lg328資訊網(wǎng)——每日最新資訊28at.com

第二步,每臺機(jī)器內(nèi)部先對數(shù)據(jù)塊進(jìn)行整理,然后利用機(jī)器內(nèi)部的高速通道,快速完成互相交換。Lg328資訊網(wǎng)——每日最新資訊28at.com

這種分層設(shè)計(jì)的巧妙之處在于,它把每個(gè)數(shù)據(jù)塊多的復(fù)制分發(fā)操作都限制在單臺機(jī)器內(nèi)部的高速網(wǎng)絡(luò)上完成,而在跨機(jī)器傳輸時(shí),每個(gè)數(shù)據(jù)塊只需要發(fā)送一份拷貝,相比傳統(tǒng)All-to-All通信加速1倍。Lg328資訊網(wǎng)——每日最新資訊28at.com

也就是說,有效通過減少跨機(jī)通信,提升了集群的通信速度。Lg328資訊網(wǎng)——每日最新資訊28at.com

自適應(yīng)細(xì)粒度前反向掩蓋Lg328資訊網(wǎng)——每日最新資訊28at.com

在DualPipe掩蓋框架的基礎(chǔ)上,華為基于虛擬流水線并行技術(shù),實(shí)現(xiàn)了更精密的調(diào)度,即Adaptive Pipe。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招Lg328資訊網(wǎng)——每日最新資訊28at.com

相比DualPipe,Adaptive Pipe僅利用一份權(quán)重,不僅將流水線并行所需的內(nèi)存占用減半,有效降低了計(jì)算“空泡”,釋放了流水線的峰值性能潛力;同時(shí),該策略能夠額外實(shí)現(xiàn)與分層通信的完美協(xié)同,無縫覆蓋機(jī)間與機(jī)內(nèi)兩層通信的掩蓋。Lg328資訊網(wǎng)——每日最新資訊28at.com

在這種層次化通信和細(xì)粒度計(jì)算通信切分調(diào)度優(yōu)化下,Adaptive Pipe可實(shí)現(xiàn)98%以上的EP通信掩蓋,讓計(jì)算引擎不受通信等待的束縛。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招Lg328資訊網(wǎng)——每日最新資訊28at.com

克服負(fù)載不均,訓(xùn)練再加速25%Lg328資訊網(wǎng)——每日最新資訊28at.com

由于MoE模型訓(xùn)練過程中天然存在的負(fù)載不均問題,集群訓(xùn)練效率時(shí)高時(shí)低,華為團(tuán)隊(duì)還提出了EDPB全局負(fù)載均衡,實(shí)現(xiàn)專家均衡調(diào)度。Lg328資訊網(wǎng)——每日最新資訊28at.com

在優(yōu)并行和通信掩蓋基礎(chǔ)上,EDPB再取得了25.5%的吞吐提升收益。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招△集群P2P通信分析對比Lg328資訊網(wǎng)——每日最新資訊28at.com

所謂EDPB,E是專家預(yù)測動(dòng)態(tài)遷移。Lg328資訊網(wǎng)——每日最新資訊28at.com

MoE模型訓(xùn)練中,設(shè)備間的專家負(fù)載不均衡如同“蹺蹺板”——部分設(shè)備滿載運(yùn)行,另一些卻處于“半休眠”狀態(tài)。團(tuán)隊(duì)提出了基于多目標(biāo)優(yōu)化的專家動(dòng)態(tài)遷移技術(shù),讓專家在分布式設(shè)備間“智能流動(dòng)”。Lg328資訊網(wǎng)——每日最新資訊28at.com

該技術(shù)主要有三個(gè)特點(diǎn):Lg328資訊網(wǎng)——每日最新資訊28at.com

-預(yù)測先行,讓專家負(fù)載“看得見未來”:預(yù)測負(fù)載趨勢,實(shí)現(xiàn)“計(jì)算零存儲開銷,預(yù)測毫秒級響應(yīng)”;Lg328資訊網(wǎng)——每日最新資訊28at.com

-雙層優(yōu)化,計(jì)算與通信的黃金分割點(diǎn):提出節(jié)點(diǎn)-設(shè)備雙層貪心優(yōu)化架構(gòu),在讓計(jì)算資源“齊步走”的同時(shí),給通信鏈路“減負(fù)”;Lg328資訊網(wǎng)——每日最新資訊28at.com

-智能觸發(fā),給專家遷移裝上“紅綠燈”:設(shè)計(jì)分層遷移閾值機(jī)制,通過預(yù)評估遷移收益動(dòng)態(tài)決策,實(shí)現(xiàn)專家遷移的智能觸發(fā)。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招△基于專家動(dòng)態(tài)遷移的EP間負(fù)載均衡整體框架圖Lg328資訊網(wǎng)——每日最新資訊28at.com

D是數(shù)據(jù)重排Attention計(jì)算均衡。Lg328資訊網(wǎng)——每日最新資訊28at.com

在模型預(yù)訓(xùn)練中普遍采用數(shù)據(jù)拼接固定長度的策略,但跨數(shù)據(jù)的稀疏Attention計(jì)算量差異顯著,會引入負(fù)載不均衡問題,導(dǎo)致DP間出現(xiàn)“快等慢”的資源浪費(fèi)。Lg328資訊網(wǎng)——每日最新資訊28at.com

為解決這一問題,華為團(tuán)隊(duì)提出了一種精度無損的動(dòng)態(tài)數(shù)據(jù)重排方案,其核心在于:通過線性模型量化單樣本計(jì)算耗時(shí),在嚴(yán)格保持訓(xùn)練精度無損下,批次內(nèi)采用貪心算法構(gòu)建小化耗時(shí)的數(shù)據(jù)重排,實(shí)現(xiàn)負(fù)載均衡。Lg328資訊網(wǎng)——每日最新資訊28at.com

P是虛擬流水線層間負(fù)載均衡。Lg328資訊網(wǎng)——每日最新資訊28at.com

MoE模型通常采用混合結(jié)構(gòu),Dense層、MTP層、輸出層所在的Stage與純MoE層所在的Stage負(fù)載不均,會造成的Stage間等待。Lg328資訊網(wǎng)——每日最新資訊28at.com

華為團(tuán)隊(duì)提出虛擬流水線層間負(fù)載均衡技術(shù),將MTP層與輸出層分離,同時(shí)將MTP Layer的 Embedding計(jì)算前移至首個(gè)Stage,有效規(guī)避Stage間等待問題,實(shí)現(xiàn)負(fù)載均衡。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招△基于異構(gòu)模塊設(shè)計(jì)的VPP并行負(fù)載均衡Lg328資訊網(wǎng)——每日最新資訊28at.com

系統(tǒng)端到端72.6%訓(xùn)練吞吐提升Lg328資訊網(wǎng)——每日最新資訊28at.com

在Pangu Ultra MoE 718B模型的訓(xùn)練實(shí)踐中,華為團(tuán)隊(duì)在8K序列上測試了Adaptive Pipe & EDPB吞吐收益情況。Lg328資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果顯示,在優(yōu)并行策略的初始性能基礎(chǔ)上,華為這套“通信掩蓋+動(dòng)態(tài)專家遷移”的優(yōu)化方案,能實(shí)現(xiàn)系統(tǒng)端到端72.6%的訓(xùn)練吞吐提升。Lg328資訊網(wǎng)——每日最新資訊28at.com

訓(xùn)練MoE足足提速70% 華為只用了3招Lg328資訊網(wǎng)——每日最新資訊28at.com

總而言之,華為的這套打法可以說是為大模型訓(xùn)練優(yōu)化提供了關(guān)鍵路徑。感興趣的小伙伴可以再通過完整技術(shù)報(bào)告深入了解——Lg328資訊網(wǎng)——每日最新資訊28at.com

技術(shù)報(bào)告地址:https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/DistributedOptimizationLg328資訊網(wǎng)——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.www897cc.com/showinfo-22-155755-0.html訓(xùn)練MoE足足提速70% 華為只用了3招

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: REDMI電競小平板本月發(fā):8英寸板王

下一篇: 性能碾壓競品!紫光展銳W527穿戴芯片發(fā)布:12nm工藝、支持4G

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 對標(biāo)蘋果的靈動(dòng)島 華為帶來實(shí)況窗功能

    繼蘋果的靈動(dòng)島之后,華為也在今天正式推出了“實(shí)況窗”功能。據(jù)今天鴻蒙OS 4.0的現(xiàn)場演示顯示,華為的實(shí)況窗可以更高效的展現(xiàn)出實(shí)時(shí)通知,比如鎖屏上就能看到外賣、打車、銀行
  • 6月安卓手機(jī)性能榜:vivo/iQOO霸占旗艦排行榜前三

    2023年上半年已經(jīng)正式過去了,我們也迎來了安兔兔V10版本,在新的驍龍8Gen3和天璣9300發(fā)布之前,性能榜的榜單大體會以驍龍8Gen2和天璣9200+為主,至于那顆3.36GHz的驍龍8Gen2領(lǐng)先
  • 容量越大越不壞?24萬塊硬盤故障率報(bào)告公布 這些產(chǎn)品零故障

    8月5日消息,云存儲服務(wù)商Backblaze發(fā)布了最新的硬盤故障率報(bào)告,年故障率有所上升。Backblaze發(fā)布的硬盤季度統(tǒng)計(jì)數(shù)據(jù),其中包括故障率等重要方面。這些結(jié)
  • 太卷!Redmi MAX 100英寸電視便宜了:12999元買Redmi史上最大屏

    8月5日消息,從小米商城了解到,Redmi MAX 100英寸巨屏電視日前迎來官方優(yōu)惠,到手價(jià)12999元,比發(fā)布價(jià)便宜了7000元,在大屏電視市場開卷。據(jù)了解,Redmi MAX 100
  • Raft算法:保障分布式系統(tǒng)共識的穩(wěn)健之道

    1. 什么是Raft算法?Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”(“可靠、可復(fù)制、可冗余、可容錯(cuò)”)的首字母縮寫。Raft算法是一種用于在分布式系統(tǒng)
  • 騰訊VS網(wǎng)易,最卷游戲暑期檔,誰能笑到最后?

    作者:無銹缽來源:財(cái)經(jīng)無忌7月16日晚,上海1862時(shí)尚藝術(shù)中心。伴隨著幻象的精準(zhǔn)命中,碩大的熒幕之上,比分被定格在了14:12,被寄予厚望的EDG戰(zhàn)隊(duì)以絕對的優(yōu)勢戰(zhàn)勝了BLG戰(zhàn)隊(duì),拿下了總決
  • 一條抖音4億人圍觀 ! 這家MCN比無憂傳媒還野

    作者:Hiu 來源:互聯(lián)網(wǎng)品牌官01 擦邊少女空降熱搜,幕后推手曝光被網(wǎng)友譽(yù)為“純欲天花板”的女網(wǎng)紅井川里予,近期因?yàn)橐唤M哥特風(fēng)照片登上熱搜,引發(fā)了一場互聯(lián)網(wǎng)世界關(guān)于
  • 當(dāng)家的盒馬,加速謀生

    來源 | 價(jià)值星球Planet作者 | 歸去來自己“當(dāng)家”的盒馬,開始加速謀生了。據(jù)盒馬官微消息,盒馬計(jì)劃今年開放生鮮供應(yīng)鏈,將其生鮮商品送往食堂。目前,盒馬在上海已經(jīng)與
  • 英特爾Xe-HP項(xiàng)目終止,將專注Xe-HPC/HPG系列顯卡

    據(jù)10 月 31 日消息報(bào)道,英特爾高級副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理 表示,Xe-HP“ Arctic Sound” 系列服務(wù)器 GPU 已經(jīng)應(yīng)用于 oneAPI devcloud 云服
Top 主站蜘蛛池模板: 昭苏县| 醴陵市| 营山县| 肥城市| 广州市| 蕉岭县| 濮阳县| 邢台县| 镇雄县| 宁津县| 郓城县| 舟曲县| 牡丹江市| 元谋县| 无锡市| 新泰市| 岳阳县| 克拉玛依市| 灌阳县| 香港 | 广丰县| 双桥区| 拜城县| 开封市| 石台县| 文昌市| 琼海市| 延边| 荥经县| 南岸区| 济源市| 三门县| 商都县| 镇平县| 青州市| 凌源市| 略阳县| 宜州市| 延川县| 安陆市| 留坝县|