當前位置：首頁 > 科技 > 數碼

再見了NVIDIA！華為昇騰NPU跑出了準萬億參數大模型

來源：責編：時間：2025-05-08 17:51:02 40觀看

導讀現在，跑準萬億參數的大模型，可以徹底跟NVIDIA Say Goodbye了。完成此舉的，正是華為！要知道，在此之前，訓練萬億參數大模型這事，是有諸多“攔路虎”在身上的。例如負載均衡難、通信開銷大、訓練效率低等等

現在，跑準萬億參數的大模型，可以徹底跟NVIDIA Say Goodbye了。

完成此舉的，正是華為！

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

要知道，在此之前，訓練萬億參數大模型這事，是有諸多“攔路虎”在身上的。

例如負載均衡難、通信開銷大、訓練效率低等等。

華為盤古團隊（包含諾亞方舟實驗室、華為云等）基于昇騰國產算力平臺，一舉攻破了上述所有的挑戰——

6000+塊昇騰NPU集群上完成了7180億（718B）參數MoE模型的長期穩定訓練，并通過多項突破性系統優化技術實現了顯著性能提升。

這些創新大幅提高了訓練效率，支撐了行業頂尖水平模型的開發！

不得不說，“國產”二字在大模型硬件上的含金量還在持續上升。

再見了NVIDIA！華為昇騰NPU跑出了準萬億參數大模型

純國產NPU，絲滑跑通準萬億參數大模型

在拆解華為一系列“黑科技”之前，我們先需要更深入地了解一下訓練超大參數MoE模型背后的困難。

總體來看，在這條路上有“四大金剛”在嚴陣把守。

首先就是架構參數優化難題，需在眾多參數組合中探索優配置，設計適配昇騰NPU的大規模MoE架構，實現計算資源的高效利用。

其次是動態負載均衡挑戰，路由機制需要智能分配任務，避免專家資源分配不均；這種不平衡不僅會因“木桶效應”降低訓練效率，更可能導致模型收斂異常，影響終性能表現。

還有分布式通信的瓶頸，在近萬億參數規模下，token在不同計算節點間的專家流轉會產生巨大通信開銷，“通信墻”問題成為制約訓練效率的關鍵因素。

后就是硬件適配復雜度，實現MoE算法與昇騰NPU等專用AI加速器的深度協同，需要打通算法設計、軟件框架和硬件特性的全棧優化，充分釋放硬件計算潛力。

針對這些問題，華為的這份技術報告分別從模型架構、MoE訓練分析、系統優化等方面，詳細介紹了其如何見招拆招。

首先就是MoE結構選型與昇騰親和結構優化。

團隊先進行先導實驗，確定了細粒度專家加上共享專家這樣的范式。隨后在模型選型的時候，考慮了多個方面的因素。

在計算與訪存親和方面，通過增大模型里的hidden size（隱藏層大小），同時降低激活參數量，這樣不僅能提升模型的計算量，還可以降低訪存量，提高了模型訓練時對算力的利用率，以及推理時的吞吐量。

在多維并行親和方面，采用數量為2的指數級的專家數量，達成了TP8 x EP4超融合并行的方式。

運用TP-extend-EP技術，避免因 TP 切分細粒度專家造成MatMul（矩陣乘法）等算子的效率下降，同時使用分組 AllToAll 通信技術來減少 EP 通信所產生的開銷。

在 DaVinci 架構親和方面，將張量按照256進行對齊處理，使其能完美匹配16×16矩陣計算單元，充分釋放昇騰NPU的算力。

在流水線編排親和方面，采用PP（流水線并行）、VPP（可變流水線并行）、空層等技術，實現PP和VPP的負載均衡，減少計算資源閑置（空泡）的情況。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

在模型結構仿真方面，團隊根據硬件的適配特點，對模型參數的選擇范圍進行了大幅調整，把原本龐大的參數搜索空間縮小到了10000個左右。

為了能更準確地知道不同模型的性能極限，團隊開發了一套專門的建模仿真工具。這個工具很厲害，它把模型結構、運行時采用的策略，還有硬件系統，都拆分成了一個個小的參數。

通過對算子、Block、Layer這些層級的計算、數據傳輸和讀取操作進行模擬，就能算出模型從頭到尾的整體性能。經過和實際測試數據對比，發現這個仿真工具的準確率能達到85%以上。

團隊用這個建模仿真工具，把所有符合硬件適配要求的參數組合都測試了一遍，仔細評估它們在訓練和推理時的數據處理速度，后找到了性能相對更好的模型結構，具體情況可以看下面的圖。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

接下來，我們再看下MoE訓練的分析。

在訓練MoE模型的時候，和普通的稠密模型相比，有個特別讓人頭疼的問題，就是負載不均衡。

打個比方，就像一群人干活，有的人忙得不可開交，有的人卻閑著沒事干，這樣效率肯定高不了。

為了解決這個問題，科研界從算法角度想了很多辦法，提出了各種各樣的輔助損失函數，這些函數關注的均衡范圍不太一樣。

比如，早期有專門針對序列級別的均衡輔助損失，還有通義千問提出的DP - Group（也就是全局批次大小）均衡輔助損失。

這些輔助損失函數，就像是給MoE模型里的路由模塊（負責分配任務的部分）定了規矩，通過不同程度的約束，讓它把任務分配得更均勻一些。具體的約束情況，都整理在下面的表格里了。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型 △Balance BSZ表示用來計算專家選擇頻率的tokens個數

團隊還研發出了一種全新的EP組負載均衡損失算法。

和傳統的micro-batch輔助損失相比，它不會過度強求局部任務分配的絕對均衡，避免了“矯枉過正”；跟DP組的均衡損失比起來，它在數據傳輸時耗費的資源更少，能節省不少通信成本。

而且在對專家任務量的約束程度上，它處于兩者之間，是個更折中的方案。

為了驗證這個新算法的效果，團隊在一個總參數量達200億（20B）的先導MoE模型上，專門做了消融實驗，具體情況如下：

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

為了應對專家負載不均的“木桶效應”，MoE可以采用drop-and-pad的方式來提升訓練的吞吐。

團隊首先在一個20B的先導MoE上對比了不同專家總數下drop-and-pad和dropless的性能：

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

結果顯示，dropless總是優于drop-and-pad方案。

并且這種性能的差距會隨著專家數變多、模型參數變大而進一步放大。

因此在訓練盤古Ultra MoE時采用了dropless的方案，并重點優化了這一策略下的訓練效率。

具體而言，團隊從四個關鍵方向對盤古Ultra MoE 模型進行了全面優化，包括改進并行計算策略、優化數據傳輸效率、提升顯存使用效果，以及讓任務分配更均勻。

在由6000+個昇騰NPU組成的大型計算集群上，模型的算力利用率（MFU，即Model FLOPs Utilization）達到了30.0% ，和優化前相比，提升幅度高達58.7%。

團隊用一套能模擬全流程的模型仿真系統，反復試驗尋找佳的并行計算方案。

終確定的方案是：采用16路流水線并行、8路張量并行、4路專家并行、2路虛擬流水線并行，以及48路數據并行。

在專家并行這塊，團隊用了TP拓展EP的策略。

簡單來說，就是讓TP組來劃分專家數量，這樣做能避免因為TP組拆分專家參數，導致GMM算子在處理小規模專家數據時效率暴跌的問題。

整個系統里，專家組總數是32組（TP 和 EP 組合計算得出），一共劃分成256個專家。

虛擬流水線并行策略效果特別好，以前訓練時，計算資源閑置（空泡率）的情況占18.98%，用了新策略后，直接降到10.49% 。

同時，通過合理分配MTP層和損失函數層的任務，把任務分配不均衡導致的負載溢出，控制在5%以內，大大減少了任務分配不均帶來的負面影響。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

為了解決并行擴展中的通信瓶頸，團隊還設計了兩個主要技術。

首先就是Hierarchical EP Communication分級EP通信。

相比機內通信，跨機通信帶寬較低。團隊采用分級EP通信，減少跨機通信量。

具體來說，采用跨機Allgather 通信將所有tokens同步到機內，然后在機內對token排序并采用機內AlltoAll通信對tokens重新分配。

機內通信和機間通信都可以通過前反向通信掩蓋技術掩蓋，從下圖的通信量對比可以看到分級EP通信對跨機通信量減少的效果。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

其次是Adaptive Pipe Overlap Mechanism自適應前反向掩蓋策略。

即使采用分級EP通信策略，EP通信的耗時占比仍然很高。前反向的大部分EP通信與計算均具有依賴關系，自然掩蓋策略會暴露大部分EP通信。

如果采用通算融合算子等自掩蓋策略，又不可避免地會降低計算效率。

因此，團隊采用基于VPP調度的自適應前反向掩蓋策略，實現如下圖流程的前向計算掩蓋反向通信，反向計算掩蓋前向通信。

核心設計包括：利用機間與機內通信鏈路帶寬獨立特點實現機內通信與機間通信的互相掩蓋，利用算子的有效排布緩解host bound，將專家反向dw計算與dx計算分離做更細粒度的掩蓋。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

對顯存進行優化時，團隊采用了新的計算方式。

不再使用傳統的全重計算，而是對細粒度模塊，像MLA、Permute和激活函數進行重新計算，這樣能避免額外的計算消耗。

同時，運用Tensor Swapping技術，把重新計算不太劃算的激活值，先轉移到CPU那邊，等需要反向計算時再提前取回來，讓NPU內存得到更高效的利用。

團隊還在研究新的顯存節省方法，準備把多種優化策略組合起來，根據不同的設備配置，找到適合的組合，既能提高顯存利用率，又不會降低模型性能。

讓每臺設備上專家處理的任務量（token 數量）盡量均勻，能大幅提升訓練效率。

為此，團隊設計了一套動態的設備級負載均衡機制。

首先，規劃器就像一個“小管家”，通過觀察一段時間內專家的工作負載情況，預測未來的任務量，再用貪心算法規劃出如何重新分配專家，讓設備間的任務更均衡。

然后，執行器定期行動，把不同Transformer層的專家參數和優化器狀態在設備間轉移。通過這種動態調整，模型的MFU提高了10%。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

除了上面這些，團隊還開發了一些專門適配昇騰設備的技術，包括主機端優化、計算卸載與數據共享，以及融合算子。

算子下發優化：

為了解決host端性能瓶頸問題，團隊減少了那些需要頻繁同步操作的算子，避免不必要的等待。同時，使用細粒度CPU綁核技術，讓CPU和NPU配合得更好，任務下發更順暢。

計算卸載與數據共享：

當遇到NPU處理起來效率低的數據計算，或者在TP區域內數據傳輸慢的情況，作者把這些不適合NPU的計算從主計算流程中分離出來，交給CPU在數據加載時處理。再結合數據共享技術，讓同一節點內的計算和數據傳輸速度都大大提高。

融合算子：

除了盤古稠密模型里已有的FlashAttention 和 RMSNorm融合算子，團隊在MoE模型里又加入了 GMMAdd、Permute和Umpermute融合算子。

GMMAdd融合算子把GroupedMatMul的反向計算和梯度累加放在一起處理，利用并行和流水線技術減少調度時間。Permute和Unpermute融合算子整合了多種操作，能更快地讀寫內存。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

實驗結果

在訓練數據集構建過程中，團隊實施嚴格的數據質量控制，并著重強調語料庫的多樣性、復雜性和全面性。

針對長鏈思維樣本引入特殊標記符號對推理軌跡與終答案進行結構化分隔。

后訓練階段采用指令微調策略，數據涵蓋領域廣泛，包含通用問答、文本生成、語義分類、代碼編程、數理邏輯推理及工具使用等。

特別將推理與非推理樣本比例設定為3:1，進一步提升推理性能。

實驗表明，盤古Ultra MoE對話版本在多領域均展現出卓越競爭力，在大多數benchmark上與DeepSeek-R1表現相當。

比如通用理解任務（如CLUEWSC 94.8分、MMLU 91.5分）中展現卓越理解力，在數學推理與代碼生成等高難度測試（如AIME2024 81.3分、MBPP+ 81.2分）中表現優異，具備突出的代碼與數學解題能力。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

團隊還對盤古Ultra MoE進行了專家專業度分析。

在不同任務中，同一網絡層的token會被優先路由至不同專家，專家專業化程度存在顯著任務差異性。

這證實了盤古Ultra MoE已形成顯著的專家差異化，這種特性不僅增強了模型的表達能力，更為其卓越性能提供了關鍵支撐。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

盤古Ultra MoE的MoE層輸出由共享專家和路由專家共同貢獻的加權和構成。

因此，保持二者輸出的平衡至關重要。

下圖中展示了路由專家在各網絡層均保持著與共享專家相當的貢獻強度，這種均衡的協同作用有效提升了模型的整體表征能力。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

團隊還分析了專家的共激活現象，激活分數越高，說明兩個專家之間的相關性越強。

在下圖中，除少數例外情況外，這三層中的專家之間并未出現明顯的共激活現象，這反映了盤古Ultra MoE的專家冗余度較低。

再見了NVIDIA！華為NPU跑出了準萬億參數大模型

以上便是華為國產NPU跑準萬億參數大模型背后的奧義了。

華為盤古Ultra MoE技術的突破，不僅標志著國產算力平臺在AI大模型訓練領域邁入世界領先行列，更彰顯了中國科技自主創新的強大實力。

它證明了中國企業在全球AI競賽中已具備從跟跑到并跑，甚至領跑的實力。

未來，隨著技術的持續迭代與應用場景的拓展，盤古Ultra MoE將為千行百業的智能化轉型注入強勁動力，助力中國在新一輪科技革命中占據制高點，為人類科技進步貢獻更多“中國智慧”。

技術報告下載地址：arxiv.org/abs/2505.04519

文章出處：量子位

本文鏈接：http://www.www897cc.com/showinfo-24-148539-0.html再見了NVIDIA！華為昇騰NPU跑出了準萬億參數大模型

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：史上快！華為鴻蒙電腦支持160MB/s一對一互傳：可1對4并發傳輸

下一篇：華為鴻蒙電腦接入DeepSeek：生產力更強

標簽：

熱門焦點

俄羅斯：將審查iPhone等外國公司設備保數據安全

iPhone和特斯拉都屬于在各自領域領頭羊的品牌，推出的產品也也都是數一數二的，但對于一些國家而言，它們的產品可靠性和安全性還是在限制范圍內。近日，俄羅斯聯邦通信、信息技術
容量越大越不壞？24萬塊硬盤故障率報告公布這些產品零故障

8月5日消息，云存儲服務商Backblaze發布了最新的硬盤故障率報告，年故障率有所上升。Backblaze發布的硬盤季度統計數據，其中包括故障率等重要方面。這些結
十個簡單但很有用的Python裝飾器

裝飾器（Decorators）是Python中一種強大而靈活的功能，用于修改或增強函數或類的行為。裝飾器本質上是一個函數，它接受另一個函數或類作為參數，并返回一個新的函數或類。它們通常用
消費結構調整丨巨頭低價博弈，拼多多還卷得動嗎？

來源：征探財經作者：陳香羽隨著流量紅利的退潮，電商的存量博弈越來越明顯。曾經主攻中高端與品質的淘寶天貓、京東重拾“低價”口號。而過去與他們錯位競爭的拼多多，靠
信通院：小米、華為等11家應用商店基本完成APP簽名及驗簽工作

中國信通院表示，目前，小米、華為、OPPO、vivo、360手機助手、百度手機助手、應用寶、豌豆莢和努比亞等9家應用商店，以及抖音和快手2家新型應用分發平
三星Galaxy Z Fold/Flip 5國行售價曝光：最低7499元/12999元起

據官方此前宣布，三星將于7月26日也就是明天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
2299元起！iQOO Pad開啟預售：性能最強天璣平板

5月23日，iQOO如期舉行了新品發布會，除了首發安卓最強旗艦處理器的iQOO Neo8系列新機外，還在發布會上推出了旗下首款平板電腦——iQOO Pad，其搭載了天璣
OPPO K11評測：旗艦級IMX890加持 2000元檔最強影像手機

【Techweb評測】中端機型用戶群體巨大，占了中國目前手機市場的大頭，一直以來都是各手機品牌的“必爭之地”，其中OPPO K系列機型一直以來都以高品質、
質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

再見了NVIDIA！華為昇騰NPU跑出了準萬億參數大模型

俄羅斯：將審查iPhone等外國公司設備保數據安全

容量越大越不壞？24萬塊硬盤故障率報告公布這些產品零故障

十個簡單但很有用的Python裝飾器

消費結構調整丨巨頭低價博弈，拼多多還卷得動嗎？

信通院：小米、華為等11家應用商店基本完成APP簽名及驗簽工作

三星Galaxy Z Fold/Flip 5國行售價曝光：最低7499元/12999元起

2299元起！iQOO Pad開啟預售：性能最強天璣平板

OPPO K11評測：旗艦級IMX890加持 2000元檔最強影像手機

質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

最新推薦

猜你喜歡

熱門推薦

相關資訊