當前位置：首頁 > 科技 > 手機

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！

來源：責(zé)編：時間：2025-05-21 08:40:12 75觀看

導(dǎo)讀要問近哪個模型火，混合專家模型（MoE，Mixture of Experts）絕對是榜上提名的那一個。它的巧妙之處，就在于把不同的任務(wù)分配給擅長處理的專家網(wǎng)絡(luò)，讓整個系統(tǒng)性能得以提升。但你知道嗎？正是這個關(guān)鍵的專家網(wǎng)絡(luò)，也是嚴

要問近哪個模型火，混合專家模型（MoE，Mixture of Experts）絕對是榜上提名的那一個。

它的巧妙之處，就在于把不同的任務(wù)分配給擅長處理的專家網(wǎng)絡(luò)，讓整個系統(tǒng)性能得以提升。

但你知道嗎？

正是這個關(guān)鍵的專家網(wǎng)絡(luò)，也是嚴重影響系統(tǒng)推理性能的因素之一。

因為在大量任務(wù)來臨之際（尤其是超大規(guī)模時），MoE并不是以“雨露均沾”的方式去分配——專家網(wǎng)絡(luò)們的負載均衡問題，就會顯得尤為突出。

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！

這個問題的根源，是因為某些專家網(wǎng)絡(luò)總是被頻繁調(diào)用（熱專家），而另一些專家網(wǎng)絡(luò)則鮮有機會派上用場（冷專家）。

沒錯，MoE里的“專家們”也是有冷熱之分的，而且被調(diào)用頻率的差距甚至可以達到一個數(shù)量級以上！

如此負載不均衡的現(xiàn)象，就會導(dǎo)致整個系統(tǒng)推理的時間被延長，以及還有資源利用率、系統(tǒng)性能受限等問題。

那么此局又該如何破解？

別急，華為團隊已經(jīng)給出了一種有效解法，直接讓DeepSeek-V3在理論上的推理延遲可降低約10%、吞吐量可提升約10%。

值得一提的是，團隊還將在近期準備把這個解法全面開源了；那么接下來，我們就來深入了解一下。

華為的刀法：OmniPlacement

針對專家們冷熱不均的問題，華為優(yōu)化的刀法，叫做OmniPlacement。

簡單來說，它的工作原理是這樣的：

通過專家重排、層間冗余部署和近實時動態(tài)調(diào)度，顯著提升MoE模型的推理性能。

具體可以分為三步走：

第一刀：基于計算均衡的聯(lián)合優(yōu)化

在這一步中，華為團隊通過分析專家的活躍度（激活數(shù)據(jù)），先是識別出了忙碌的熱專家和清閑的冷專家。

然后將提出的一種基于計算均衡的聯(lián)合優(yōu)化算法OmniPlacement用了上去。

這個算法會根據(jù)專家調(diào)用頻率和計算需求來優(yōu)化部署的順序，這樣就會顯著降低負載不均的現(xiàn)象。

具體來說，OmniPlacement算法的特點如下：

動態(tài)優(yōu)先級調(diào)整：通過實時統(tǒng)計專家調(diào)用頻率，動態(tài)調(diào)整專家的優(yōu)先級和節(jié)點分配，確保高頻專家優(yōu)先部署在計算能力較強的節(jié)點上。

通信域優(yōu)化：算法分析批次內(nèi)激活卡數(shù)，優(yōu)化跨節(jié)點通信域的范圍，減少通信延遲。相比傳統(tǒng)的靜態(tài)分配方法，本算法顯著降低了通信開銷。

層間差異化部署：允許不同層根據(jù)負載特性設(shè)置不同的專家部署策略，支持非均勻冗余次數(shù)配置，從而更好地適應(yīng)層間負載差異。

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！ △相同數(shù)據(jù)條件下，EPLB與OmniPlacement算法，每層設(shè)備大激活數(shù)理論對比第二刀：層間高頻專家冗余部署

剛才的步驟是面向冷熱專家整體，那么這一步則是劍指熱專家。

為了緩解熱專家的壓力，華為團隊還提出了一種層間冗余部署的策略——

通過為高頻調(diào)用專家分配額外的冗余實例，降低跨節(jié)點通信開銷，從而提升系統(tǒng)吞吐量。

這個策略的創(chuàng)新點在于：

動態(tài)資源分配：根據(jù)實時計算資源占用情況和專家調(diào)用頻率，動態(tài)調(diào)整冗余實例的分配比例。系統(tǒng)通過預(yù)測模型提前分配資源，減少冷熱專家間的性能差距。

層間差異化配置：不同層根據(jù)負載需求設(shè)置不同的冗余次數(shù)，增強對層間負載差異的適應(yīng)能力。例如，高負載層可分配更多的冗余實例，而低負載層則減少冗余以節(jié)省顯存。

預(yù)測性分配：結(jié)合歷史激活數(shù)據(jù)和負載預(yù)測模型，系統(tǒng)能夠提前優(yōu)化資源分配，降低突發(fā)負載對系統(tǒng)性能的影響。

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！ △冗余不同層數(shù)排布的理論熱力圖第三刀：近實時調(diào)度與動態(tài)監(jiān)控機制

為了讓系統(tǒng)能更靈活地應(yīng)對各種變化，在實際運行中快速做出反應(yīng)，研究團隊設(shè)計了一套類似 “智能管家” 的方案——

近實時調(diào)度與動態(tài)監(jiān)控機制。

其具體包含的子模塊如下：

近實時調(diào)度：通過實時統(tǒng)計數(shù)據(jù)流特性，動態(tài)調(diào)整專家分配以適應(yīng)輸入數(shù)據(jù)的變化。調(diào)度算法能夠在毫秒級時間內(nèi)收斂到優(yōu)化的靜態(tài)專家部署模式，確保推理過程的高效性和一致性。該機制通過迭代優(yōu)化專家分配，顯著降低了動態(tài)調(diào)整的計算開銷。

動態(tài)監(jiān)控：實時跟蹤專家激活數(shù)據(jù)和系統(tǒng)資源占用情況，為調(diào)度決策提供準確依據(jù)。監(jiān)控任務(wù)在獨立的計算流中運行，避免對推理主流程的干擾，保障系統(tǒng)整體效率。

動態(tài)專家權(quán)重訪問與擺放：通過層間流水線設(shè)計，實現(xiàn)專家權(quán)重和分配的動態(tài)調(diào)整。系統(tǒng)在推理過程中并行處理權(quán)重更新和數(shù)據(jù)流分配，支持高效的專家動態(tài)擺放。流水線設(shè)計允許在不中斷推理流程的情況下完成權(quán)重調(diào)整，顯著降低高負載場景下的推理延遲。

這套機制通過兩個關(guān)鍵設(shè)計大幅提升了系統(tǒng)性能：

首先采用多任務(wù)并行處理技術(shù)，讓系統(tǒng)反應(yīng)更快、調(diào)整更靈活；其次獨創(chuàng)性地將監(jiān)控和調(diào)度功能分開運行。

這樣既保證了實時監(jiān)控的準確性，又避免了監(jiān)控程序拖慢系統(tǒng)速度，使整個系統(tǒng)運行更加穩(wěn)定可靠。

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！ △近實時調(diào)度理論效果與收斂性

為了支持上述技術(shù)的穩(wěn)定運行，團隊還開發(fā)了適用于vLLM的推理優(yōu)化框架OmniPlacement，其核心特點如下：

高兼容性：框架支持多種MoE模型架構(gòu)，能夠無縫集成到現(xiàn)有的推理系統(tǒng)中。

低時延開銷：通過優(yōu)化數(shù)據(jù)處理和調(diào)度流程，框架顯著減少了額外計算開銷，確保推理性能不受影響。

模塊化設(shè)計：框架包含數(shù)據(jù)統(tǒng)計、算法運行和專家調(diào)度三大模塊，各模塊功能解耦，支持功能擴展和維護。模塊化設(shè)計便于快速迭代和定制化開發(fā)。

可擴展性：框架支持動態(tài)添加新的負載均衡算法和調(diào)度策略，適應(yīng)未來MoE模型的復(fù)雜需求。

OmniPlacement采用模塊化設(shè)計，把核心算法和推理流程分開處理，就像把汽車的發(fā)動機和控制系統(tǒng)分開優(yōu)化一樣。

這樣設(shè)計有兩個突出優(yōu)勢：

一是專門負責(zé)任務(wù)調(diào)度的模塊可以獨立工作，不會干擾主系統(tǒng)的運行效率；二是整個框架可以根據(jù)不同需求靈活調(diào)整，為大型AI模型的穩(wěn)定運行提供了堅實的底層支持。

DeepSeek V3系統(tǒng)延遲理論可直降10%

在了解完華為的“刀法”之后，我們再來看下“療效”。

華為團隊把這套優(yōu)化方法在DeepSeek-V3上進行了全面驗證，實驗環(huán)境包括多節(jié)點GPU集群和高并發(fā)推理場景。

得到了如下的測試結(jié)果：

推理延遲：相比基線方法（未優(yōu)化負載均衡的MoE模型），推理延遲平均降低約10%。延遲的減少主要得益于動態(tài)專家分配和通信域優(yōu)化，顯著改善了用戶體驗。

吞吐量：系統(tǒng)吞吐量提升約10%，反映了資源利用率的顯著提高。特別是在高并發(fā)場景下，冗余部署和動態(tài)調(diào)度有效緩解了負載瓶頸。

系統(tǒng)穩(wěn)定性：在動態(tài)輸入和高負載場景下，系統(tǒng)保持高效運行，未出現(xiàn)性能波動或服務(wù)中斷。動態(tài)監(jiān)控機制確保了系統(tǒng)對突發(fā)負載的快速響應(yīng)。

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！ △OmniPlacement與基線和BestEP的性能對比

進一步的分析表明，OmniPlacement在不同規(guī)模的MoE模型和輸入數(shù)據(jù)分布下均表現(xiàn)出良好的適應(yīng)性。

并且從實際測試證明來看，它不僅能大幅提升運算效率，還能更合理地利用計算資源，同時保持系統(tǒng)穩(wěn)定運行。

這為今后在實際應(yīng)用中部署大型MoE模型提供了堅實的技術(shù)保障。

后值得一提的是，華為團隊不僅是發(fā)布優(yōu)化方案這么一個動作，更是要將這個方法在近期全面開源。

完整技術(shù)報告：點擊獲取

技術(shù)博客：點擊查看

文章出處：量子位

本文鏈接：http://www.www897cc.com/showinfo-22-152040-0.html華為：讓DeepSeek的“專家們”動起來推理延遲降10%！

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：花粉太熱情鴻蒙折疊電腦預(yù)約超6萬：支持華為打破西方壟斷

下一篇：華為PC史上重要的產(chǎn)品！首款鴻蒙電腦華為MateBook Pro評測

標簽：

熱門焦點

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

華為全新的HarmonyOS 4.0操作系統(tǒng)將于今天下午正式登場，官方在發(fā)布會之前也已經(jīng)正式給出了可升級的機型產(chǎn)品，這意味著這些機型會率先支持升級享用。這次的HarmonyOS 4.0支持
《英雄聯(lián)盟》夏季賽總決賽今日開打！JDG對陣LNG首發(fā)名單來了 Knight：準備三連冠

8月5日消息，今日17:00，《英雄聯(lián)盟》2023LPL夏季賽總決賽將正式開打，由JDG對陣LNG。對兩支隊伍來說，這場比賽不僅要爭奪夏季賽冠軍，更要決定誰才是LPL賽區(qū)一
一年經(jīng)驗在二線城市面試后端的經(jīng)驗分享

忠告這篇文章只適合2年內(nèi)工作經(jīng)驗、甚至沒有工作經(jīng)驗的朋友閱讀。如果你是2年以上工作經(jīng)驗，請果斷劃走，對你沒啥幫助~主人公這篇文章內(nèi)容來自「升職加薪」星球星友的投稿，坐
得物效率前端微應(yīng)用推進過程與思考

一、背景效率工程隨著業(yè)務(wù)的發(fā)展，組織規(guī)模的擴大，越來越多的企業(yè)開始意識到協(xié)作效率對于企業(yè)團隊的重要性，甚至是決定其在某個行業(yè)競爭中突圍的關(guān)鍵，是企業(yè)長久生存的根本。得物
一篇文章帶你了解 CSS 屬性選擇器

屬性選擇器對帶有指定屬性的 HTML 元素設(shè)置樣式。可以為擁有指定屬性的 HTML 元素設(shè)置樣式，而不僅限于 class 和 id 屬性。一、了解屬性選擇器CSS屬性選擇器提供了一種簡單而
本地生活這塊肥肉，拼多多也想吃一口

出品/壹覽商業(yè) 作者/李彥編輯/木魚拼多多也看上本地生活這塊蛋糕了。近期，拼多多在App首頁“充值中心”入口上線了本機生活界面。壹覽商業(yè)發(fā)現(xiàn)，該界面目前主要
華為和江淮汽車合作開發(fā)百萬元問界MPV？雙方回應(yīng)來了

8月1日消息，郭明錤今天在社交平臺發(fā)文稱，華為正在和江淮汽車合作，開發(fā)售價在100萬元的問界MPV，預(yù)計在2024年第2季度量產(chǎn)，銷量目標為上市首年交付5萬輛。
華為Mate60系列模具曝光：采用碩大圓形后置相機模組+拼接配色方案

據(jù)此前多方爆料，今年華為將開始恢復(fù)一年雙旗艦戰(zhàn)略，除上半年推出的P60系列外，往年下半年的Mate系列也將迎來更新，有望在9-10月份帶來全新的華為Mate60
蘋果MacBook Pro 2021測試：仍不支持平滑滾動

據(jù)10月30日9to5 Mac 消息報道，蘋果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后獲得了不錯的評價，亮點包括行業(yè)領(lǐng)先的性能，令人印象深刻的電池續(xù)航，精美豐

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

《英雄聯(lián)盟》夏季賽總決賽今日開打！JDG對陣LNG首發(fā)名單來了 Knight：準備三連冠

一年經(jīng)驗在二線城市面試后端的經(jīng)驗分享

得物效率前端微應(yīng)用推進過程與思考

一篇文章帶你了解 CSS 屬性選擇器

本地生活這塊肥肉，拼多多也想吃一口

華為和江淮汽車合作開發(fā)百萬元問界MPV？雙方回應(yīng)來了

華為Mate60系列模具曝光：采用碩大圓形后置相機模組+拼接配色方案

蘋果MacBook Pro 2021測試：仍不支持平滑滾動

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

華為：讓DeepSeek的“專家們”動起來 推理延遲降10%！

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

華為：讓DeepSeek的“專家們”動起來推理延遲降10%！