隨著人工智能領(lǐng)域?qū)λ懔Φ男枨蟪尸F(xiàn)指數(shù)級(jí)增長(zhǎng),大智算集群已成為模型訓(xùn)練不可或缺的基礎(chǔ)設(shè)施。這一趨勢(shì)的背后,是模型參數(shù)與數(shù)據(jù)量的不斷膨脹,驅(qū)動(dòng)著算力需求的急劇上升。從GPT、Llama到Grok等主流模型的發(fā)展歷程中,算力需求的增長(zhǎng)尤為顯著,Grok-4等最新模型的算力需求已較早期模型提升了近千倍。
在大規(guī)模集群訓(xùn)練的場(chǎng)景下,算力需求的增長(zhǎng)帶來了前所未有的挑戰(zhàn)。以DeepSeek、Kimi K2及GPT-4等模型為例,其訓(xùn)練所需的算力及時(shí)間成本均極為高昂。即便是采用高性能的英偉達(dá)H100集群,訓(xùn)練這些模型也需耗費(fèi)數(shù)十天乃至數(shù)百天的時(shí)間。因此,單純依靠擴(kuò)大集群規(guī)模已難以滿足當(dāng)前的算力需求,亟需探索新的解決方案。
在這一背景下,低精度訓(xùn)練成為了提升訓(xùn)練效率的關(guān)鍵途徑。從FP32到FP16,再到如今的FP8,精度的降低帶來了算力的顯著提升。然而,精度的下降也伴隨著模型效果的損失。如何在精度與算力之間找到平衡點(diǎn),成為了業(yè)界關(guān)注的焦點(diǎn)。摩爾線程副總裁王華在WAIC2025期間的摩爾線程技術(shù)分享日上,以《基于FP8的國(guó)產(chǎn)萬卡訓(xùn)練》為主題,分享了摩爾線程在這一領(lǐng)域的創(chuàng)新與思考。
王華指出,通過引入精度參數(shù),可以構(gòu)建新的Scaling Law模型,從而在參數(shù)量、數(shù)據(jù)量與精度之間找到最優(yōu)配置。實(shí)驗(yàn)結(jié)果表明,F(xiàn)P8成為了精度與算力之間的最佳平衡點(diǎn)。然而,低精度訓(xùn)練也面臨著諸多挑戰(zhàn),如數(shù)值范圍小、易上溢下溢等問題。為解決這些問題,摩爾線程采用了混合精度訓(xùn)練等技術(shù)手段,對(duì)非敏感部分采用FP8進(jìn)行計(jì)算,而對(duì)敏感部分則繼續(xù)使用高精度。
在軟硬件支持方面,摩爾線程提供了全棧的完整解決方案。硬件上,其GPU支持從FP64到FP8的全精度算力;軟件上,摩爾線程推出了Torch-MUSA、MT-MegatronLM及MT-TransformerEngine等開源框架,這些框架均支持FP8混合精度訓(xùn)練,并實(shí)現(xiàn)了對(duì)FP8數(shù)據(jù)類型的完整支持。在此基礎(chǔ)上,摩爾線程成功復(fù)現(xiàn)了DeepSeek-V3的整個(gè)訓(xùn)練過程,成為業(yè)內(nèi)率先能復(fù)現(xiàn)DeepSeek滿血版訓(xùn)練的廠商。
王華還分享了摩爾線程在FP8訓(xùn)練上的探索與實(shí)驗(yàn)。在scaling factor的選擇及outlier的影響等方面,摩爾線程進(jìn)行了深入的研究,并提出了有效的解決方案。例如,在scaling factor的選擇上,摩爾線程采用了Per-Tensor及JIT動(dòng)態(tài)的scaling factor選擇策略;在降低outlier影響方面,則采用了Smooth SwiGLU等技術(shù)手段。
在大規(guī)模集群訓(xùn)練方面,摩爾線程同樣取得了顯著的進(jìn)展。為提高集群訓(xùn)練的可靠性,摩爾線程引入了起飛檢查、飛行檢查及落地檢查等訓(xùn)練生命周期管理措施。同時(shí),針對(duì)慢節(jié)點(diǎn)及容錯(cuò)訓(xùn)練等問題,摩爾線程也提出了相應(yīng)的解決方案。例如,在慢節(jié)點(diǎn)檢測(cè)方面,摩爾線程通過起飛檢查階段的小工作負(fù)載測(cè)試及訓(xùn)練過程中的通信執(zhí)行時(shí)間監(jiān)測(cè)等手段,有效識(shí)別并解決了慢節(jié)點(diǎn)問題;在容錯(cuò)訓(xùn)練方面,則采用了動(dòng)態(tài)摘除故障節(jié)點(diǎn)等策略,確保了集群訓(xùn)練的持續(xù)穩(wěn)定運(yùn)行。
王華的分享不僅展示了摩爾線程在FP8低精度訓(xùn)練及大規(guī)模集群訓(xùn)練方面的創(chuàng)新成果,也為業(yè)界提供了寶貴的參考與借鑒。隨著人工智能技術(shù)的不斷發(fā)展,摩爾線程將繼續(xù)深耕這一領(lǐng)域,為人工智能的未來發(fā)展貢獻(xiàn)更多力量。
本文鏈接:http://www.www897cc.com/showinfo-26-175375-0.html摩爾線程王華解析:大智算集群時(shí)代,F(xiàn)P8精度與集群可靠性助力萬億模型訓(xùn)練
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 2025世界機(jī)器人大會(huì)啟幕:科技創(chuàng)新引領(lǐng),共筑機(jī)器人產(chǎn)業(yè)新生態(tài)