快科技8月19日消息,摩爾線程正式發布了夸娥智算集群KUAE 1.2版本,通過軟硬件層面的綜合性優化,在功能、性能上多維升級,更高效、穩定,對生態系統更友好,可為大模型訓練提供更堅實可靠的算力支撐。
夸娥1.2主要升級點:
▼MFU提升10% 高可達55%
在新版本中,使用千卡集群訓練千億模型,MFU(模型算力利用率)提升10%。
稠密模型集群訓練中,MFU高達到55%。
▼Flash Attention2優化
通過集成新的MUSA SDK平臺與優化后的Flash Attention2技術,結合新版Torch MUSA和算子融合,顯著提升了大模型訓練的效率與資源利用率,大幅縮短訓練周期,并降低了整體成本。
▼64K長文本支持
增強了對長文本大模型訓練的支持,優化了處理長文本理解和生成任務的能力,能夠更好地應對文檔摘要、文章寫作等復雜語言處理任務。
▼支持混合專家模型MoE
MCCL通信庫完成了All2All優化,并針對muDNN算子在不同形狀下的矩陣運算進行了優化,以更好地支持MoE(Mixture of Experts)大模型的訓練。
這不僅提升了智算效率,還為更大規模參數的大模型訓練提供了高度可擴展的基礎。
▼斷點續訓
進一步提升了大模型訓練的Checkpoint(檢查點)讀寫性能,寫入時間小于2秒,顯著提高訓練效率。
▼優化DeepSpeed
支持DeepSpeed、Ulysses的適配和性能優化,強化了長文本訓練支持。
適配國內外多款大模型,在Hugging Face上支持訓練和微調主要的開源大模型,創新型企業可以靈活選擇不同的大模型開發智能應用。
▼穩定性提升
千卡集群軟硬件進一步成熟,實現了連續無故障訓練長達15天。
新版本引入了KUAE Aegis可靠性功能,加強了對GPU、顯存、集合通信等方面的監控、自動診斷與故障恢復能力。
▼可視化/可觀測
引入了PerfSight性能監控系統,可實時顯示模型訓練過程中的資源消耗與性能分析數據,有助于快速發現并恢復訓練期間的故障,滿足大模型上的性能調優需求。
▼內置模型庫中新增大模型
KUAE內置模型庫Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
本文鏈接:http://www.www897cc.com/showinfo-24-108653-0.html連續無故障訓練15天!摩爾線程發布夸娥智算集群KUAE 1.2
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com