在華為近期舉辦的昇騰AI開發者峰會上,一項重大的技術創新引起了業界的廣泛關注。華為昇騰計算業務總裁張迪煊向與會者隆重介紹了昇騰384超節點架構,這一基于昇騰人工智能處理器的高性能計算架構,被譽為中國版的英偉達NVL72系統,為解決數據中心瓶頸問題提供了新的思路。
隨著大數據和人工智能技術的飛速發展,傳統的服務器架構在并行處理規模不斷擴大的背景下,其跨機帶寬逐漸成為制約訓練效率的關鍵因素。張迪煊在會上指出,為了滿足未來日益增長的訓練需求,創新計算架構如昇騰384超節點顯得尤為重要。
昇騰384超節點架構是華為此前公布的CloudMatrix 384系統的基礎。該系統由384顆昇騰AI處理器組成,包含12個計算柜和4個總線柜,最大算力可達驚人的300 PFLOPS,并配備了48TB的高速內存。這一架構不僅實現了業界最大規模的昇騰384卡超節點,還已在安徽、內蒙古和貴州等地的數據中心成功部署。
華為表示,多個昇騰384超節點可以進一步組成十萬卡級的Atlas 900 SuperCluster超節點集群,以滿足更大規模的模型訓練需求,加速各行各業的智能化和高效化進程。這一創新架構打破了以CPU為中心的馮諾依曼架構,提出了對等計算架構的新理念。在超節點內部,高速總線互聯取代了傳統的以太網,通信帶寬提升了15倍,單跳通信時延也降低了10倍,從2微秒縮短至200納秒。
值得注意的是,昇騰384超節點架構在處理當前主流的Mixture-of-Experts(MoE)模型時展現出了卓越的性能。MoE模型以其優異的模型效果成為主要模型結構,但其混合并行策略卻極為復雜,涉及大量的通信量。華為公布的基準測試結果顯示,在處理meta的LLama 3等密集型AI模型時,昇騰384超節點的單卡性能達到了132 tokens/秒(TPS),是傳統集群的2.5倍。對于Qwen以及DeepSeek等通信密集型多模態及MoE模型,華為架構的單卡性能更是高達600至750 TPS,實現了3倍以上的性能提升。
雖然華為尚未明確透露其新計算架構下具體使用的是哪款昇騰芯片變體,但據SemiAnalysis的一份報告透露,CloudMatrix 384系統采用了最新的昇騰910C AI處理器。這款處理器通過規模優勢來彌補單個芯片性能的不足,從而在整體性能上實現了顯著提升。
在峰會上,華為還分享了CATLASS算子模板庫、MindIE Motor推理服務加速庫以及持續升級的分層開放CANN能力等內容。這些舉措旨在為開發者提供更加便捷的開發環境,提升模型訓練與推理效率,進一步推動產業生態的共建與發展。
SemiAnalysis的報告指出,盡管華為在芯片領域相對于西方企業落后一代,但其擴展解決方案卻領先了英偉達和超微半導體(AMD)的當前市場產品一代。這一評價無疑是對華為在AI計算領域創新能力的肯定。
在全球AI算力競賽日益激烈的背景下,華為的創新不僅為解決數據中心瓶頸問題提供了中國方案,更有望重塑下一代AI模型訓練的底層邏輯。通過不斷的技術創新,華為正在算力規模與能效比之間尋找新的平衡點,推動AI技術從實驗室走向更廣泛的產業應用,為全球AI產業的發展貢獻中國智慧和力量。
本文鏈接:http://www.www897cc.com/showinfo-45-13248-0.html華為昇騰384超節點:算力媲美英偉達,通信帶寬大飛躍!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com