快科技2月5日消息,近日,百度智能云成功點亮了昆侖芯三代萬卡集群,這也是國內首個正式點亮的自研萬卡集群。
據(jù)了解,百度通過自研芯片和大規(guī)模集群的建設,不僅解決了自身算力供應的問題,還為整個行業(yè)提供了新的思路和方向。
隨著國產大模型的興起,萬卡集群逐漸從“單任務算力消耗”到“集群效能大化”過渡,通過模型優(yōu)化、有效訓練率提升、動態(tài)資源分配等手段,智能調度任務,將訓練、微調、推理任務混合部署,從而提升集群綜合利用率,降低單位算力成本。
讓人眼前為之一亮的是,在24年9月升級的百度百舸AI異構計算平臺4.0,也在萬卡集群的建設中發(fā)揮了至關重要的作用。
首先百舸4.0構建了十萬卡級別的超大規(guī)模HPN高性能網絡,針對跨地域通信中的高延遲問題,通過優(yōu)化的拓撲結構、多路徑負載均衡策略及通信策略,實現(xiàn)了幾十公里的跨地域通信。
其次在通信效率上,百舸通過先進的擁塞控制算法和集合通信算法策略,實現(xiàn)了完全無阻塞,并通過10ms級別超高精度網絡監(jiān)控,保障了網絡的穩(wěn)定性。
另外在多芯混訓方面,百舸展現(xiàn)了強大的資源整合能力。當業(yè)務提交工作負載時,百舸可自動進行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價比高的芯片來運行任務,從而大化地利用集群的剩余資源,實現(xiàn)高達95%的萬卡多芯混合訓練效能。
此外,在集群穩(wěn)定性方面,百舸提供了全面的故障診斷手段,能夠快速自動偵測到導致訓練任務異常的節(jié)點故障。
值得關注的是,日前,花旗銀行曾發(fā)布研報表示,DeepSeek、百度等中國模型展現(xiàn)出高效和低成本優(yōu)勢,將有助于加速全球AI應用開發(fā),并在全球引發(fā)更多技術創(chuàng)新,推動2025年人工智能應用的拐點。
另外中國工程院院士、清華大學計算機系教授鄭緯民也表示,當下構建國產自主萬卡系統(tǒng)充滿挑戰(zhàn),但"至關重要"。
本文鏈接:http://www.www897cc.com/showinfo-17-128756-0.html國內首次!百度智能云成功點亮昆侖芯三代萬卡集群
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com