隨著人工智能大模型參數(shù)規(guī)模從千億邁向萬億級(jí),智算集群對(duì)存儲(chǔ)系統(tǒng)的需求正經(jīng)歷顛覆性變革。以GPT-4為例,其1.8萬億參數(shù)的模型訓(xùn)練需在2萬張A100 GPU上持續(xù)運(yùn)行90天,期間產(chǎn)生的數(shù)據(jù)吞吐量高達(dá)PB級(jí),僅單個(gè)checkpoint文件就達(dá)4TB。這種超大規(guī)模計(jì)算場(chǎng)景下,傳統(tǒng)存儲(chǔ)方案在協(xié)議兼容性、吞吐性能、數(shù)據(jù)管理效率等維度暴露出嚴(yán)重短板,成為制約AI訓(xùn)練效率的關(guān)鍵瓶頸。

在數(shù)據(jù)全生命周期管理中,不同訓(xùn)練階段對(duì)存儲(chǔ)協(xié)議的需求呈現(xiàn)顯著差異。數(shù)據(jù)歸集階段需處理跨地域、跨網(wǎng)絡(luò)的PB級(jí)非結(jié)構(gòu)化數(shù)據(jù),涵蓋文本、圖像、視頻等多元格式,對(duì)象存儲(chǔ)因其跨域傳輸優(yōu)勢(shì)成為首選;預(yù)處理階段則要求對(duì)數(shù)據(jù)進(jìn)行清洗、脫敏和格式轉(zhuǎn)換,S3協(xié)議與NFS協(xié)議需并行工作;模型訓(xùn)練階段對(duì)存儲(chǔ)系統(tǒng)提出更高要求,既要支持訓(xùn)練數(shù)據(jù)的高速讀寫,又要實(shí)現(xiàn)checkpoint的秒級(jí)保存與恢復(fù),文件存儲(chǔ)成為核心載體;模型發(fā)布階段則需通過對(duì)象存儲(chǔ)實(shí)現(xiàn)廣域網(wǎng)部署。傳統(tǒng)方案采用對(duì)象、文件、塊存儲(chǔ)獨(dú)立集群的模式,導(dǎo)致數(shù)據(jù)在不同系統(tǒng)間反復(fù)遷移,PB級(jí)數(shù)據(jù)拷貝耗時(shí)長達(dá)數(shù)天,GPU因等待數(shù)據(jù)傳輸產(chǎn)生的空閑時(shí)間超過15%,直接拉低整體訓(xùn)練效率。
存儲(chǔ)系統(tǒng)面臨的性能挑戰(zhàn)呈現(xiàn)指數(shù)級(jí)增長。當(dāng)1750億參數(shù)的GPT-3模型進(jìn)行checkpoint保存時(shí),數(shù)萬張GPU會(huì)同時(shí)發(fā)起4TB級(jí)數(shù)據(jù)寫入,引發(fā)"寫風(fēng)暴"。這種突發(fā)性I/O洪峰對(duì)存儲(chǔ)集群的聚合帶寬提出嚴(yán)苛要求,而傳統(tǒng)方案受限于故障域約束,集群節(jié)點(diǎn)數(shù)難以突破,導(dǎo)致存儲(chǔ)穩(wěn)定性與性能需求形成尖銳矛盾。更嚴(yán)峻的是,數(shù)據(jù)冷熱狀態(tài)隨訓(xùn)練進(jìn)程動(dòng)態(tài)變化,熱數(shù)據(jù)需駐留在高成本SSD介質(zhì),冷數(shù)據(jù)則應(yīng)遷移至HDD存儲(chǔ)。但傳統(tǒng)方案缺乏自動(dòng)分級(jí)能力,導(dǎo)致高性能存儲(chǔ)長期被低頻數(shù)據(jù)占用,資源利用率不足40%,同時(shí)需額外投入算力進(jìn)行人工數(shù)據(jù)搬遷。
針對(duì)上述痛點(diǎn),中國移動(dòng)創(chuàng)新提出多協(xié)議融合存儲(chǔ)架構(gòu),通過四大核心技術(shù)實(shí)現(xiàn)存儲(chǔ)系統(tǒng)質(zhì)變。在介質(zhì)層構(gòu)建雙池架構(gòu):熱數(shù)據(jù)池采用全閃介質(zhì),溫冷數(shù)據(jù)池采用混閃配置,緩存層部署SSD+HDD混合存儲(chǔ);網(wǎng)絡(luò)層部署雙100Gb RoCE高速互聯(lián),構(gòu)建AI集群與存儲(chǔ)集群間的低時(shí)延數(shù)據(jù)通道;協(xié)議層基于統(tǒng)一元數(shù)據(jù)管理,實(shí)現(xiàn)POSIX、NFS、S3協(xié)議的無縫互通,訓(xùn)練數(shù)據(jù)無需跨池拷貝;管理層開發(fā)智能分級(jí)引擎,根據(jù)數(shù)據(jù)訪問頻次自動(dòng)在全閃池與混閃池間遷移數(shù)據(jù)。該架構(gòu)在哈爾濱1.8萬卡智算中心的實(shí)踐表明,48PB集群可提供6.4TB/s讀帶寬和3.5TB/s寫帶寬,單個(gè)checkpoint保存時(shí)間壓縮至秒級(jí),較傳統(tǒng)方案提升3倍性能。

商業(yè)化部署成效顯著,哈爾濱節(jié)點(diǎn)建設(shè)的150PB融合存儲(chǔ)系統(tǒng)包含60PB全閃存儲(chǔ)和90PB混閃存儲(chǔ),支撐九天千億參數(shù)大模型訓(xùn)練效率提升20%。多協(xié)議融合技術(shù)消除數(shù)據(jù)冗余存儲(chǔ),使混閃存儲(chǔ)容量需求降低40%;高聚合帶寬設(shè)計(jì)避免GPU等待數(shù)據(jù)傳輸,算力利用率提高5%;智能分級(jí)機(jī)制實(shí)現(xiàn)數(shù)據(jù)自動(dòng)流動(dòng),減少20%的全閃空間占用。該創(chuàng)新方案榮獲2024年"華彩杯"算力大賽全國總決賽一等獎(jiǎng),相關(guān)技術(shù)標(biāo)準(zhǔn)已在中國通信標(biāo)準(zhǔn)化協(xié)會(huì)立項(xiàng),推動(dòng)行業(yè)存儲(chǔ)架構(gòu)向統(tǒng)一元數(shù)據(jù)、多協(xié)議互通、智能管理方向演進(jìn)。
中國工程院院士指出,存力、算力、運(yùn)力的均衡發(fā)展是發(fā)揮計(jì)算效能的關(guān)鍵。在智算集群規(guī)模突破萬卡級(jí)的新階段,存儲(chǔ)系統(tǒng)正從被動(dòng)支撐轉(zhuǎn)向主動(dòng)賦能,通過架構(gòu)創(chuàng)新實(shí)現(xiàn)數(shù)據(jù)流動(dòng)效率與計(jì)算資源利用率的雙重提升。這種變革不僅優(yōu)化了AI訓(xùn)練的經(jīng)濟(jì)性,更為超大規(guī)模模型研發(fā)提供了可靠的存儲(chǔ)基礎(chǔ)設(shè)施保障。
舉報(bào) 0收藏 0打賞 0評(píng)論 0分享 0 更多>同類資訊?小米7000名應(yīng)屆生齊聚,雷軍發(fā)文展望未來,共繪創(chuàng)新發(fā)展新藍(lán)圖?根據(jù)此前的報(bào)道,小米集團(tuán)的目標(biāo)是在未來10年內(nèi),將這些應(yīng)屆生中的佼佼者培養(yǎng)成技術(shù)專家或總經(jīng)理。這一計(jì)劃不僅展現(xiàn)了小米對(duì)人才培養(yǎng)的重視,也反映了公司在創(chuàng)新與發(fā)展中的決心。未來,我們期待看到這些年輕人在小米這個(gè)…09-05
iPhone 17系列內(nèi)存大升級(jí):Pro版增至12GB,標(biāo)準(zhǔn)版保持不變?nèi)绻O果不為iPhone 17標(biāo)準(zhǔn)版升級(jí)內(nèi)存的話,也就意味著未來可能會(huì)因?yàn)閮?nèi)存不足,而無法升級(jí)某些AI功能。另外三款則配備A19Pro處理器,不過只有兩款Pro版使用的是6核心GPU的滿血版,iPhone …09-05A股午后資金回暖,新能源芯片齊拉升,AIETF(515070)持倉股大漲人工智能AIETF(515070)盤中大漲超4%,持倉股新易盛大漲超11%,均勝電子、中際旭創(chuàng)、協(xié)創(chuàng)數(shù)據(jù)等個(gè)股紛紛大漲。新賽道領(lǐng)域,AI產(chǎn)業(yè)鏈業(yè)績已強(qiáng)勁兌現(xiàn),機(jī)器人與創(chuàng)新藥面臨量產(chǎn)與困境反轉(zhuǎn)機(jī)遇,新消費(fèi)需關(guān)注…09-05運(yùn)機(jī)集團(tuán)聯(lián)手科大訊飛等,共鑄數(shù)智化產(chǎn)業(yè)新標(biāo)桿,賦能行業(yè)高質(zhì)量發(fā)展三方將針對(duì)上述領(lǐng)域的技術(shù)進(jìn)行深度合作,并打造示范項(xiàng)目,共同推進(jìn)行業(yè)高質(zhì)量發(fā)展。 展望未來,三方將以人工智能大模型、AI傳感儀器、工業(yè)智能機(jī)器人等為核心,持續(xù)深化關(guān)鍵技術(shù)共研、行業(yè)場(chǎng)景共創(chuàng)與成果轉(zhuǎn)化共享,攜手構(gòu)…09-05
AI玩具新紀(jì)元:交互升級(jí)至情感伴侶,企業(yè)數(shù)量突破1347.7萬家大關(guān)09-05華納兄弟探索訴Midjourney:AI生成大量版權(quán)角色圖像遭指控侵權(quán)09-05Bret Taylor創(chuàng)辦AI公司Sierra獲3.5億融資,估值飆升百億09-05AI造型師上線!奢侈品租賃平臺(tái)Vivrelle攜手三大零售商打造個(gè)性化時(shí)尚體驗(yàn)09-05DuckDuckGo訂閱服務(wù)升級(jí):9.99美元月費(fèi)解鎖AI聊天機(jī)器人頂級(jí)體驗(yàn)09-05MIT報(bào)告:企業(yè)GenAI項(xiàng)目成功率僅5%,問題出在應(yīng)用方式09-05Roblox啟用AI年齡驗(yàn)證系統(tǒng),2025年底前全面保障未成年用戶安全09-05Flock Safety:智能監(jiān)控網(wǎng)絡(luò)能否助力美國實(shí)現(xiàn)“無犯罪”愿景?09-05Uber印度新舉措:司機(jī)兼職數(shù)據(jù)分類,共促AI模型進(jìn)步09-05DLU文檔解析工具上線,釘釘攜OpenDataLab共促企業(yè)智能轉(zhuǎn)型09-05
工銀國家戰(zhàn)略股票2025半年報(bào):上半年盈利524萬,凈值增2.66%,持倉策略曝光從基金股票資產(chǎn)的估值角度來看,以最新中報(bào)數(shù)據(jù)計(jì)算,2025年6月30日,該基金持股加權(quán)市盈率(TTM)約為20.31倍,同類均值為23.39倍;加權(quán)市凈率(LF)約3.29倍,同類均值為2.44倍;加權(quán)市銷…09-05點(diǎn)擊查看更多 +全站最新
?傳DeepSeek年底推AI智能體新模型;馬斯克金色擎天柱亮相;比亞迪對(duì)銷量目標(biāo)下調(diào)傳聞未回應(yīng)?
?小米16發(fā)布時(shí)間提前!此前小米澎湃OS 3亮相,雷軍:小米手機(jī)與蘋果生態(tài)更兼容?
雷軍宣布:7000名應(yīng)屆生齊聚小米,應(yīng)屆生計(jì)劃助力十年成技術(shù)專家或總經(jīng)理
小米汽車周營收反超手機(jī)業(yè)務(wù) 智能電動(dòng)汽車成新增長引擎未來可期
?ChatGPT再升級(jí):分支對(duì)話上線,“項(xiàng)目”功能免費(fèi),用戶體驗(yàn)更佳?
視頻播客成新寵:B站小紅書抖音發(fā)力,中文播客迎來“視聽”新機(jī)遇熱門內(nèi)容
iPhone 17系列內(nèi)存大升級(jí):Pro版增至12GB,標(biāo)準(zhǔn)版保持不變
AI玩具新紀(jì)元:交互升級(jí)至情感伴侶,企業(yè)數(shù)量突破1347.7萬家大關(guān)
工銀國家戰(zhàn)略股票2025半年報(bào):上半年盈利524萬,凈值增2.66%,持倉策略曝光
光伏電站智能運(yùn)維新紀(jì)元:全生命周期管理,效率與成本雙優(yōu)化
三星9100 PRO 8TB固態(tài)硬盤評(píng)測(cè):海量存儲(chǔ),PCIe5.0時(shí)代的高性能標(biāo)桿
申昊科技等聯(lián)手廣東新設(shè)智維科技,注冊(cè)資本高達(dá)2000萬
本文鏈接:http://www.www897cc.com/showinfo-45-27361-0.html面向超萬卡智算集群:創(chuàng)新存儲(chǔ)技術(shù)如何破解大模型訓(xùn)練存儲(chǔ)難題
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 陜西移動(dòng)咸陽分公司:數(shù)智驅(qū)動(dòng)通信升級(jí),精準(zhǔn)施策筑牢民生通信基石
下一篇: ?小米7000名應(yīng)屆生齊聚,雷軍發(fā)文展望未來,共繪創(chuàng)新發(fā)展新藍(lán)圖?