在第四屆828 B2B企業(yè)節(jié)盛大開幕的當(dāng)天下午,華為云傳來了一則令人矚目的消息:其Tokens服務(wù)已成功全面融入CloudMatrix384超節(jié)點,這一融合標(biāo)志著華為云在AI算力領(lǐng)域的又一次重大突破。
得益于xDeepServe架構(gòu)的創(chuàng)新應(yīng)用,華為云Tokens服務(wù)的性能得到了顯著提升。具體而言,該服務(wù)在單芯片上實現(xiàn)了2400TPS的吞吐量,同時保持了50ms的TPOT(Token處理時延),這一成績無疑為AI算力的應(yīng)用樹立了新的標(biāo)桿。
近年來,中國AI算力需求呈現(xiàn)出爆炸式增長。數(shù)據(jù)顯示,從2024年初至2025年6月底,中國的日均Token消耗量從1000億激增到30萬億,短短一年半時間內(nèi)增長了300多倍。這一趨勢對算力基礎(chǔ)設(shè)施提出了前所未有的挑戰(zhàn)。為了滿足這一需求,華為云在2025年3月推出了基于MaaS(模型即服務(wù))的Tokens服務(wù),提供了多種規(guī)格以滿足不同應(yīng)用場景的需求。

此次Tokens服務(wù)與CloudMatrix384超節(jié)點的結(jié)合,更是將這一服務(wù)的性能推向了新的高度。依托超節(jié)點的xDeepServe框架,Tokens服務(wù)的吞吐量從年初的1920TPS躍升至2400TPS。這一提升的背后,是華為云對于大算力構(gòu)建全棧創(chuàng)新的深刻理解,包括硬件、軟件、算子、存儲、推理框架及超節(jié)點等各個環(huán)節(jié)的協(xié)同優(yōu)化。
xDeepServe架構(gòu)作為CloudMatrix384超節(jié)點的原生服務(wù),其創(chuàng)新之處在于采用了Transformerless極致分離架構(gòu)。這一架構(gòu)將MoE大模型拆解為Attention、FFN、Expert三個可獨立伸縮的微模塊,并通過微秒級XCCL通信庫與FlowServe自研推理引擎進行高效整合。經(jīng)過這樣的優(yōu)化,單卡的吞吐量從非超節(jié)點的600tokens/s大幅提升至2400tokens/s。

華為云還透露了xDeepServe架構(gòu)的未來發(fā)展計劃。目前,該架構(gòu)已經(jīng)實現(xiàn)了MA分離,未來還將進一步將Attention、MoE、Decode改造為數(shù)據(jù)流,并擴展至多臺超節(jié)點,以實現(xiàn)推理吞吐的線性提升。
在應(yīng)用層面,華為云Tokens服務(wù)已經(jīng)支持了包括DeepSeek、Kimi、Qwen等在內(nèi)的主流大模型,以及versatile、Dify等主流Agent平臺。同時,華為云還與超過100家合作伙伴攜手,在多個領(lǐng)域開發(fā)AI Agent,如調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運維等。這些應(yīng)用不僅提升了服務(wù)效率與客戶滿意度,還推動了政企辦公的智能化轉(zhuǎn)型。
例如,基于MaaS平臺的今日人才數(shù)智員工解決方案,通過集成自然語言處理、機器學(xué)習(xí)等技術(shù),為企業(yè)提供了智能化的人才管理服務(wù)。而北京方寸無憂科技開發(fā)的無憂智慧公文解決方案,則利用AI技術(shù)實現(xiàn)了公文的自動化處理,大大提高了辦公效率。
本文鏈接:http://www.www897cc.com/showinfo-22-179644-0.html華為云Tokens服務(wù)接入384超節(jié)點,突破AI算力增長瓶頸
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com