當前位置：首頁 > 科技 > 數碼

華為云Tokens服務接入384超節點，算力突破至2400TPS引領AI創新

來源：責編：時間：2025-09-03 16:51:14 50觀看

導讀在第四屆828 B2B企業節盛大開幕之際，華為云宣布了一項重大技術進展：其Tokens服務已成功融入CloudMatrix384超節點，借助創新的xDeepServe架構，實現了單芯片2400TPS的超高吞吐量和50ms的極低時延，這一性能表現遠超當前業界標

在第四屆828 B2B企業節盛大開幕之際，華為云宣布了一項重大技術進展：其Tokens服務已成功融入CloudMatrix384超節點，借助創新的xDeepServe架構，實現了單芯片2400TPS的超高吞吐量和50ms的極低時延，這一性能表現遠超當前業界標準。

面對中國AI算力需求的急劇增長，華為云積極應對挑戰，推出了基于MaaS的Tokens服務。從最初按卡時計費的模式，到如今提供包括在線版、進線版、離線版及尊享版在內的多樣化服務規格，這一轉變不僅滿足了不同應用和場景的性能需求，更為AI工具如大模型和Agent智能體等提供了更為靈活、高效且成本友好的算力支持。

此次Tokens服務與CloudMatrix384超節點的結合，是華為云算力構建策略的重要里程碑。通過384原生的xDeepServe框架，服務吞吐量實現了從年初的1920TPS到2400TPS的顯著提升，同時保持了極低的時延。這一成就得益于華為在硬件、軟件、算子、存儲、推理框架及超節點等各個層面的全棧創新能力。

CloudMatrix384超節點以其革新的計算架構，打破了性能瓶頸，為澎湃算力奠定了堅實基礎。而CANN昇騰硬件使能則通過優化算子和高效通信策略，確保云端算力得以最高效地調用和組合。EMS彈性內存存儲技術更是突破了AI內存墻，實現了“以存強算”，讓每顆芯片的算力得到徹底釋放。xDeepServe分布式推理框架則以其Transformerless的極致分離架構，進一步提升了超節點的算力效率。

xDeepServe通過將MoE大模型拆分為可獨立伸縮的Attention、FFN、Expert微模塊，實現了在CloudMatrix384上的高效并行處理。這些微模塊被分配到不同的NPU上同步執行任務，并通過基于內存語義的微秒級XCCL通信庫與FlowServe自研推理引擎重新組合，形成了一條超高吞吐量的LLM服務平臺，即Tokens的“超高速流水線”。

作為專為超節點上的大語言模型服務設計的高性能通信庫，XCCL充分發揮了CloudMatrix384擴展后的UB互聯架構潛力，為Transformerless的全面分離提供了堅實的帶寬與時延基礎。而FlowServe作為被重構的“去中心”式分布式引擎，則將CloudMatrix384劃分為完全自治的DP小組，每個小組都能自給自足，確保了即使千卡并發也不會出現擁堵現象。

華為云MaaS服務目前已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify等主流Agent平臺。通過積累的大量模型性能優化和效果調優技術，華為云實現了“源于開源，高于開源”，讓更多大模型在昇騰云上展現出更快的運行速度和更好的性能表現。以文生圖大模型為例，在輕微損失畫質的情況下，通過Int8量化和旋轉位置編碼融合算子等方式，華為云MaaS平臺實現了出圖速度的兩倍提升，最大尺寸支持達到2K×2K。而在文生視頻大模型上，通過量化提速和通算并行等方式，視頻生成速度相較于友商實現了3.5倍的性能提升。

在應用層面，華為云已與超過100家合作伙伴攜手，深入行業場景，共同構建了豐富的Agent，廣泛應用于調研分析、內容創作、智慧辦公、智能運維等領域，解決了眾多產業難題。例如，基于MaaS平臺推出的今日人才數智員工解決方案，集成了先進的自然語言處理、機器學習和深度學習技術，能夠智能交互并處理任務，顯著提升了服務效率與客戶滿意度。而北京方寸無憂科技開發的無憂智慧公文解決方案，則有效提升了公文處理效能，推動了政企辦公的智能化轉型。

隨著以Token為動力的智能社會的到來，華為云憑借其系統級創新能力和全新的Tokens服務，正構筑起先進算力，助力各行各業加速落地AI，推動智能化進程。

本文鏈接：http://www.www897cc.com/showinfo-24-180128-0.html華為云Tokens服務接入384超節點，算力突破至2400TPS引領AI創新

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： vivo Y500千元新機9月5日開售：續航、防水全面升級

下一篇： 6G標準化研究正式起航：全球科技巨頭共探近場通信技術新方向

標簽：

熱門焦點

之家push系統迭代之路

前言在這個信息爆炸的互聯網時代，能夠及時準確獲取信息是當今社會要解決的關鍵問題之一。隨著之家用戶體量和內容規模的不斷增大，傳統的靠"主動拉"獲取信息的方式已不能滿足用
微信語音大揭秘：為什么禁止轉發？

大家好，我是你們的小米。今天，我要和大家聊一個有趣的話題：為什么微信語音不可以轉發？這是一個我們經常在日常使用中遇到的問題，也是一個讓很多人好奇的問題。讓我們一起來揭開這
JavaScript學習 -AES加密算法

引言在當今數字化時代，前端應用程序扮演著重要角色，用戶的敏感數據經常在前端進行加密和解密操作。然而，這樣的操作在網絡傳輸和存儲中可能會受到惡意攻擊的威脅。為了確保數據
電視息屏休眠仍有網絡上傳愛奇藝被質疑“薅消費者羊毛”

記者丨寧曉敏見習生丨汗青出品丨鰲頭財經（theSankei）前不久，愛奇藝發布了一份亮眼的一季報，不僅營收和會員營收創造歷史最佳表現，其運營利潤也連續6個月實現增長。自去年年初
品牌洞察丨服務本地，美團直播成效幾何？

來源：17PR7月11日，美團App首頁推薦位出現“美團直播”的固定入口。在直播聚合頁面，外賣“神槍手”直播間、美團旅行直播間、美團買菜直播間等均已上線，同時
馮提莫簽約抖音公會前“斗魚一姐”消失在直播間

來源：直播觀察提起“馮提莫”這個名字，很多網友或許聽過，但應該不記得她是哪位主播了。其實，作為曾經的“斗魚一姐”，馮提莫在游戲直播的年代影響力不輸于現
華為Mate 60系列用上可變靈動島：正式版體驗將會更出色

這段時間以來，關于華為新旗艦的爆料日漸密集。據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將
AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

Tenstorrent是一家由芯片行業資深人士Jim Keller領導的加拿大初創公司，專注于開發人工智能芯片，該公司周三表示，已經從現代汽車集團和三星投資基金等
華為舉行春季智慧辦公新品發布會首次推出電子墨水屏平板

北京時間2月27日晚，華為在巴塞羅那舉行春季智慧辦公新品發布會，在海外市場推出之前已經在中國市場上市的筆記本、平板、激光打印機等辦公產品，并首次推出搭載

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

華為云Tokens服務接入384超節點，算力突破至2400TPS引領AI創新

之家push系統迭代之路

微信語音大揭秘：為什么禁止轉發？

JavaScript學習 -AES加密算法

電視息屏休眠仍有網絡上傳愛奇藝被質疑“薅消費者羊毛”

品牌洞察丨服務本地，美團直播成效幾何？

馮提莫簽約抖音公會前“斗魚一姐”消失在直播間

華為Mate 60系列用上可變靈動島：正式版體驗將會更出色

AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

華為舉行春季智慧辦公新品發布會首次推出電子墨水屏平板

最新推薦

猜你喜歡

熱門推薦

相關資訊

華為云Tokens服務接入384超節點，算力突破至2400TPS引領AI創新

最新推薦

猜你喜歡

熱門推薦

相關資訊

華為云Tokens服務接入384超節點，算力突破至2400TPS引領AI創新