快科技2月14日消息,安謀科技宣布,搭載新一代“周易”NPU處理器的硬件平臺,已經(jīng)成功在端側(cè)部署并運行DeepSeek-R1系列模型,而且性能卓越、成本優(yōu)異。
新款“周易”NPU采用專為AI大模型特性優(yōu)化的架構(gòu)設(shè)計,Beta測試版本已在2024年底向早期用戶開放評估測試,預(yù)計今年上半年正式發(fā)布亮相。
DeepSeek-R1 1.5B、7B蒸餾版本推出后,安謀科技新一代“周易”NPU在很短的時間內(nèi),就在Emulation平臺上完成了部署與優(yōu)化,并在FPGA平臺上成功實現(xiàn)了端到端應(yīng)用的演示。
測試顯示,在標準單批次輸入、上下文長度為1024的測試環(huán)境中,新款“周易”NPU在首字計算階段的算力利用率突破40%,解碼階段的有效帶寬利用率超過80%。
帶寬利用率呈現(xiàn)高線性特性,能夠靈活適配16GB/s至256GB/s的系統(tǒng)帶寬需求。
7B版本、1024上下文長度的場景下,保障模型應(yīng)用精度的同時,新款“周易”NPU的高處理速度可達每秒40 tokens,并支持動態(tài)長度的模型推理輸入。
這也展現(xiàn)了安謀科技軟件棧對大模型的成熟支持、深度優(yōu)化,包括動態(tài)推理優(yōu)化和硬件算力潛力的挖掘,從而顯著提升推理速度和吞吐量。
目前,軟件棧已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多種主流大模型,并提供與Hugging Face模型庫的對接工具鏈,方便直接部署主流模型。
硬件層面,新一代“周易”NPU采用7nm工藝制造,單Cluster算力高可達80 TOPS(每秒80萬億次計算),能夠輕松應(yīng)對超過16K上下文長度的大模型部署需求,同時對外帶寬提高至256GB/s,解決大模型計算的帶寬瓶頸問題。
它還全面支持FP16數(shù)據(jù)精度計算,完整支持INT4軟硬量化加速,還支持多核算力擴展,滿足端側(cè)模型的低首字延遲需求。
它還具備強大的多任務(wù)并行處理能力,通過細粒度的任務(wù)調(diào)度和優(yōu)先級資源分配,實現(xiàn)多任務(wù)靈活切換,確保傳統(tǒng)語音、視覺業(yè)務(wù)、大模型應(yīng)用的高效協(xié)同。
本文鏈接:http://www.www897cc.com/showinfo-22-130640-0.html安謀科技下代“周易”NPU成功部署DeepSeek-R1:速度高達40 tokens/s
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com