DeepSeek V3.1 發(fā)布后,一則官方留言讓整個 AI 圈都轟動了:

新的架構(gòu)、下一代國產(chǎn)芯片,總共短短不到 20 個字,卻蘊含了巨大信息量。
國產(chǎn)芯片企業(yè)股價也跟風(fēng)上漲,比如寒武紀今日早盤盤中大漲近 14%,總市值躍居科創(chuàng)板頭名。
半導(dǎo)體 ETF,同樣也是在半天的時間里大漲 5.89%。(不知道作為放出消息的 DeepSeek 背后公司幻方量化,有沒有趁機炒一波【手動狗頭】)

這個 UE8M0 FP8 到底是個啥?下一代國產(chǎn)芯片,又是指什么?
接踵而來的疑問,擠爆了人們的大腦。

在知乎上,也有不少大神開始邊科普邊分析自己對這件事的理解。

咱抱著學(xué)習(xí)心態(tài),不妨就從 UE8M0 FP8 的概念開始說起。
什么是 UE8M0 FP8?“UE8M0 FP8”這個概念,可以拆分成前后兩個部分來解釋,前面的 UE8M0,是 MXFP8 路徑里的“縮放因子”。
MXFP8 是 Open Compute Project 在 2023 年發(fā)布的《Microscaling (MX) Formats Specification v1.0》里定義的 8 bit 微縮塊格式。
Open Compute Project 是 2011 年由 Facebook(現(xiàn) Meta)聯(lián)合英特爾、Rackspace 等發(fā)起的開源硬件協(xié)作計劃,目的是通過共享數(shù)據(jù)中心及服務(wù)器設(shè)計推動行業(yè)效率提升。
其成員陣容相當(dāng)強大,國外還有微軟、谷歌、亞馬遜、AMD、英偉達等,而國內(nèi)的阿里、騰訊、百度等也參與其中。
說回 MXFP8,它以 FP8 為基礎(chǔ)建立,F(xiàn)P8 是把常規(guī)浮點格式壓縮到 8 bit 的一種編碼方式。
MXFP8 的核心思想是先把張量切成固定長度的“塊”,然后為每個塊單獨指定一個 2 的整數(shù)次冪作為“縮放因子”,把塊內(nèi)所有數(shù)一起除以這個系數(shù)后再寫成 FP8。
這種塊級(而不是全張量級)的縮放,讓 MXFP8 既保留了 8 bit 位寬,又把可用動態(tài)范圍擴展了幾十倍。

而這里的“縮放因子”也是包含 8 個 bit,其中包含符號位、指數(shù)位和尾數(shù)位,開發(fā)者可以自行將這 8 個 bit 分配給這三種不同的位。
其中符號位只區(qū)分有無,若有則占一個 bit,無則不占用,而 UE8M0 中的 U 表示的就是無符號(有符號可表示為 S 或省略不寫)。
E 和 M 則分別表示指數(shù)位和尾數(shù)位分配到的 bit 數(shù),E8M0 指的就是 8 個 bit 全都分配給了指數(shù)位。
其他常用的格式還有 E4M3、E5M2(縮放引子外的本體部分也常采用這兩種)等,它們均包含符號位,其余 7 個 bit 在指數(shù)和尾數(shù)位之間分配。

DeepSeek 之前開源的 5.6k 星標(biāo)項目 FP8 GEMM 內(nèi)核 DeepGEMM 就已經(jīng)支持 UE8M0,不過這個項目主要是適配英偉達芯片和 CUDA 生態(tài)。

那么,采用這種全指數(shù)表示縮放因子的方式,有什么好處呢?
首先,由于 UE8M0 不含尾數(shù)與符號位,處理器在根據(jù)縮放因子對數(shù)據(jù)進行復(fù)原時,只需要乘以對應(yīng)的 2 的冪,也就是移動一下指數(shù)位,而不需要浮點乘法、規(guī)格化或舍入邏輯,縮短了時鐘關(guān)鍵路徑。
并且 UE8M0 的動態(tài)范圍覆蓋 2^(?127) 到 2^128,其指數(shù)表可輕松容納這一跨度,為后續(xù)塊縮放提供充足空間。
另外 UE8M0 還能解決單尺度 FP8 無法同時顧及大 / 小值,導(dǎo)致溢出或被壓成 0 的問題,將 UE8M0 作為分塊的尺度后,錯誤率曲線從整張曲線下降到一條遠低水平的橫線,在保持 8 bit 張量精度的同時大幅減少信息損失。

UE8M0 FP8 的好處我們了解了,現(xiàn)在可以解釋為什么它更適配“下一代國產(chǎn)芯片”了。
大部分已量產(chǎn)的國產(chǎn) AI 加速器仍沿用 FP16 / BF16 + INT8 的計算通路,并未集成 E4M3 / E5M2 這類完整的 FP8 乘加單元。
不過,摩爾線程 MUSA 3.1 GPU、芯原 VIP9000 NPU 等 2025 H2 首發(fā)的新款國產(chǎn)芯片已經(jīng)在宣傳資料里列出“原生 FP8”或“Block FP8”支持,并與 DeepSeek、華為等 15 家廠商聯(lián)合驗證 UE8M0 格式。
雖然下一代國產(chǎn)芯片雖然已經(jīng)在為 FP8 做出準(zhǔn)備,但 HBM / LPPDDR 帶寬仍然與頂尖芯片存在較大差距。
而 UE8M0 讓一組 32 個 FP8 數(shù)據(jù)只追加 8bit 縮放引子,相比傳統(tǒng)的 4B(32bit) FP32 縮放直接節(jié)省 75% 的流量,這種空間節(jié)約措施被視作下一代架構(gòu)的重要優(yōu)化方向。
DeepSeek 為哪個國產(chǎn)芯片做了優(yōu)化?在搞清楚啥是 UE8M0 FP8 之后,回過神來的網(wǎng)友們又開始紛紛猜測:
DeepSeek 這是在說哪一家的國產(chǎn)芯片呢?
在官方有意賣關(guān)子的情況下,人們只好首先把目光放在了首批通過“DeepSeek 大模型適配”的 8 家廠商。

這當(dāng)中大家看好的“頭號種子選手”當(dāng)屬寒武紀,市場反應(yīng)相當(dāng)直觀 ——
截至今日 10:25,寒武紀盤中大漲近 14%,總市值超 4940 億元,超過中芯國際躍居科創(chuàng)板頭名(實際以最新為準(zhǔn))。
理由也很簡單,該公司旗下的 MLU370-S4、思元 590 及最新 690 系列芯片均支持 FP8 計算,在架構(gòu)設(shè)計和低精度計算優(yōu)化上一直相對比較領(lǐng)先。
而基于類似理由,海光、沐曦,中昊芯英甚至包括名單之外的摩爾線程等也都被網(wǎng)友們挨個點名:
海光:其深算三號 DCU 支持 FP8 計算,存在進一步優(yōu)化的空間;
沐曦:今年 7 月發(fā)布的曦云 C600,也支持 FP8 精度計算;
中昊芯英:其“剎那”TPU AI 芯片支持 FP8 精度;
摩爾線程:作為國內(nèi)極少數(shù)原生支持 FP8 的 GPU 廠商,旗艦產(chǎn)品 MTT S5000 支持 FP8 精度計算。
與此同時,一些很有可能“即將上車 FP8”的廠商也出現(xiàn)在了一眾盤點名單中。
例如華為昇騰,雖然昇騰 910B 和 910C 暫不支持原生 FP8,但官方路線圖已經(jīng)寫明“2025Q4 原生 FP8”,所以眾人預(yù)計或?qū)⒃?2026 年推出的 910D(可能的命名)很有可能是所謂的“下一代芯片”。
除了以上這些,還有一大串芯片廠商的名字出現(xiàn)在了討論當(dāng)中,堪稱盛況空前。
雖然猜來猜去沒有最終定論,但不妨礙市場給予熱烈回應(yīng)。根據(jù)最新消息,今日國產(chǎn)芯片概念集體高開,科創(chuàng) 50 大漲 3% 創(chuàng)近三年半新高,芯片產(chǎn)業(yè)鏈集體走強。

所以,大家為什么集體狂歡?這些國產(chǎn)芯片一旦支持 UE8M0 FP8 究竟意味著什么?
綜合當(dāng)前國內(nèi)外各方說法來看,一切都可以用一句話來概括:
這代表了國產(chǎn) AI 正走向軟硬協(xié)同階段,能夠?qū)嵸|(zhì)性減少對英偉達、AMD 等國外算力的依賴。
這里頭的邏輯也很簡單清晰,正是由于 UE8M0 FP8 精度格式所具備的上述優(yōu)勢(更小的帶寬、更低的功耗、更高的吞吐),這意味著同樣的硬件今后能跑更大的模型,所以國產(chǎn)芯片的“性價比”被大幅拉高了。
換句話說,這些國產(chǎn)芯片廠商將在競爭中更具優(yōu)勢,因此也就屬于利好了。
從另一方面來看,DeepSeek 通過改動精度格式,相當(dāng)于主動貼合國產(chǎn)芯片的最佳性能點,這種軟硬協(xié)同的模式無疑是把國產(chǎn)芯片們拉進了一個統(tǒng)一的生態(tài)坐標(biāo)系。
這就像當(dāng)年的“Wintel 聯(lián)盟”一樣 —— 微軟和英特爾通過深度技術(shù)綁定,筑起了個人計算機領(lǐng)域的生態(tài)護城河,只不過如今換成了 DeepSeek 和國產(chǎn)芯片廠商們。
One More Thing事實上,官方在正文部分提到 UE8M0 FP8 的只有一句話:
需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數(shù)精度。
而且位置相當(dāng)“隱蔽”,藏在了一大段洋洋灑灑的功能更新介紹之后。

要不是官方特意在評論區(qū)補了一句,估計大家還沒啥感覺。
所以你說它這個動作吧,不知道算無意還是刻意為之,總之是相當(dāng)微妙了 (手動狗頭)。
參考鏈接:
[1]https://www.zhihu.com/question/1941891000319580108
[2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069
[3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html
[4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/
本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西、一水,原標(biāo)題《DeepSeek 一句話讓國產(chǎn)芯片集體暴漲!背后的 UE8M0 FP8 到底是個啥》
本文鏈接:http://www.www897cc.com/showinfo-45-27005-0.htmlDeepSeek 一句話讓國產(chǎn)芯片集體暴漲,背后的 UE8M0 FP8 到底是什么
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com