當(dāng)前位置：首頁 > 科技 > 數(shù)碼

貓鼠游戲中的英偉達

來源：責(zé)編：時間：2023-12-08 09:12:37 282觀看

導(dǎo)讀自步入人工智能時代以來，中國一直是英偉達的大客戶。2022年，英偉達銷售數(shù)據(jù)中，25%來自中國客戶，尤其是一些互聯(lián)網(wǎng)大廠，他們對英偉達的算力產(chǎn)品，比如H800，可以說是瘋狂買買買。但是隨著美國在2023年1

自步入人工智能時代以來，中國一直是英偉達的大客戶。

2022年，英偉達銷售數(shù)據(jù)中，25%來自中國客戶，尤其是一些互聯(lián)網(wǎng)大廠，他們對英偉達的算力產(chǎn)品，比如H800，可以說是瘋狂買買買。

但是隨著美國在2023年10月更新了先進半導(dǎo)體和計算設(shè)備的出口管制，英偉達中國特供版GPU A800和H800都將在11月17號后禁止出口中國。而且更難處理的是，華盛頓新的出口管制下，幾乎絕大多數(shù)高算力產(chǎn)品都不再能出口中國了。

不過英偉達有他們的小心思，25%的巨大收入來源不可能說斷就斷，所以英偉達決定要和美國政府來一場貓鼠游戲，要在這只貓的眼皮底下，偷走奶酪。于是英偉達開始布局一款新的產(chǎn)品——H20。注意，這個H20是“H”和“二十”，不是水分子的化學(xué)式。

H20這款產(chǎn)品的浮點運算能力僅有296TFLOPs，性能密度只有2.9。這意味著它從紙面上看已經(jīng)是一款超低性能產(chǎn)品，然而有意思的事情來了，如此低性能的產(chǎn)品，依然有公司會買，而且它繼續(xù)引發(fā)美國的監(jiān)管部門以及英偉達競爭對手的恐慌。在硅星人此前的文章《英偉達的美國對手們已經(jīng)開始拿中國攻擊英偉達了》中已經(jīng)提到，英偉達的美國對手批評它不夠美國，而英偉達認為這些批評不合邏輯；而最近的消息是，美國商務(wù)部長 Gina Raimondo又點名英偉達，警告它停止為中國設(shè)計繞過出口管控的 AI 芯片。

所以，這個貓鼠游戲里，英偉達到底是如何做的？

3A090里的文字游戲

3A090，是華盛頓出口管制中的ECCN編碼物項。3A090特指特定高性能集成電路，當(dāng)一顆芯片輸入輸出雙向傳輸速率超過每秒600GB，或算力超過4800TOPS時就屬于3A090，也就意味著禁止向中國出口。

上一次美國規(guī)定先進半導(dǎo)體出口措施的時候，英偉達旗艦產(chǎn)品A100和H100都被劃在了禁止向中國出口的列表當(dāng)中。英偉達當(dāng)時采取的措施是推出低配版、但是同架構(gòu)、且同樣配備高帶寬插槽版本（也就是SXM版本）的A800和H800。這兩塊產(chǎn)品在性能上和原版的A100、H100幾乎完全一致，甚至連內(nèi)存芯片用的也都是HBM2e和HBM3這種當(dāng)時的頂級內(nèi)存芯片。頗有種孫悟空和六耳獼猴的感覺。

在上一次禁令發(fā)布的時候，美國只是對產(chǎn)品的具體型號做出了禁止出口的規(guī)定，這才有了H800和A800這種李逵李鬼的情況。所以這次新規(guī)就加入了更為嚴格的限制，規(guī)定了算力總和以及性能密度，所有人工智能產(chǎn)業(yè)能用到的高端張量計算GPU全都被劃進了限制。

說得更直白一點，高性能的GPU不讓賣，低性能的GPU買了也沒用。

然而有意思的事情來了，禁令所限制的兩個詞匯“性能密度”和“總算力”，其實是一個文字游戲。

什么是性能密度？國際上有兩個說法，第一個是人工智能公司常用的，浮點計算能力FLOPs，也就是每秒浮點操作數(shù)除以單位面積內(nèi)的晶體管數(shù)量得來的。第二個是MIPS，也就是每秒百萬指令數(shù)除以單位面積內(nèi)的晶體管數(shù)量得來的。

我們都清楚一個道理，那就是“大人時代變了”。就拿英偉達剛推出的新品H200所搭載的HBM3e來說，這顆芯片采用了一種3D技術(shù)，通過立體空間堆疊的方式增加內(nèi)存。如果只按面積來說，那這顆芯片的性能密度就很高，但是要按體積算，這顆芯片的性能密度也挺高，只是沒有按面積算那么高而已。所以如果想要性能密度這個數(shù)字越小，算的時候以體積為單位就可以了。畢竟除法嘛，分母越大結(jié)果越小。

另外MIPS通常比FLOPs大，因為在計算過程中除了浮點，還有整數(shù)類型（INT）的運算。而且浮點自己還囊括了單精度（32位）、雙精度（64位）等以所需存儲空間來劃分的類型。因為傳統(tǒng)FLOPs計算方式，往往只會統(tǒng)計單精度和雙精度，因此一顆張量計算用的GPU，在數(shù)據(jù)測試的時候，也可以只報單精度、雙精度的浮點，這樣無論是它的MIPS還是FLOPs都會很低。畢竟除法嘛，分子越小結(jié)果越小。

總算力這塊能玩的花活就更多了。總算力，這個詞指的是每個核心的時鐘速度總和。英偉達H20，或者說整個H系列所采用的Hooper架構(gòu)，它都是有多種核心的，比如專門用來做張量計算的TensorFloat32核心，還有腦浮點（BF16）核心。那剛才咱們聊了，計算FLOPs時，可以只計算單精度，雙精度，也就意味著它在算力總和的測試中，就可以只計算單精度和雙精度核心，而不再啟用上述的這些張量計算核心。畢竟自然數(shù)加法嘛，加數(shù)越少結(jié)果越小。

綜上，作為一個算力芯片廠商，他們可以很簡單地把芯片數(shù)據(jù)弄得很低。這只是一種可能的假說，因為英偉達的最終目的不是通過3A090的限制，他是要把產(chǎn)品賣出去，賺取利潤。一個性能極低的產(chǎn)品根本沒有市場銷路，就算設(shè)計出來了也沒有實際的價值。

H20背后的真正秘密

區(qū)區(qū)是一張中上游的游戲顯卡RTX 4080，它的浮點運算能力都能達到320TFLOPs，同時RTX 4080的性能密度有6.8。H20尊為一個張量計算用的GPU，296的浮點和2.9的性能密度，就好像是一個超級富二代獨生子，從出生開始就享受世界上最優(yōu)質(zhì)的資源，頓頓早餐吃的煎餅果子都能加倆雞蛋，喝酸奶從來用不著舔蓋，結(jié)果到頭來算個10以內(nèi)加減法都能把CPU干冒煙了。

可我要是說H20的Die足足有814平方毫米，和H100完全相同，閣下應(yīng)該如何應(yīng)對？這并不是好鋼用在刀背上，相反這正是H20的隱藏屬性。也正因此，才讓我更加相信，英偉達在H20的數(shù)據(jù)上，存在一些貓膩。

Die指的是芯片的裸晶，一般來說，越是性能優(yōu)越的芯片，Die尺寸就會越大。比如RTX 4080的Die尺寸是379，而目前性能最好的游戲顯卡RTX 4090的Die尺寸是609。因此，H20實際上并不是低端芯片，至少從芯片的制程來講，H20是站在第一梯隊的。

老鼠沒有貓力氣大，速度上也不占優(yōu)勢，如果老鼠不想被貓抓住，那就要想方設(shè)法地躲起來，不暴露自己。

誠然，H20的浮點運算能力很低，可是H20 SXM的內(nèi)存足足有96GB，更恐怖的是它的帶寬來到了4Tbps。相較之下，1979TFLOPs浮點運算能力的H100 SXM只有80GB的內(nèi)存和3.4Tbps的帶寬。在人工智能領(lǐng)域，尤其是現(xiàn)在火熱的大語言模型中。內(nèi)存是影響模型運行的關(guān)鍵，每10億參數(shù)就要消耗3到5GB的內(nèi)存，如果內(nèi)存溢出則會嚴重影響模型的質(zhì)量，產(chǎn)生不可預(yù)估的后果。那也就是說，在面對實際應(yīng)用的時候，H20能比H100承擔(dān)更大規(guī)模的大語言模型。

可能你會問了，H20的浮點運算能力不行啊，光有內(nèi)存沒用，跑的速度會慢。如果是2022年，那這的確是個大問題，畢竟沒有人工智能公司會考慮低效率的GPU，這樣做會拖垮整個訓(xùn)練過程。可是2023年，英偉達的TensorRT-LLM已經(jīng)問世，并且擁有TensorRT-LLM功能的H200即將要在2024年發(fā)售了。

TensorRT-LLM是一個幫助GPU快速解決復(fù)雜計算的優(yōu)化軟件，搭載在GPU內(nèi)部，類似于游戲顯卡驅(qū)動一樣。以H100為例，使用TensorRT-LLM后的H100，在對一些媒體網(wǎng)站進行文章摘要時的工作效率，比使用前快出整整1倍。而在700億參數(shù)的Llama2上，前者比后者快77%。目前流通在市面上的A800也好，H800也好，都沒有搭載TensorRT-LLM功能。H20很有可能，或者說板上釘釘?shù)臅钶dTensorRT-LLM。

英偉達雖然一直以硬件銷售為主，然而其軟件能力非同小可。比如DLSS，這是一種專門用來“欺騙”軟件。不過DLSS所騙的目標并不是用戶，而是顯卡。當(dāng)計算機需要大量圖形計算時，DLSS會把圖形以極低分辨率的形式交給顯卡，它去騙顯卡說：“你干這么點活就得了，剩下的不用你操心”，再通過DLSS技術(shù)還原成高分辨率的圖形，這會大幅減輕顯卡的壓力，進而提升畫面效果。

回到現(xiàn)在，TensorRT-LLM也是一個給GPU減壓減負的軟件技術(shù)，這就讓GPU能夠表現(xiàn)出本不該屬于它的性能。此外，如果英偉達真的隱藏了H20的真實數(shù)據(jù)，實際上H20的表現(xiàn)力很有可能會超過H100。
你以為英偉達是壁虎，斷尾求生。實際上英偉達壓根不打算“閹割”，他們想的是換一種方式，繞過監(jiān)管，達到目的。畢竟，如果H20算力很低，就算可以出口中國，也沒有買家愿意購買這樣的產(chǎn)品。當(dāng)貓堵住了一個老鼠洞，老鼠還是能有辦法溜出來，因為不可能只有一個出口。

不只是英偉達自己的貓鼠游戲

英偉達有個好朋友叫做SK海力士，英偉達最新旗艦產(chǎn)品H200 SXM上的內(nèi)存芯片HBM3e，就是SK海力士的。目前他們正聯(lián)手開發(fā)HBM4，以顛覆整個產(chǎn)業(yè)。英偉達也是SK海力士最大的客戶之一，如果英偉達失去了中國市場，那么SK海力士的損失也會是巨大的。

最重要的是，GPU是一個橫跨軟硬件兩個領(lǐng)域的事情，造就了一個附加值極高的交易體系。比如英偉達的Hooper架構(gòu)，也就是H100、H200、H800、H20所采用的架構(gòu)，多種同架構(gòu)的GPU并聯(lián)在一起，能夠更好地分配計算資源。一般來說，人工智能企業(yè)都是買很多塊GPU，而不是就買一塊。所以當(dāng)人工智能公司進行算力擴展的時候，GPU的第一個附加價值就體現(xiàn)出來了，它會要求人工智能公司只能接著購買該公司的GPU產(chǎn)品。

第二個附加價值在于算法的開發(fā)，不同的GPU產(chǎn)品，比如AMD的MI，英特爾的Gaudi，他們的差別不只有浮點運算能力、性能密度這些，還有指令集、邏輯芯片、底層語言上的差異等等。一個能在H100上運行的算法，不一定就完美適配MI300X。換言之，如果開發(fā)伊始就是基于某公司產(chǎn)品的話，后續(xù)的開發(fā)大概率也只能基于同公司，甚至是同架構(gòu)的產(chǎn)品。

第三個附加價值是反向的，由人工智能公司給予GPU公司。在算法的開發(fā)過程中總是會遇到各種各樣的難題，當(dāng)這些難題反饋給GPU公司時，GPU就會清楚下一代產(chǎn)品應(yīng)該做怎樣的改進。就比如上文說的HBM4，英偉達和SK海力士要非常清楚目前GPU在當(dāng)前場景下還有哪些不足，才能做出足以顛覆產(chǎn)業(yè)的產(chǎn)品。

正是這些附加價值，綁定了GPU公司和人工智能公司，形成了復(fù)雜的裙帶關(guān)系。所以英偉達不能失去中國市場，不單單是為了25%的銷售額，還有比銷售數(shù)字更重要的這些附加價值。中國的人工智能水平增長非常迅速，英偉達深知其中的利害。

在貓鼠游戲中，老鼠之間也會互相打配合，有些負責(zé)吸引貓的注意力，有些負責(zé)搬運奶酪。還有一點，貓和老鼠都明白兩者雖然對立，但是存在著一個用來維持雙方平衡的灰色空間，既不黑也不白，兩者都能生存。貓不能一下子將老鼠全抓死，那樣貓就失去了作用，老鼠也不能太猖狂，那樣會壓縮貓的生活空間。

本文鏈接：http://www.www897cc.com/showinfo-24-39437-0.html貓鼠游戲中的英偉達

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：消息稱AMD Instinct MI300系列出貨量預(yù)計將達到30-40萬顆

下一篇： DSCC：今年 Q3 折疊屏手機出貨 700 萬臺，三星、華為、榮耀分列前三

標簽：

熱門焦點

6月iOS設(shè)備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

沒有新品發(fā)布，自然iOS設(shè)備性能榜的上榜設(shè)備就沒有什么更替，僅僅只有跑分變化而產(chǎn)生的排名變動，畢竟蘋果新品的發(fā)布節(jié)奏就是這樣的，一年下來也就幾個移動端新品，不會像安卓廠商，一
跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標年度性能之王

8月5日消息，Redmi K60至尊版將于8月發(fā)布，在此前舉行的戰(zhàn)略發(fā)布會上，官方該機將搭載搭載天璣9200+處理器，安兔兔V10跑分超177萬分，是目前安卓陣營最高的分數(shù)
線程通訊的三種方法！通俗易懂

線程通信是指多個線程之間通過某種機制進行協(xié)調(diào)和交互，例如，線程等待和通知機制就是線程通訊的主要手段之一。在 Java 中，線程等待和通知的實現(xiàn)手段有以下幾種方式：Object 類下
一篇文章帶你了解 CSS 屬性選擇器

屬性選擇器對帶有指定屬性的 HTML 元素設(shè)置樣式。可以為擁有指定屬性的 HTML 元素設(shè)置樣式，而不僅限于 class 和 id 屬性。一、了解屬性選擇器CSS屬性選擇器提供了一種簡單而
每天一道面試題-CPU偽共享

前言：了不起：又到了每天一到面試題的時候了！學(xué)弟，最近學(xué)習(xí)的怎么樣啊了不起學(xué)弟：最近學(xué)習(xí)的還不錯，每天都在學(xué)習(xí)，每天都在進步！了不起：那你最近學(xué)習(xí)的什么呢？了不起學(xué)弟：最近在學(xué)習(xí)C
超級標準版旗艦！iQOO 11S全球首發(fā)iQOO超算獨顯芯片

上半年已接近尾聲，截至目前各大品牌旗下的頂級旗艦都已悉數(shù)亮相，而下半年即將推出的頂級旗艦已經(jīng)成為了數(shù)碼圈爆料的主流，其中就包括全新的iQOO 11S系
SN570 NVMe SSD固態(tài)硬盤價格與性能兼具

SN570 NVMe SSD固態(tài)硬盤是西部數(shù)據(jù)發(fā)布的最新一代WD Blue系列的固態(tài)硬盤，不僅閃存技術(shù)更為精進，性能也得到了進一步的躍升。WD Blue SN570 NVMe SSD的包裝外
蘋果MacBook Pro 2021測試：仍不支持平滑滾動

據(jù)10月30日9to5 Mac 消息報道，蘋果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后獲得了不錯的評價，亮點包括行業(yè)領(lǐng)先的性能，令人印象深刻的電池續(xù)航，精美豐
Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

圖片來源：圖蟲創(chuàng)意日前，Meta創(chuàng)始人兼CEO 馬克·扎克伯發(fā)布公開信，宣布Meta計劃裁員超11000人，占其員工總數(shù)13%。他公開承認了自己的預(yù)判失誤：“不僅

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

貓鼠游戲中的英偉達

6月iOS設(shè)備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標年度性能之王

線程通訊的三種方法！通俗易懂

一篇文章帶你了解 CSS 屬性選擇器

每天一道面試題-CPU偽共享

超級標準版旗艦！iQOO 11S全球首發(fā)iQOO超算獨顯芯片

SN570 NVMe SSD固態(tài)硬盤價格與性能兼具

蘋果MacBook Pro 2021測試：仍不支持平滑滾動

Meta盲目擴張致超萬人被裁，重金押注元宇宙而前景未明

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊