當前位置：首頁 > 科技 > 數碼

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

來源：責編：時間：2023-12-08 09:11:58 278觀看

導讀 12月7日消息，AMD于當地時間周三舉行了“Advancing AI”發布會，正式推出了面向AI及HPC領域的GPU產品Instinct MI300A/MI300X加速器，直接與英偉達（NVIDIA）H100加速器競爭。同時AMD還發布了代號為Hawk Po

12月7日消息，AMD于當地時間周三舉行了“Advancing AI”發布會，正式推出了面向AI及HPC領域的GPU產品Instinct MI300A/MI300X加速器，直接與英偉達（NVIDIA）H100加速器競爭。

同時AMD還發布了代號為Hawk Point的新一代Ryzen 8000系列APU，可面向AI PC產品。

MI300A：HPC性能達到NVIDIA H100的4倍

雖然在今年6月的“數據中心與人工智能技術發布會”，AMD就有發布MI300A和MI300X，只不過當時MI300X只是紙面上的發布，現在MI300A和MI300X已經開始批量量產了，AMD也公布了更多關于MI300A、MI300X的性能數據。

AMD MI300A采用了Chiplet設計，其內部擁有多達13個小芯片，均基于臺積電5nm或6nm制程工藝（CPU/GPU計算核心為5nm，HBM內存和I/O等為6nm），其中許多是 3D 堆疊的，以便創建一個面積可控的單芯片封裝，總共集成1460 億個晶體管。

具體來說，MI300A與上一代的MI250X一脈相承，采用新一代的CDNA 3 GPU架構，擁有228個計算單元（14592個核心），并集成了24個Zen 4 CPU內核，配置了128GB的HBM3內存。

MI300A的計算核心被 8 個HBM3內存包圍，單個HBM3的帶寬為6.3GB/s，八個16GB堆棧形成128GB統一內存，帶寬高達5.3 TB/s。

在算力方面，MI300A提供了高達61 TFLOPS FP64算力，多達122 TFLOPS FP32算力。

AMD表示，MI300A GPU將HPC提升到一個新的水平，其性能是NVIDIA H100的4倍，能效是H100的兩倍。

具體來說，在OpenFOAM中，MI300A APU提供了相比H100高達4倍的性能提升，這主要來自于統一的內存布局、GPU性能以及整體內存容量和帶寬。與NVIDIA的Grace Hopper超級芯片相比，該系統每瓦的性能也提高了2倍。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

AMD證實，MI300A目前正在發貨，還將用于為下一代El Capitan超級計算機提供動力，預計該超級計算機將提供高達2 Exaflops的計算能力。

值得一提的是，AMD是唯一一家憑借Frontier超級計算機突破1 Exaflop大關的公司，也是地球上效率高的系統。此外，惠普、Eviden、技嘉、超微等也將是MI300A加速器的OEM和解決方案合作伙伴。

MI300X：AI性能比英偉達H100高出30%！

MI300X采用了相比MI250X更簡單的設計，MI300X內部集成了12個5/6nm工藝的小芯片（HMB和I/O為6nm），擁有1530億個晶體管，放棄了 APU 的 24 個Zen4內核和 I/O 芯片，取而代之的是更多計算核心的 CDNA 3 GPU。

MI300X的每個基于CDNA 3 GPU架構的GCD總共有40個計算單元，相當于2560個內核。總共有八個計算芯片（GCD），因此總共有320個計算和20480個核心單元。不過，就目前的量產版而言，AMD縮減這些核心的一小部分，因此實際總共有304個計算單元（每個GPU小芯片38個CU）可用于19456個流處理器。

在內存帶寬方面，MI300X也配備了更大的 192GB HBM3內存（8個HBM3封裝，每個堆棧為12 Hi）相比MI250X提高了50%，帶來高達5.2TB/s的帶寬和896GB/s的Infinity Fabric帶寬。相比之下，英偉達即將推出的H200 AI加速器提供141 GB的容量，而英特爾即將推出的Gaudi 3將提供144 GB的容量。大型內存池在LLM（大語言模型）中非常重要，LLM大多是與內存綁定的，AMD可以通過在HBM內存容量上的領先地位來提升器人工智能能力。

具體來說，AMD的MI300X與英偉達的H100加速器相比：

內存容量提高 2.4 倍

內存帶寬提高 1.6 倍

1.3 倍 FP8 TFLOPS

1.3 倍 FP16 TFLOPS

在 1v1 比較中，速度比 H100 (Llama 2 70B) 快達 20%

在 1v1 比較中，速度比 H100 (FlashAttention 2) 快達 20%

8v8 服務器中的速度比 H100 (Llama 2 70B) 快達 40%

在 8v8 服務器中，速度比 H100 (Bloom 176B) 快達 60%

在具體的AI大模型加速性能對比當中，MI300X相比H100在 FlashAttention-2 和 Llama 2 70B 中提供了高達 20% 的性能提升。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

從平臺角度來看，將 8x MI300X 解決方案與 8X H100 解決方案進行比較，前者在 Llama 2 70B 中獲得了更大的 40% 的性能提升，而在 Bloom 176B 中則獲得了 60% 的性能提升。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

AMD指出，在AI訓練性能方面，MI300X 與競爭對手 (H100) 相當，并提供有競爭力的價格/性能，同時在推理工作負載方面表現出色。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

在功耗方面，AMD MI300X的額定功率為750W，比 MI250X的500W增加了50%，比NVIDIA H200多了50W。

ROCm 6.0開放軟件平臺

AMD還推出了ROCm 6.0開放軟件平臺，該新版本具有強大的新功能，包括支持各種人工智能工作負載，例如生成式人工智能和大型語言模型。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

新的軟件堆棧支持新的計算格式，例如 FP16、Bf16 和 FP8（包括 Sparsity）等。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

這些優化相結合，通過優化的推理庫將 vLLM 的速度提高了高達 2.6 倍，通過優化的運行時間將 HIP Graph 的速度提高了 1.4 倍，并通過優化的內核將 Flash Attention 的速度提高 1.3 倍。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

AMD指出，與上一代軟硬件組合相比，使用MI300X和ROCm 6跑Llama 2 70B文本生成，AI推理速度提高了約8倍。

ROCm 6 預計將于本月晚些時候與 MI300 AI 加速器一起推出。看看 ROCm 6 與 NVIDIA CUDA 堆棧的新版本（它的真正競爭對手）相比如何，將會很有趣。

G593-ZX1/ZX2系列服務器

AMD還展示了一種配置是Gigabyte的G593-ZX1/ZX2系列服務器，它提供多達8個MI300X GPU加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W的電源，總功率為18000W。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

據介紹，該集成了8個MI300X GPU的加速器平臺，相比NVIDIA HGX H100平臺，帶來的提升包括：

2.4倍更高的HBM3內存（1.5 TB vs. 640 GB）

1.3倍以上的計算FLOPS（10.4 PF vs. 7.9 PF）

類似的雙向帶寬（896 GB/s vs. 900 GB/s）

類似的單節點環形帶寬（448 GB/s vs. 450 GB/s）

類似的網絡功能（400 GbE vs. 400 GbE）

類似的PCIe協議（PCIe Gen 5 128 GB/s）

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

據semianalysis此前報道，微軟、Meta、甲骨文、谷歌、Supermicro/Qunta-direct、亞馬遜等公司已經向AMD下了不同數量的MI300系列訂單。

今天，微軟也宣布將評估對AMD的AI加速器產品的需求，評估采用該新品的可行性。Meta公司也宣布將在數據中心采用AMD新推的MI300X芯片產品。甲骨文也表示，公司將在云服務中采用AMD的新款芯片。

此前市場預計AMD的MI300系列在2024年的出貨約為30~40萬顆，大客戶為微軟、谷歌，若非受限臺積電CoWoS產能短缺及英偉達早已預訂逾四成產能，AMD出貨有望再上修。

值得注意的是，在不久前的財報會議上，AMD CEO蘇姿豐（Lisa Su）表示，“基于我們在人工智能路線圖執行和云客戶購買承諾方面取得的快速進展。

根據預計，隨著全年收入的增加，數據中心GPU的收入在第四季度將約為4億美元，2024年將超過20億美元。這一增長將使MI300系列成為AMD歷史上銷售額快增長至10億美元的產品。

目前，在生成式AI的熱潮之下，英偉達憑借其AI芯片的出色性能及CUDA的生態優勢，在云端AI芯片市場占據者壟斷優勢。不過，由于英偉達的AI芯片價格高昂以及供應短缺，云服務及AI技術廠商們處于成本及多元化供應鏈安全考慮，也使得AMD和英特爾等競爭者有了更多的機會。

Ryzen 8040系列發布：主頻高達5.2 GHz，AI性能提升60%

代號為“Hawk Point”的Ryzen 8040系列APU是專為客戶端和消費類 PC 設計的處理器，主要針對筆記本電腦市場，其中高端的版本可面向AI PC。

AMD Ryzen 8040系列配備了與上一代相同的4nm Zen 4 CPU 核心架構，多 8 核/16 線程，只不過主頻提高到了5.2 GHz；

擁有相同的 RDNA 3 圖形核心架構，高達 Radeon 780M iGPU（12 個計算單元）；

升級了XDNA NPU，擁有16TOPS的AI算力，AI性能相比上一代提升了60%。

TDP 范圍為 15-54W。將于2024 年第一季度推出 PC 產品。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

該產品線主要分為三個部分，首先是高端 Ryzen 8045HS 系列，它將成為具有高時鐘速度的佼佼者，然后是更主流的 Ryzen 8040HS 系列，以及專為功耗優化平臺設計的入門級 Ryzen 8040U 系列。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

具體來說，AMD Hawk Point 系列共有 9 個 Ryzen 8040 SKU。首先是Ryzen 8045HS SKU，其中包括 Ryzen 9 8945HS、Ryzen 7 8845HS 和 Ryzen 5 8645HS。

這三款芯片與 Ryzen 9 7940HS、Ryzen 7 7840HS 和 Ryzen 5 7640HS SKU 具有相同的規格，多 8/6 個核心、Radeon 780M/760M iGPU、高達 5.2 GHz 時鐘速度、16 MB 總 L3 緩存和 35- 54W TDP。

AMD Ryzen 8040HS SKU，主要有 Ryzen 7 8840HS 和 Ryzen 5 8640HS。

這兩個 SKU 設計為低功耗產品，目標功率為 20-30W。

Ryzen 7 8840HS APU 具有 8 核、16 線程、16 MB 緩存、Radeon 780M iGPU，時鐘速度高達 5.1 GHz，而 Ryzen 5 8640HS APU 具有 6 核、12 線程、16 MB 三級緩存、Radeon 760M iGPU和高達 4.9 GHz 的時鐘。

這些芯片將配備較低的基本時鐘，并具有額外的熱量/功率限制，以滿足功率受限的 PC 的要求。

后，AMD Ryzen 8040U SKU，其配置再次與 Ryzen 7040U SKU 相同。

有四種 SKU，包括 Ryzen 7 8840U、Ryzen 5 8640U、Ryzen 5 8540U 和 Ryzen 3 8440U。8540U 和 8440U 缺少 NPU，因為它們基于包含Zen 4 和 Zen 4C 內核的較小混合芯片。

這些低功耗解決方案沒有包含專用的 XDNA NPU。這些 SKU 僅配備 Radeon 740M iGPU，其中包含 4 個計算單元。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

談到使用更小的 Zen 4C 內核的優勢，明顯的一個是更小的芯片尺寸，這可以帶來更高的密度和更高的功率效率。AMD 表示 Zen 4C 核心提供：

更高的效率：具有相同 IPC 的較小內核可以使用更少的功率來提供低于 15W 的更高性能。

高級版的可擴展性：具有相同 IPC 的較小內核開啟了高端市場未來內核數量增加的潛力。

入門級的可擴展性：具有相同 IPC 的較小內核使 AMD 能夠為消費者提供更多選擇。

全新的AMD Ryzen 8040“Hawk Point”APU 系列的一個主要目的是吸引買家進入 AI PC 生態系統。

即將推出的 Windows 版本 Windows 12 在人工智能方面預計將是一件大事，有傳言強調，主要要求之一將是具有足夠 TOP 的專用 NPU 來處理新操作系統的人工智能處理功能。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

因此，AMD 升級了這些新 APU 上的 NPU，可提供多達 16 TOPS 的 AI 計算能力。

AMD 自己也宣稱Ryzen 8040系列使用 Llama 2 和 Vision 模型的性能提升了 40%。AMD 還致力于通過驅動程序和 Ryzen AI 軟件套件的各種改進來微調其 ML 和 AI 性能。

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

值得注意的是，很快英特爾即將在美國當地時間12月14日正式發布面向AI PC全新酷睿Ultral處理器。而在此之前，高通也已經推出了面向AI PC的驍龍 X Elite處理器。

據市場研調機構Canalys新的預測顯示，2024年個人電腦（PC）出貨量有望同比增長8%至2.67億臺。而這其中，AI PC將是增長動能之一，2024年AI PC比重將達19%，出貨量將超過5000臺。

文章出處：芯智訊

本文鏈接：http://www.www897cc.com/showinfo-24-39317-0.htmlAMD強AI芯片發布：性能是英偉達H100的1.3倍！

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：中國特供版RTX 4090D全面縮水：超頻都砍了！

下一篇：主頻比原版高！英偉達中國特供版RTX 4090D細節曝光：12999元買嗎

標簽：

熱門焦點

石頭智能洗地機A10 Plus體驗：雙向自清潔治好了我的懶癌

一、前言和介紹專為家庭請假懶人而生的石頭科技在近日又帶來了自己的全新旗艦新品，石頭智能洗地機A10 Plus。從這個產品名上就不難看出，這次石頭推出的并不是常見的掃地機器
5月安卓手機好評榜：魅族20 Pro奪冠

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年5月1日至5月31日，僅限國內市場。第一名：魅族20 Pro好評率：97.50%不得不感慨魅族老品牌還
得物效率前端微應用推進過程與思考

一、背景效率工程隨著業務的發展，組織規模的擴大，越來越多的企業開始意識到協作效率對于企業團隊的重要性，甚至是決定其在某個行業競爭中突圍的關鍵，是企業長久生存的根本。得物
如何通過Python線程池實現異步編程？

線程池的概念和基本原理線程池是一種并發處理機制，它可以在程序啟動時創建一組線程，并將它們置于等待任務的狀態。當任務到達時，線程池中的某個線程會被喚醒并執行任務，執行完任
三萬字盤點 Spring 九大核心基礎功能

大家好，我是三友~~今天來跟大家聊一聊Spring的9大核心基礎功能。話不多說，先上目錄：圖片友情提示，本文過長，建議收藏，嘿嘿嘿！一、資源管理資源管理是Spring的一個核心的基礎功能，不
OPPO、vivo、小米等國內廠商Q2在印度智能手機市場份額依舊高達55%

7月20日消息，據外媒報道，研究機構的報告顯示，在全球智能手機出貨量同比仍在下滑的大背景下，印度這一有潛力的市場也未能幸免，出貨量同比也有下滑，多家廠
華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

在今日舉行的2023年華為云數字文娛AI創新峰會上，華為云全球Marketing與銷售服務總裁石冀琳表示，華為云將在后續推出盤古數字人大模型，可幫助用戶12小
iQOO 11S新品發布會

iQOO將在7月4日19:00舉行新品發布會，推出杭州亞運會電競賽事官方用機iQOO 11S。
2299元起！iQOO Pad明晚首銷：性能最強天璣平板

5月23日，iQOO如期舉行了新品發布會，除了首發安卓最強旗艦處理器的iQOO Neo8系列新機外，還在發布會上推出了旗下首款平板電腦——iQOO Pad，其最大的賣點

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

AMD強AI芯片發布：性能是英偉達H100的1.3倍！

石頭智能洗地機A10 Plus體驗：雙向自清潔治好了我的懶癌

5月安卓手機好評榜：魅族20 Pro奪冠

得物效率前端微應用推進過程與思考

如何通過Python線程池實現異步編程？

三萬字盤點 Spring 九大核心基礎功能

OPPO、vivo、小米等國內廠商Q2在印度智能手機市場份額依舊高達55%

華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

iQOO 11S新品發布會

2299元起！iQOO Pad明晚首銷：性能最強天璣平板

最新推薦

猜你喜歡

熱門推薦

相關資訊