12月7日消息,AMD于當地時間周三舉行了“Advancing AI”發布會,正式推出了面向AI及HPC領域的GPU產品Instinct MI300A/MI300X加速器,直接與英偉達(NVIDIA)H100加速器競爭。
同時AMD還發布了代號為Hawk Point的新一代Ryzen 8000系列APU,可面向AI PC產品。
MI300A:HPC性能達到NVIDIA H100的4倍
雖然在今年6月的“數據中心與人工智能技術發布會”,AMD就有發布MI300A和MI300X,只不過當時MI300X只是紙面上的發布,現在MI300A和MI300X已經開始批量量產了,AMD也公布了更多關于MI300A、MI300X的性能數據。
AMD MI300A采用了Chiplet設計,其內部擁有多達13個小芯片,均基于臺積電5nm或6nm制程工藝(CPU/GPU計算核心為5nm,HBM內存和I/O等為6nm),其中許多是 3D 堆疊的,以便創建一個面積可控的單芯片封裝,總共集成1460 億個晶體管。
具體來說,MI300A與上一代的MI250X一脈相承,采用新一代的CDNA 3 GPU架構,擁有228個計算單元(14592個核心),并集成了24個Zen 4 CPU內核,配置了128GB的HBM3內存。
MI300A的計算核心被 8 個HBM3內存包圍,單個HBM3的帶寬為6.3GB/s,八個16GB堆棧形成128GB統一內存,帶寬高達5.3 TB/s。
在算力方面,MI300A提供了高達61 TFLOPS FP64算力,多達122 TFLOPS FP32算力。
AMD表示,MI300A GPU將HPC提升到一個新的水平,其性能是NVIDIA H100的4倍,能效是H100的兩倍。
具體來說,在OpenFOAM中,MI300A APU提供了相比H100高達4倍的性能提升,這主要來自于統一的內存布局、GPU性能以及整體內存容量和帶寬。與NVIDIA的Grace Hopper超級芯片相比,該系統每瓦的性能也提高了2倍。
AMD證實,MI300A目前正在發貨,還將用于為下一代El Capitan超級計算機提供動力,預計該超級計算機將提供高達2 Exaflops的計算能力。
值得一提的是,AMD是唯一一家憑借Frontier超級計算機突破1 Exaflop大關的公司,也是地球上效率高的系統。此外,惠普、Eviden、技嘉、超微等也將是MI300A加速器的OEM和解決方案合作伙伴。
MI300X:AI性能比英偉達H100高出30%!
MI300X采用了相比MI250X更簡單的設計,MI300X內部集成了12個5/6nm工藝的小芯片(HMB和I/O為6nm),擁有1530億個晶體管,放棄了 APU 的 24 個Zen4內核和 I/O 芯片,取而代之的是更多計算核心的 CDNA 3 GPU。
MI300X的每個基于CDNA 3 GPU架構的GCD總共有40個計算單元,相當于2560個內核。總共有八個計算芯片(GCD),因此總共有320個計算和20480個核心單元。不過,就目前的量產版而言,AMD縮減這些核心的一小部分,因此實際總共有304個計算單元(每個GPU小芯片38個CU)可用于19456個流處理器。
在內存帶寬方面,MI300X也配備了更大的 192GB HBM3內存(8個HBM3封裝,每個堆棧為12 Hi)相比MI250X提高了50%,帶來高達5.2TB/s的帶寬和896GB/s的Infinity Fabric帶寬。相比之下,英偉達即將推出的H200 AI加速器提供141 GB的容量,而英特爾即將推出的Gaudi 3將提供144 GB的容量。大型內存池在LLM(大語言模型)中非常重要,LLM大多是與內存綁定的,AMD可以通過在HBM內存容量上的領先地位來提升器人工智能能力。
具體來說,AMD的MI300X與英偉達的H100加速器相比:
內存容量提高 2.4 倍
內存帶寬提高 1.6 倍
1.3 倍 FP8 TFLOPS
1.3 倍 FP16 TFLOPS
在 1v1 比較中,速度比 H100 (Llama 2 70B) 快達 20%
在 1v1 比較中,速度比 H100 (FlashAttention 2) 快達 20%
8v8 服務器中的速度比 H100 (Llama 2 70B) 快達 40%
在 8v8 服務器中,速度比 H100 (Bloom 176B) 快達 60%
在具體的AI大模型加速性能對比當中,MI300X相比H100在 FlashAttention-2 和 Llama 2 70B 中提供了高達 20% 的性能提升。
從平臺角度來看,將 8x MI300X 解決方案與 8X H100 解決方案進行比較,前者在 Llama 2 70B 中獲得了更大的 40% 的性能提升,而在 Bloom 176B 中則獲得了 60% 的性能提升。
AMD指出,在AI訓練性能方面,MI300X 與競爭對手 (H100) 相當,并提供有競爭力的價格/性能,同時在推理工作負載方面表現出色。
在功耗方面,AMD MI300X的額定功率為750W,比 MI250X的500W增加了50%,比NVIDIA H200多了50W。
ROCm 6.0開放軟件平臺
AMD還推出了ROCm 6.0開放軟件平臺,該新版本具有強大的新功能,包括支持各種人工智能工作負載,例如生成式人工智能和大型語言模型。
新的軟件堆棧支持新的計算格式,例如 FP16、Bf16 和 FP8(包括 Sparsity)等。
這些優化相結合,通過優化的推理庫將 vLLM 的速度提高了高達 2.6 倍,通過優化的運行時間將 HIP Graph 的速度提高了 1.4 倍,并通過優化的內核將 Flash Attention 的速度提高 1.3 倍。
AMD指出,與上一代軟硬件組合相比,使用MI300X和ROCm 6跑Llama 2 70B文本生成,AI推理速度提高了約8倍。
ROCm 6 預計將于本月晚些時候與 MI300 AI 加速器一起推出。看看 ROCm 6 與 NVIDIA CUDA 堆棧的新版本(它的真正競爭對手)相比如何,將會很有趣。
G593-ZX1/ZX2系列服務器
AMD還展示了一種配置是Gigabyte的G593-ZX1/ZX2系列服務器,它提供多達8個MI300X GPU加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W的電源,總功率為18000W。
據介紹,該集成了8個MI300X GPU的加速器平臺,相比NVIDIA HGX H100平臺,帶來的提升包括:
2.4倍更高的HBM3內存(1.5 TB vs. 640 GB)
1.3倍以上的計算FLOPS(10.4 PF vs. 7.9 PF)
類似的雙向帶寬(896 GB/s vs. 900 GB/s)
類似的單節點環形帶寬(448 GB/s vs. 450 GB/s)
類似的網絡功能(400 GbE vs. 400 GbE)
類似的PCIe協議(PCIe Gen 5 128 GB/s)
據semianalysis此前報道,微軟、Meta、甲骨文、谷歌、Supermicro/Qunta-direct、亞馬遜等公司已經向AMD下了不同數量的MI300系列訂單。
今天,微軟也宣布將評估對AMD的AI加速器產品的需求,評估采用該新品的可行性。Meta公司也宣布將在數據中心采用AMD新推的MI300X芯片產品。甲骨文也表示,公司將在云服務中采用AMD的新款芯片。
此前市場預計AMD的MI300系列在2024年的出貨約為30~40萬顆,大客戶為微軟、谷歌,若非受限臺積電CoWoS產能短缺及英偉達早已預訂逾四成產能,AMD出貨有望再上修。
值得注意的是,在不久前的財報會議上,AMD CEO蘇姿豐(Lisa Su)表示,“基于我們在人工智能路線圖執行和云客戶購買承諾方面取得的快速進展。
根據預計,隨著全年收入的增加,數據中心GPU的收入在第四季度將約為4億美元,2024年將超過20億美元。這一增長將使MI300系列成為AMD歷史上銷售額快增長至10億美元的產品。
目前,在生成式AI的熱潮之下,英偉達憑借其AI芯片的出色性能及CUDA的生態優勢,在云端AI芯片市場占據者壟斷優勢。不過,由于英偉達的AI芯片價格高昂以及供應短缺,云服務及AI技術廠商們處于成本及多元化供應鏈安全考慮,也使得AMD和英特爾等競爭者有了更多的機會。
Ryzen 8040系列發布:主頻高達5.2 GHz,AI性能提升60%
代號為“Hawk Point”的Ryzen 8040系列APU是專為客戶端和消費類 PC 設計的處理器,主要針對筆記本電腦市場,其中高端的版本可面向AI PC。
AMD Ryzen 8040系列配備了與上一代相同的4nm Zen 4 CPU 核心架構,多 8 核/16 線程,只不過主頻提高到了5.2 GHz;
擁有相同的 RDNA 3 圖形核心架構,高達 Radeon 780M iGPU(12 個計算單元);
升級了XDNA NPU,擁有16TOPS的AI算力,AI性能相比上一代提升了60%。
TDP 范圍為 15-54W。將于2024 年第一季度推出 PC 產品。
該產品線主要分為三個部分,首先是高端 Ryzen 8045HS 系列,它將成為具有高時鐘速度的佼佼者,然后是更主流的 Ryzen 8040HS 系列,以及專為功耗優化平臺設計的入門級 Ryzen 8040U 系列。
具體來說,AMD Hawk Point 系列共有 9 個 Ryzen 8040 SKU。首先是Ryzen 8045HS SKU,其中包括 Ryzen 9 8945HS、Ryzen 7 8845HS 和 Ryzen 5 8645HS。
這三款芯片與 Ryzen 9 7940HS、Ryzen 7 7840HS 和 Ryzen 5 7640HS SKU 具有相同的規格,多 8/6 個核心、Radeon 780M/760M iGPU、高達 5.2 GHz 時鐘速度、16 MB 總 L3 緩存和 35- 54W TDP。
AMD Ryzen 8040HS SKU,主要有 Ryzen 7 8840HS 和 Ryzen 5 8640HS。
這兩個 SKU 設計為低功耗產品,目標功率為 20-30W。
Ryzen 7 8840HS APU 具有 8 核、16 線程、16 MB 緩存、Radeon 780M iGPU,時鐘速度高達 5.1 GHz,而 Ryzen 5 8640HS APU 具有 6 核、12 線程、16 MB 三級緩存、Radeon 760M iGPU和高達 4.9 GHz 的時鐘。
這些芯片將配備較低的基本時鐘,并具有額外的熱量/功率限制,以滿足功率受限的 PC 的要求。
后,AMD Ryzen 8040U SKU,其配置再次與 Ryzen 7040U SKU 相同。
有四種 SKU,包括 Ryzen 7 8840U、Ryzen 5 8640U、Ryzen 5 8540U 和 Ryzen 3 8440U。8540U 和 8440U 缺少 NPU,因為它們基于包含Zen 4 和 Zen 4C 內核的較小混合芯片。
這些低功耗解決方案沒有包含專用的 XDNA NPU。這些 SKU 僅配備 Radeon 740M iGPU,其中包含 4 個計算單元。
談到使用更小的 Zen 4C 內核的優勢,明顯的一個是更小的芯片尺寸,這可以帶來更高的密度和更高的功率效率。AMD 表示 Zen 4C 核心提供:
更高的效率:具有相同 IPC 的較小內核可以使用更少的功率來提供低于 15W 的更高性能。
高級版的可擴展性:具有相同 IPC 的較小內核開啟了高端市場未來內核數量增加的潛力。
入門級的可擴展性:具有相同 IPC 的較小內核使 AMD 能夠為消費者提供更多選擇。
全新的AMD Ryzen 8040“Hawk Point”APU 系列的一個主要目的是吸引買家進入 AI PC 生態系統。
即將推出的 Windows 版本 Windows 12 在人工智能方面預計將是一件大事,有傳言強調,主要要求之一將是具有足夠 TOP 的專用 NPU 來處理新操作系統的人工智能處理功能。
因此,AMD 升級了這些新 APU 上的 NPU,可提供多達 16 TOPS 的 AI 計算能力。
AMD 自己也宣稱Ryzen 8040系列使用 Llama 2 和 Vision 模型的性能提升了 40%。AMD 還致力于通過驅動程序和 Ryzen AI 軟件套件的各種改進來微調其 ML 和 AI 性能。
值得注意的是,很快英特爾即將在美國當地時間12月14日正式發布面向AI PC全新酷睿Ultral處理器。而在此之前,高通也已經推出了面向AI PC的驍龍 X Elite處理器。
據市場研調機構Canalys新的預測顯示,2024年個人電腦(PC)出貨量有望同比增長8%至2.67億臺。而這其中,AI PC將是增長動能之一,2024年AI PC比重將達19%,出貨量將超過5000臺。
本文鏈接:http://www.www897cc.com/showinfo-24-39317-0.htmlAMD強AI芯片發布:性能是英偉達H100的1.3倍!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com