前不久的英特爾 Innovation 2024 峰會上,英特爾面向數據中心市場正式推出了全新的至強 6 處理器系列,這一系列處理器分為能效核(代號 Sierra Forest)和性能核(代號 Granite Rapids)兩種版本。
根據英特爾至強 6 的產品路線圖,從本月到 2025 年 1 季度,將有 2 個系列至強 6 能效核處理器和 5 個系列至強 6 性能核處理器陸續上市。其中 Xeon 6700E 系列將于 6 月 6 日,正式在中國大陸上市。
具體 SKU 系列如下:
至強 6 能效核:Xeon 6700E / 6900E
至強 6 性能核:Xeon 6900P / 6700P / 6500P / 6300P / 6 SoC
當下企業用戶對人工智能的關注度空前絕后,背后有著巨大的市場等待開發,想要更好的推進 AI 應用,很大程度上也是需要服務器算力支持,服務器性能是一方面,另一方面則是能耗,能耗是數據中心的主要支出來源,更高性能和更低功耗這是許多企業所追求的。另外,軟件通用性、可靠性、速度和延遲這些都影響到服務的穩定和效率。
針對上述數據中心市場的需求變化,英特爾面向數據中心市場正式發布了至強 6 處理器,這一系列處理器包含能效核和性能核兩個版本。這也是英特爾第一次將至強產品分拆為兩個系列。
其中能效核有著更好的能效表現,優勢在微服務、云原生、簡單的數據庫或是網絡應用等,這些服務需求對服務器單核并沒有很高的算力密度要求;性能核則專注設計、大數據、AI 推理、游戲等高負載,對單核性能要求較高的應用場景。
從五年一個周期來看,至強 6 能效核在其擅長領域上有 2 倍到 3 倍的性能提升。性能核與上一代相比則有 2 倍以上的性能提升,其中性能和擅長領域則是人工智能、高性能計算、通用計算等場景。
具體來看至強 6 能效核,其能效比相比于第二代至強有著大幅的提升,在轉碼表現上,其最高性能每瓦有 2.6 倍的提升,最高性能則有 4.2 倍提升,算力提升的同時,功耗也有很好的下降。
相比傳統的 200 個機柜的數據中心,使用至強 6700E 系列則可以大幅減少機柜數量,只需原先 1/3 的機柜量就能達成之前同等算力。在與英特爾的前期測試中,ebay 相比于競品有 25% 的性能功耗比優勢,相比于現在第三代至強則有著 90% 的性能功耗比優勢。SAP 則通過至強 6 能效核做到了大幅的能源節約,通過至強 6 能效核跑之前相同的負載節省 60% 的電能。
根據目前英特爾的節奏,至強 6 能效核將在本月率先上市并推出第一款產品 6700E,近年三季度將會推出 6900P,明年也會陸續推出更多型號。至強 6 能效核為什么能帶來這么多的能效提升,這很大一部分原因是英特爾對至強 6 進行全新的設計,并以此達成這些能效目標。
英特爾至強 6 的能效核與性能核在架構設計都采用了相同的底層技術和硬件模塊,其中能效核的 6700 系列平臺是傳統至強平臺的延續,支持 1/2/4/8 路可擴展性。核心上來看,相比于第五代的 64 個性能核增加到 86 個,能效核最高達到 144 個,有著 30% 以上的核心數提升。內存速度也從之前的 5600MT/s提升到 6400MT/s,對于一些對內存帶寬要求更多的應用,英特爾在至強 6 平臺上,提供了 MCR 技術,它可以進一步把內存速度從 6700 提升到 8000MT/s,當應用到一些高帶寬需求的業務時能夠有非常好的表現。
基于性能核的 6900 系列則最高配備 128 核心性能核,288 個核心能效核內存帶寬可以通過 MCR 技術提升至 8800MT/s,其內存總體帶寬達到上一代的 2.36 倍,而且在增加內存核心數量的同時,它的內存帶寬也有著更大幅度的增加。
分別代表著能效核與性能核的 6700 系列和 6900 系列都配備了更多的 PCIe 通道和 CXL 接口以及兩個 CPU 互聯的 UPI 帶寬。性能核包含了如 AVX-512、AMX 這樣的向量、矩陣運算單元,為高并發,特別是像 AI、科學計算類的業務提供了非常好的性能。同時隨著 MCR 內存技術的加持,也可以為高性能計算核心提供很高的帶寬支持。
在亂序的執行單元方面,性能核提供了 512 長度的亂序執行引擎,能夠更好的優化編程中的軟件指令,可以更大程度使用整個后面的執行引擎。
能效核在服務器端新引入的一個產品版本。它的特點是針對一些功能進行了簡化,比如它并不具備 AVX-512 和 AMX 的功能,針對 L2 Cache 也有所調整。性能核每個核是 2M,而能效核平均每個核是 1M,L3 的容量也不一樣。通過這些調整,讓每個能效核所占的硅片面積大幅度降低,功耗所有減少。所以在同平臺、同面積、同功耗下,至強 6 可以提供更多的核心數量、更大吞吐量和更低的能耗。
從封裝構造上來看,我們注意到第五代至強與至強 6 在設計理念上有很大的變化。第五代至強采用了 EMIB 技術將兩個模塊結合起來,這種設計巧妙地突破了傳統研磨尺寸對模塊尺寸的限制,使得單個處理器得以集成更多復雜的邏輯功能,從而大幅提升了性能和功能性。
而至強 6 的設計理念有了變化,并不是簡單的把模塊的大小一分為二,而是按照功能塊進行劃分。可以看到,右側圖的中間是計算模塊,上下兩部分是 I / O 模塊,I / O 模塊更多是和高速 I / O 相關,而且對密度要求并不高,所以使用 Intel 7 這樣相對比較成熟的工藝來做 I / O 模塊,而計算模塊對計算密度及核心邏輯密度要求比較高,因此則采用最新的 Intel 3 制程工藝。從模塊封裝和 SoC 的構造來看,第五代至強到至強 6 其實是有比較大的改變的。
具體來看,至強 6 個產品構成,基于其中 6700 系列的有基于能效核的計算模塊和 2 個 IO 模塊;還有基于性能核的三款 SKU,XCC、HCC 與 LCC 分別代表高中低檔不同核心數版本的模塊。
另外兩款基于 6900 系列的產品,IO 模塊的形狀和數量和尺寸和 6700 系列上的是一樣的,只是計算核心數量不同,6900 系列性能核版本采用了 3 篇 XCC 計算模塊,從計算核心數量來說,配備性能核的 6900 的核心數量大約增加了 50%。而能效核是采用了和配備能效核的 6700 同樣的計算單元,只是數量上從 1 片增加到 2 片,核心數量從 144 個增加到了 288 個。
實現這樣一個模塊化設計有幾個關鍵要素,首先是要有 Fabric 技術,能夠把計算模塊和 I / O 模塊有機結合起來。二是集成多個模塊的系統架構,即面對多個模塊時,也能通過 Fabric 技術無縫地將它們連接成一個整體。想象一下,每個模塊內部都擁有縱橫交錯的通路網絡,而當這些模塊通過集成多個模塊架構相互連接時,它們的通路不僅得以延續,還能相互融合,共同構建起一個規模更大、更為強大的通路系統。
這種設計不僅優化了數據傳輸效率,還極大地擴展了處理器的功能和性能。而這些通路的結合,就是通過 EMIB 來相互連接,EMIB 技術可以實現非常高密度的模塊之間的橋接,能夠讓模塊和模塊之間達到 1TB / s 的速度,這樣可以使跨模塊連接做到帶寬無損通信。
接下來,具體來看計算模塊的內部結構,這里包含了中間的核心部分(包括 L1 / L2 緩存)、緩存及內存訪問相關的控制器、L3 緩存以及橫向和縱向的 Mesh Fabric,在核心兩側是 2 個 DDR5 或 MCR 內存控制器。這樣的好處是每個模塊內部的核心緩存以及內存訪問都是在比較小的范圍內,因此它的訪問延遲比較低。6900 或是 6700 的 XCC 版本多個模塊之前又形成了無縫連接,用很小的延遲,實現了很好的性能擴展。
接下來是 IO 模塊部分,IO 模塊與計算模塊也是通過 Fabric 以及 EMIB 相連,這里繼承了很多 IO 接口,比如 PCIe、CXL、UPI,QAT、DSA 等加速單元,以及 RDT 資源調度等功能。
這里特別說明一點,CXL 是英特爾推出的技術,在此前的第四代、第五代至強產品上都有相關功能,這次升級的 CXL 2.0 首次應用在至強 6 中。CXL 2.0 為 Type 3 設備引入了增強功能,包括鏈路細分、QoS 控制等,從而為 Type 3 設備客戶特別關注的使用場景,提供了更全面的功能特性。
Type 3 設備用戶可以使用的不同的模式實現內存擴展。內存擴展的第一種模式是 CXL Numa node,它允許將系統的標準 DRAM 內存和通過 CXL 技術擴展的內存作為兩個獨立的 Numa 節點,并且可以在軟件層面進行控制。通過在系統軟件或應用層進行內存內容的分層管理,可以優化配置并屏蔽上層業務,這也是 CXL 一直采用的管理模式之一。
但是對于某些 ISV 或是無法對自身軟件進行修改優化的企業來說,他們依然希望能夠用一個對軟件透明,并從硬件層面上提供的一個整體 CXL 以及和系統原生 DRAM 內存的解決方案。針對這樣的硬件管理方案,英特爾提供了兩種模式。一種叫異構交織(Hetero Interleaved)模式,它是把系統原生的 DRAM 內存和 CXL 內存,從地址上進行混合。從帶寬上來看,每個 CXL 內存交織的通路和 DRAM 交織的通路是平衡的,因此 CXL 延遲略有區別,但整體對系統的吞吐影響并不大。通過這樣一個異構交織功能,可以給系統平臺提供更大的內存帶寬,而且應用程序并不會直接感知或是直接管理到這個 CXL 內存。這是在至強這個平臺提供第一種關于硬件的 CXL 管理方式。
第二種方式是通過平面存儲器模式,這種模式是讓 CXL 和原生 DRAM 做一個硬件輔助的分層,在 1:1 的情況下,會盡量把 CXL 常用的數據放在 DRAM 中,雖然一部分數據放在 CXL 當中,但是隨著這樣的一個硬件分層管理,就可以非常接近于完全 DRAM 的性能表現。
我們看到,MongoDB 數據庫表現在不同模式之間性能還是有所差距的。左邊是評估場景,一種情況是在系統中設置了 512G 的 DDR5 內存,另一種是通過平面存儲器模式,其中 256G 是 DRAM,另外 256G 是 CXL 內存。當數據容量為 125G 的時候,這兩者之間只有 1% 的性能差距,而當數據容量為 256G,即與總容量幾乎一樣時,采用硬件分層的引擎只有 2% 的性能差距,若是數據量進一步增加,也只有 5% 的性能差距。
由此可見,采用平面存儲器模式可以讓用戶使用譬如 DDR4 這樣低成本的 CXL 擴展方式,在擴展系統內存容量的同時,將對其業務性能的影響降到最小。
接下來,再來看下至強 6 的性能亮點。至強 6700 系列產品采用能效核以實現更高的密度和并發度,且擁有優秀的能效比。與第五代至強處理器相比,至強 6 能效核整數吞吐性能提升了 25%,另外在媒體編解碼、網絡防火墻等業務上均有 20%、30% 甚至高達 40% 的提升。
而相較于性能方面的提升,其能效提升更加顯著,可以看到絕大多數業務均有 30%、40% 甚至更高的能效提升,這便是采用能效核處理器為整個平臺帶來的收益。
對于數據中心客戶而而言,配備英特爾至強 6 能效核產品后,算力的提升能替換更多過時算力,以此騰出更多的空間部署更多算力,進一步幫助數據中心客戶做到了很好的成本控制。
從五年產品更新的角度來看,至強 6 能效核與第二代至強處理器相比有 3 倍以上的性能提升,同時其能效方面也有超 2 倍的提升,且每個處理器的熱設計功耗也均在上升。
至強 6 處理器可實現與第二代至強 3:1 的替換比,即原來需要三個機架才能完成的任務,現在僅需要一個至強 6 機架即可完成。以整數吞吐和媒體解碼為例,可以看到整體機架級別的性能提升了 2.7-3.2 倍,每瓦性能提升 2.6-2.7 倍,這帶來的計算集群功耗節省以及碳排放節約是非常顯著的。
作為首批上市的至強 6 產品,至強 6 能效核首批 SKU 共 7 款,覆蓋 64-144 核,其他能效核與性能核版本,也將會在今年 3 季度和 2025 年 1 季度陸續推出。
總體來看,這次至強 6 的進化無疑是巨大的,性能大幅提升,能耗也得到了很好的控制,模塊化的設計也具有出色的擴展性。
本文鏈接:http://www.www897cc.com/showinfo-26-92497-0.html最高 288 核!英特爾至強 6 處理器詳解:新老型號性能 1 換 3,能效比大增
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com