如今 AI 的生意越做越大,從出圈爆火,到千行百業都開始擁抱 AI,越來越多的企業,都會將 AI 導入到他們的生意模式當中。預計到 2026 年有超過 3000 億美金將投入到生成式 AI 當中,這其中包括硬件、軟件、解決方案等。50% 以上的邊緣應用也會采用 AI 技術。到 2028 年有 80% 以上的 PC 都會轉換成 AI PC,通過 AI 可以提升大家在 PC 上的生產力。還有 80% 以上的公司,也會在 2026 年之前會導入某種程度的生成式 AI 以提高企業生產力。
各行各業都在積極的擁抱 AI,這離不開強大的算力支持,英特爾在去年 AI 風頭正勁的時候推出了第五代英特爾至強可擴展處理器,為云端 AI 能力帶來了全新的體驗。
第五代至強最多擁有 64 個核,并引入了諸多 AI 特性,如 AMX、AVX-512 指令集等,并通過性能的提升,對生成式 AI 應用帶來更快的體驗。第五代至強可擴展處理器內存達 5600MT/s,三級緩存進一步提升,加速處理器的數據交換。在軟件生態上英特爾也進行了很大投入,目前,英特爾上傳了 300 個以上的深度學習模型到社區,也支持了 50 個以上的基于機器學習的、且基于第五代至強優化過的模型,這些開發者都可以調用。針對開發者,英特爾同步更新了其 AI 開發軟件,可以在第五代至強上的應用做到較大優化,針對主流大模型、生成式 AI 模型的框架,如 PyTorch 和 TensorFlow,可以無縫拓展至英特爾至強可擴展處理器上。
針對第五代至強可擴展處理器的諸多變化,英特爾市場營銷集團副總裁、中國區數據中心銷售總經理兼中國區運營商銷售總經理莊秉翰表示,“基于硬件和軟件的優化,第五代至強和第四代至強相比,在 AI 訓練、實時推理、批量推理上,基于不同的算法,都可以看到不同性能的提升,最高可提升 40%。”
莊秉翰表示,“對新興的,尤其是基于云原生的設計,我們提供能效核,每瓦性能可以做到相對極致,而且因為它的核比較精簡,可以放更多高密度的核數到每一款的 CPU 和服務器,所以它會支持面向云的高密度超高能效的運算進行能效的優化。在近期對于產品淘汰換新的要求中,有一個重要考量因素就是能效比,而我們在今年推出的能效核,也是符合國家對設備淘汰換新的要求。”
?第五代至強大調整,性能更強功耗控制更好第五代英特爾至強可擴展處理器帶來了五項升級,在制程工藝方面,第五代至強采用 Intel 7 制程,從第四代至強到第五代至強,英特爾也關鍵的技術指標做了改進,特別是在系統的漏電流控制和動態電容方面,這兩方面的指標都對整個晶體管的性能表現有比較大的影響。通過這些調整,整體上第五代至強在同等功耗下的頻率可以提升 3%。
芯片布局方面,通過把四片芯片改成兩片芯片的設計,可以更好的對芯片的面積進行控制。通過 MDF 和 SCF 連接,在第五代至強可進一步實現芯片之間的高效互連。
在關鍵表現上,第五代至強做了如下調整:
?升級到 Raptor Cove 核心。
?核心數增加,從最多的 60 核升級到 64 核。
?LLC 大小從 1.875MB 增加到 5MB。
?DDR 速度從 4800MT/s提升到了 5600MT/s。
?UPI 速度從 16GT/s提升到 20GT/s。
?SoC 芯片拓撲結構更改,4 芯片封裝改為 2 芯片封裝。
?待機功耗降低。
待機功耗下降是通過英特爾全集成供電模塊(FIVR),實現不同場景下節電優化。在性能能效方面,與第四代至強相比,第五代至強有兩個數據提升比較明顯,一個是常規的整數計算,第五代至強 SPEC integer 和整數相關的一系列的性能評價指標有 21% 的提升。針對 AI 負載,性能提升更多達到 42%。
為了達到這一性能提升,英特爾引入了新的 Raptor cove 核心并將四芯片封裝改成兩個芯片,這樣可以減少芯片間的功耗,把更多功耗放在處理器的性能提升上。另外,DDR 的頻率以及 LLC 的提升,這些都是和內存帶寬相關的業務,有更好的性能表現。
在三級緩存上,第五代至強每個模塊的三級緩存容量達到了 5MB,所以這款芯片有高達 320MB 緩存,如果數據集不是很大,大部分的數據都可以放在 LLC 緩存當中,大量減少對內存的訪問。而在數據停留在緩存里面和到內存去訪問,能帶來的性能收益是比較大的。第五代至強在設計上做到同頻同延遲下密度提升 30%。
內存方面,第五代至強 DDR 速度從 4800MT/s提升到 5600MT/s,英特爾做了很多優化,包括一些 MIM 的內存、基板上走線的提升以及片上的低噪聲的供電措施等,還通過 DFE 功能盡可能的減少碼間干擾(ISI)。
軟件解決方案發展迅速,充分利用第五代至強性能如今數字化又有了新的需求,英特爾通過新的計算范式支持新的數字化需求。云計算是 AI 時代離不開的話題,AI 時代下,存在三個瓶頸,一是算力,二是數據,三是工程化能力。到了 AI 時代,數據中心的耗電量問題,也是擺在企業面前的一座大山。如何提升能效?英特爾的技術專家提出兩種方式,一是為前端客戶提供智能,二是自身的底層設施智能化。在過去的 10 年,英特爾致力于構建一個完備的生態,通過軟、硬件結合幫助生態合作伙伴們充分挖掘和利用底層 CPU 能力。
第五代至強可擴展處理器在 AI 推理訓練上最高提升了 14 倍,基礎架構的存儲能夠達到 2.8 倍,網絡邊緣可以達到 3.2 倍,高性能計算能達到 3 倍,數據分析可以達到 3.7 倍,這些綜合起來可以獲得了多維度的提升,L3 緩存增加,受益最大的是數據庫,AI 和大數據分析也會從 L3 的提升中受益。核數增加之后,“紅利”最大的是科學計算和大數據。核之間 UPI 總線也會越來越快,所以核數多少對于 AI / 大數據比較重要。當然若是底層主頻高了,內存帶寬大了,4800MT/s提升至 5600MT/s了,那么大家都能獲益。在 AI 當中,通過英特爾 AMX 加速器專門針對矩陣運算,性能便會大幅提升。
英特爾在第五代至強產品上充分挖掘 CPU 的能力,通過不同層次的深度挖掘,讓 CPU 更適合 AI 場景,成為 AI 時代全能的大俠。
第五代至強可擴展處理器將持續保持至強平臺性能的領先地位,與第四代至強可擴展處理器相比,其 AI 推理的高性能提升高達 42%,通用計算性能增益 21%。
英特爾擁有開放的生態,也幫助行業伙伴直接使用,并很好帶動整個生態的發展。英特爾始終致力于在 CPU 上部署 AI,并基于 OpenVINO 對整個模型進行優化、量化。包括推薦、語音識別、圖像識別、基因測序等,英特爾均做了大量的優化,尤其是推薦系統,其模型非常大,當 GPU 無法運行的時候,用 CPU 反而是主流的。因為 GPU 不夠的時候,就意味著需要跨 GPU,或者說和 CPU 有頻繁交互。那么,跟主存有頻繁交互的時候,實際上使用 CPU 會更快。因此,對于推薦系統、大模型、稀疏矩陣等,用 CPU 效率更高。
對于通用的 AI 工作負載,英特爾采用 AMX 和 AVX-512 兩個指令集,基于 OpenVINO 進行優化。在推理的過程中,指令集上可以進行切分,通過加速器定向加速某一部分,整個效果替代傳統的基于 GPU 的 AI 模型。
依靠第五代英特爾至強可擴展處理器的硬件特性包括對 AI 的支持及內存帶寬和吞吐量的提升使得 AI 推理能力也得到了增強,對于最終企業客戶而言帶來了整體性能的提升。配合軟件優化使得在 CPU 上進行大模型推理成為可能。CPU 在推理能力上可以與 GPU 媲美,通過 oneCCL 的加持,甚至可以支持 700 億參數的模型推理,延遲在 100ms 以內。
本文鏈接:http://www.www897cc.com/showinfo-26-78151-0.html生成式 AI 算力新臺階,第五代至強可擴展處理器詳解
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com