過去三年,隨著問答式AI、生成式AI、智能體AI的風潮一浪高過一浪,整個科技行業(yè)都在被重塑,尤其是數(shù)據(jù)中心,這一根基深厚且規(guī)模龐大的市場,正經(jīng)歷前所未有的變革。
AI時代的數(shù)據(jù)中心,不但在算力上呈現(xiàn)井噴式爆發(fā),新的需求也在不斷出現(xiàn)、演變。
比如利用加速硬件和開放標準軟件滿足高算力需求,比如對高吞吐量和低時延都有了明確的要求,比如穩(wěn)定性、可靠性、兼容性方面的更苛刻要求。
更突出的矛盾就是數(shù)據(jù)中心耗電量的急劇攀升,預計到2026年全球數(shù)據(jù)中心能消耗德國一年的用電量,這就對計算基礎設施的能效和TCO成本有了明確的要求,可持續(xù)發(fā)展變得前所未有的重要。
在AI數(shù)據(jù)中心,不但需要高性能的GPU加速器,始終居于中樞位置的CPU處理器,也在新形勢下呈現(xiàn)出了全新的面貌。
【AI時代的至強6:性能再次飛躍】
Intel全新的至強6家族,從硬件設計到技術(shù)特性都充分考慮了AI數(shù)據(jù)中心的全新需求。
至強6在家族歷史上首次兵分兩路:其中至強6900E/6700E系列采用E核能效核,至強6900P/6700P/6500P/6300P系列則采用P核性能核。
至強6900系列作為旗艦,可提供多288個能效核(216MB三級緩存)或者128個性能核(504MB三級緩存),支持12個內(nèi)存通道、96條PCIe 5.0/CXL 2.0通道、6條UPI 2.0鏈路。
至強6700/6500系列定位主流,可提供多144個能效核或者86個性能核,支持8個內(nèi)存通道、88條PCIe 5.0/CXL 2.0通道、6條UPI 2.0鏈路。
如此豐富的SKU產(chǎn)品組合,可以靈活匹配不同類型的AI加速系統(tǒng),精準滿足客戶的不同需求。
技術(shù)方面,至強6系列支持高達6400MT/s的DDR5內(nèi)存,相對于上一代,帶寬提升1.7倍,還首發(fā)支持全新的MRDIMM內(nèi)存。
至強6900系列提供多達12條內(nèi)存通道,內(nèi)存也高達8800MT/s,帶寬因此大幅提升2.3倍,可以更好地滿足AI等領(lǐng)域的大帶寬需求。
PCIe 5.0帶來了更高的I/O帶寬,提升多1.2倍;UPI 2.0帶來了更高的多路并行帶寬,高提升1.8倍;支持CXL 2.0,可以進一步拓展內(nèi)存容量和帶寬。
另外,過去幾代至強陸續(xù)集成了多種適配不同業(yè)務的IP加速器,包括QAT數(shù)據(jù)保護與壓縮加速器、DSA數(shù)據(jù)流加速器、IAA存內(nèi)分析加速器、DLB動態(tài)負載均衡加速器等等,都在至強6上進一步發(fā)揚光大。
比如QAT,壓縮解壓時相當于大約6.8個CPU核心,而至強6內(nèi)置4個QAT,可以卸載24-32個CPU核心的計算能力。
另外,AMX高級矩陣擴展加速器作為集成在CPU內(nèi)部的AI加速器,可以大幅提升CPU的AI處理能力。
得益于AMX的加持,至強6 128核心的INT8整數(shù)算力可達512 TOPS,BF16/FP16浮點算力也有256 TOPS,分別是傳統(tǒng)AVX-512指令下的8倍、16倍。
在多種工作負載中,尤其是AI負載,至強6系列都可以帶來顯著的性能提升,同時保持類似甚至更低的功耗,可以說能效取得了極大的進步。
在通用計算、Web服務、科學計算、AI等不同領(lǐng)域,至強6900P系列相比上代至強鉑金8592+的性能提升普遍超過2倍,同時每瓦性能普遍提升了1.4倍以上。
有趣的是,無論性能還是能效,提升大的都恰好出現(xiàn)在AI領(lǐng)域,比如Llama2-7B摘要生成(bf16格式),至強6900P系列的性能可提升超過3倍,每瓦性能也提升超過2倍。
如果同樣都是64核心,至強6700P系列對比上代至強鉑金8592+,可以實現(xiàn)全場景20%上下的性能領(lǐng)先,而功耗基本相同甚至還更低一些。
至強6700P系列多有86個核心,對比上代核心更多,但功耗并未增加,而性能可以大幅提升40-50%。
對于云計算應用,至強6系列同樣是上佳之選,可以有效提升性能與能效,并顯著降低成本。
對比五代至強,至強6系列在云計算領(lǐng)域可以實現(xiàn)2倍的核心密度提升、20%的單核性能提升、60%的能耗比提升,終帶來30%的代際TCO成本收益。
事實上,至強6系列還是AI加速系統(tǒng)中主控CPU的不二之選,這方面Intel與NVIDIA也一直有著深度合作。
通過雙方的共同努力,至強6系列已經(jīng)完美適配NVIDIA MGX、HGX AI加速系統(tǒng)的要求,它們可以靈活配備1/2個CPU、4/8/16個GPU,其中CPU可選32核心的至強6737P、64核心的至強6761P/6767P、72核心的至強6960P(可配置為48核心以提升頻率)。
新款的NVIDIA DGX B300系統(tǒng),更是獨家選擇了雙路64核心的至強6776P作為主控CPU,它和72核心的至強6962P、64核心的至強6774P一樣,都是Intel特別為AI加速系統(tǒng)主控CPU設計的專屬型號。
當然,至強6系列的其他型號同樣可用于AI加速系統(tǒng),包括能效核系列。
【火山引擎第四代ECS實例:全面展現(xiàn)至強6 AI實力】
正是憑借這一系列的獨特優(yōu)勢,至強6系列不但是傳統(tǒng)數(shù)據(jù)中心的上佳之選,更是AI加速系統(tǒng)的優(yōu)解,得到了大量客戶的積極采納。
比如火山引擎與Intel密切合作,推出了配備至強6性能核處理器的第四代彈性計算實例(ECS)家族,搭配火山引擎自研DPU、自研服務器,取得了全方位提升,為高速增長的AI負載提供強大的支撐。
火山引擎的第四代ECS家族包括基礎型實例g4i、算力增強型實例g4ie、I/O增強型實例g4il,都憑借至強6系列得到了大幅性能提升,無論通用互聯(lián)網(wǎng)場景,還是算力密集場景,又或者I/O密集場景,莫不如此,高提升幅度可達30%。
另外,第四代ECS的網(wǎng)絡和存儲能力也得到了全面升級,比如整機網(wǎng)絡和存儲帶寬提升100%,IOPS和PPS性能都提升了30%,此外CPU頻率也有了20%的提升。
除了通用場景的性能提升,火山引擎也在AI相關(guān)應用上做了深度優(yōu)化。
基于新第四代ECS,火山引擎聯(lián)合Intel,特別在RAG應用上深度優(yōu)化。
針對RAG應用的四個主要環(huán)節(jié),包括上傳文檔處理、嵌入向量化、向量數(shù)據(jù)庫檢索、重排序,充分利用至強6處理器的AMX加速器,大大縮短了各環(huán)節(jié)的任務耗時,多甚至減少了90%,從而有效助力RAG應用全鏈路提速。
WDL模型推理同樣在至強6系列處理器上得到了深度優(yōu)化提速。
WDL是廣泛應用于推薦系統(tǒng)和廣告投放領(lǐng)域的經(jīng)典模型,由廣度模型(wide)與深度模型(deep)構(gòu)成。
其中,廣度模型負責捕捉低階特征組合,如用戶歷史點擊行為,從而強化對已知模式的記憶能力;
深度模型則通過非線性變換,學習高階特征組合,挖掘用戶興趣與商品屬性間的潛在關(guān)聯(lián),實現(xiàn)數(shù)據(jù)的泛化表達。
隨著互聯(lián)網(wǎng)用戶規(guī)模不斷擴大,搜索推薦場景的數(shù)據(jù)量呈指數(shù)級增長,對算力需求顯著增加,但效率無法得到同步提升。
面對這一挑戰(zhàn),火山引擎與Intel進行了深入研究,通過AMX加速器優(yōu)化,WDL模型推理性能實現(xiàn)了質(zhì)的飛躍,吞吐能力提升高達114%,顯著提升了模型推理效率。
此外,針對云上AI場景,火山引擎也特別構(gòu)建了端到端的全鏈路安全方案。
首先,基于CPU TDX和GPU CC硬件機密計算能力,火山引擎在固件、內(nèi)核、虛擬化、操作系統(tǒng)做了全方位聯(lián)合深度優(yōu)化,而且將對性能的影響降至低。
其次,火山引擎提供了機密容器、密鑰管理、基線管理、遠程證明、安全RAG、數(shù)據(jù)預處理、數(shù)據(jù)后處理等豐富的安全能力,保護AI應用中的數(shù)據(jù)安全。
【至強CPU搭檔銳炫GPU:AI一體機加速本地推理】
AI大模型時代,除了云上業(yè)務,大量2B、2C業(yè)務都開始部署在本地一體機上,應用場景越來越多。
在這方面,Intel不僅有至強CPU處理器,銳炫GPU也有獨到之處,二者搭檔組成智算AI一體機,大大提升本地私有化推理的效率,推動企業(yè)應用和業(yè)務的創(chuàng)新。
尤其是在DeepSeek引領(lǐng)的開源大模型的支持下,AI一體機的技術(shù)門檻大幅降低,非常有利于加速普及。
一臺典型的Intel AI一體機或者說工作站,通常采用一顆至強CPU,搭配一到四塊銳炫GPU。
其中,GPU可選早已發(fā)布的銳炫A770 16GB,也可選新發(fā)布的銳炫Pro B60 24GB,二者都有大容量顯存。
AI應用對于顯存的需求相信大家都有所耳聞,大顯存可以顯著提升AI應用性能,比如支持更大參數(shù)規(guī)模的大模型、更長的上下文長度、更多的并發(fā),從而擴展應用場景。
銳炫Pro B60是在臺北電腦展上剛剛發(fā)布的,已經(jīng)有多家伙伴推出了不同的產(chǎn)品方案。
比如華擎的被動散熱靜音,華碩、藍戟、銘瑄、撼與、傲世的渦輪風扇,Senao的開放式三風扇,銘瑄甚至還做了一款雙GPU,提供多達48GB顯存。
在進行本地推理的時候,單獨一塊GPU顯卡往往是很難應付大參數(shù)量的大模型的,即便是進行量化之后也很難,比如INT8量化后的DeepSeek-R1 32B蒸餾模型,也會輕松吃掉超過32GB的顯存,而單獨一塊顯卡無論如何增加顯存,空間都不是無限的。
因此,多卡并行無疑是理想的解決方案,而且得益于大量開源軟件的支持,多卡底層通信也不再是難題,Intel就有自己的多卡通信庫oneCCL。
四塊銳炫A770并行可提供64GB顯存,可以基本運行滿血版的32B模型或者量化后的70B模型。四塊銳炫Pro B60并行,顯存更是多達96GB,本地運行大模型更加輕松自如。
有了足夠大的顯存,企業(yè)在AI應用中就可以靈活配置所需要的上下文擴展或者并發(fā)擴展。
單并發(fā)下的上下文長度,以往只有10K左右就夠了,但是如今32K都很普遍,不少大模型甚至已經(jīng)做到幾百K乃至1M,對顯存容量的需求也急劇增加,四卡并行做到96GB大顯存,就可以輕松滿足,比如一次性分析幾百頁的文件資料等。
固定上下文長度時的并發(fā)擴展,也是類似,并發(fā)越多,對顯存的需求就急劇增加,因為每一個會話都會產(chǎn)生大量的KV緩存和歷史記錄,而單卡甚至無法處理一個33GB體積大模型的單并發(fā),四卡并行就能滿足50個實例的并發(fā)。
小結(jié)
AI新時代,GPU加速器不僅備受矚目,也是企業(yè)投資的重點。
但是CPU處理器作為任何計算系統(tǒng)的指揮中樞,其重要性不但沒有下降,反而愈發(fā)凸顯,同樣要認真選好、優(yōu)化到位,才能釋放AI加速系統(tǒng)的全部實力。
至強6系列從設計之初就考慮了AI應用優(yōu)化加速,無論是在云端還是在本地,都給行業(yè)帶來了一股新的活力,實現(xiàn)了性能、能效的全新飛躍。
特別是性能核、能效核雙管齊下的全新設計,以及MRDIMM內(nèi)存的獨家支持、AMX加速器的增強等等,都為至強6帶來了廣闊的應用空間,可以靈活適應各種各樣的AI負載和場景。
再加上Intel廣泛而深遠的行業(yè)合作,至強6的種種針對性設計,都可以被挖掘出更大潛力,充分滿足從云端到本地、不斷涌現(xiàn)和升級的AI加速需求。
本文鏈接:http://www.www897cc.com/showinfo-24-164125-0.htmlAI新時代的Intel至強6:云端、本地雙飛躍!
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com