當前位置：首頁 > 科技 > 數碼

拿CPU搞AI推理誰給你的底氣

來源：責編：時間：2024-03-27 17:34:58 174觀看

導讀大模型的訓練階段我們選擇GPU，但到了推理階段，我們果斷把CPU加到了菜單上。量子位在近期與眾多行業人士交流過程中發現，他們中有很多人紛紛開始傳遞出上述的這種觀點。無獨有偶，Hugging Face在官方優化教程中，也

大模型的訓練階段我們選擇GPU，但到了推理階段，我們果斷把CPU加到了菜單上。

量子位在近期與眾多行業人士交流過程中發現，他們中有很多人紛紛開始傳遞出上述的這種觀點。

無獨有偶，Hugging Face在官方優化教程中，也有數篇文章劍指“如何用CPU高效推理大模型”：

拿CPU搞AI推理誰給你的底氣

而且細品教程內容后不難發現，這種用CPU加速推理的方法，所涵蓋的不僅僅是大語言模型，更是涉獵到了圖像、音頻等形式的多模態大模型。

拿CPU搞AI推理誰給你的底氣

不僅如此，就連主流的框架和庫，例如TensorFlow和PyTorch等，也一直在不斷優化，提供針對CPU的優化、高效推理版本。

就這樣，在GPU及其他專用加速芯片一統AI訓練天下的時候，CPU在推理，包括大模型推理這件事上似乎辟出了一條“蹊徑”，而且與之相關的討論熱度居然也逐漸高了起來。

拿CPU搞AI推理誰給你的底氣

至于為什么會出現這樣的情況，與大模型的發展趨勢可謂是緊密相關。

自從ChatGPT問世引爆了AIGC，國內外玩家先是以訓練為主，呈現出一片好不熱鬧的百模大戰；然而當訓練階段完畢，各大模型便紛紛踏至應用階段。

就連英偉達在公布的新季度財報中也表示，180億美元數據中心收入，AI推理已占四成。

由此可見，推理逐漸成為大模型進程，尤其是落地進程中的主旋律。

為什么Pick CPU做推理？

要回答這個問題，我們不妨先從效果來倒推，看看已經部署了CPU來做AI推理的“玩家”用得如何。

有請兩位重量級選手——京東云和英特爾。

今年，京東云推出了搭載第五代英特爾? 至強? 可擴展處理器的新一代服務器。

首先來看這款新服務器搭載的CPU。

若是用一句話來形容這個新一代的英特爾? 至強? 可擴展處理器，或許就是AI味道越發得濃厚——

與使用相同內置AI加速技術（AMX，高級矩陣擴展）的前一代，也就是第四代至強? 可擴展處理器相比，它深度學習實時推理性能提升高達42%；與內置上一代AI加速技術（DL-Boost，深度學習加速）、隔輩兒的第三代至強? 可擴展處理器相比，AI推理性能更是高提升至14倍。

到這里，我們就要詳細說說英特爾? 至強? 內置AI加速器經歷的兩個階段了：

第一階段，針對矢量運算優化。

從2017年第一代至強? 可擴展處理器引入高級矢量擴展 512（英特爾? AVX-512）指令集開始，讓矢量運算利用單條CPU指令就能執行多個數據運算。

再到第二代和第三代的矢量神經網絡指令 (VNNI，是DL-Boost的核心)，進一步把乘積累加運算的三條單獨指令合并，進一步提升計算資源的利用率，同時更好地利用高速緩存，避免了潛在的帶寬瓶頸。

拿CPU搞AI推理誰給你的底氣

第二階段，也就是現階段，針對矩陣運算優化。

所以從第四代至強? 可擴展處理器開始，內置AI加速技術的主角換成了英特爾? 高級矩陣擴展（英特爾AMX）。它特別針對深度學習模型常見的矩陣乘法運算優化，支持BF16（訓練/推理）和INT8（推理）等常見數據類型。

英特爾AMX主要由兩個組件組成：專用的Tile寄存器存儲大量數據，配合TMUL加速引擎執行矩陣乘法運算。有人把它比作內置在CPU里的Tensor Core，嗯，確實很形象。

這么一搞，它不僅做到在單個操作中計算更大的矩陣，還保證了可擴展性和可伸縮性。

英特爾AMX在至強CPU每個內核上并靠近系統內存，這樣一來可減少數據傳輸延遲、提高數據傳輸帶寬，實際使用上的復雜性也降低了。

例如現在若是將不超過200億參數的模型“投喂”給第五代至強? 可擴展處理器，那么時延將低到不超過100毫秒！

拿CPU搞AI推理誰給你的底氣

其次再看新一代京東云服務器。

據介紹，京東與英特爾聯合定制優化的第五代英特爾? 至強? 可擴展處理器的Llama2-13B推理性能(Token 生成速度)提升了 51%，足以滿足問答、客服和文檔總結等多種AI場景的需求場景。

拿CPU搞AI推理誰給你的底氣 △ Llama2-13B推理性能測試數據

對于更高參數模型，甚至是70B Llama2, 第五代英特爾至強可擴展處理器仍可勝任勝任。

由此可見，CPU內置AI加速器發展到現在，用于推理已能保證在性能上足夠應對實戰需求了。

像這樣建立在通用服務器基礎上的AI加速方案，除了可用于模型推理之外,還能靈活滿足數據分析、機器學習等應用的需求，夸張點說，一個服務器就能完成AI應用的平臺化和全流程支持。

不僅如此，用CPU做AI推理，也存在CPU與生俱來的優勢，例如成本，還有更為重要的——部署和實踐的效率。

因為它本身就是計算機的標準組件，幾乎所有的服務器和計算機都配備了CPU，傳統業務中也已然存在大量的基于CPU的現成應用。

這意味著選擇CPU進行推理，既容易獲取，也不需要導入異構硬件平臺的設計或具備相關的人才儲備，還更容易獲得技術支持和維護。

以醫療行業為例，過去CPU已廣泛用于電子病歷系統、醫院資源規劃系統等，培養出成熟的技術團隊，也建立了完善的采購流程。

以此為基礎，醫療信息化龍頭企業衛寧健康，就利用CPU構建了能夠高效、低成本部署和應用的WiNEX Copilot落地方案，這個方案已深度集成到衛寧新一代的WiNEX產品中，任何一家已采用該系統的醫院，都能迅速上崗這種“醫生AI助手”。

僅其一項病歷文書助手功能，就可以在8小時內，也就是在醫生下班后的時間里處理近6000份病歷，相當于三甲醫院12位醫生一天工作量的總和！

拿CPU搞AI推理誰給你的底氣

而且也正如我們剛才所提到的，從Hugging Face所提供的優化教程來看，只需要簡單的幾步，就可以讓CPU快速部署用于高效推理。

優化簡單、上手快，便是CPU真正在AI應用落地過程中的又雙叒一個優勢了。

這意味著任何或大或小的場景中，只要基于CPU的優化實現了一個單點的成功突破，那么它很快就可以實現精準且快速的復制或擴展，結果就是：能讓更多用戶能在相同或相近的場景中，以更快的速度、更優的成本把AI應用落到實地。

畢竟英特爾不僅是一家硬件公司，同時也擁有著龐大的軟件團隊。在傳統深度學習時代就積累了大量優化方法和工具，如OpenVINO? 工具包就在工業、零售等行業廣泛應用。

到了大模型時代，英特爾也深入與主流大模型如Llama 2、Baichuan、Qwen等深度合作，以英特爾? Extension for Transformer工具包為例，它就能讓大模型推理性能加速達40倍。

加之現在大模型所呈現的明顯趨勢就是越發地開始卷應用，如何能讓層出不窮的新應用“快好省”地落下去、用起來成了關鍵中的關鍵。

因此，為什么越來越多的人會選擇CPU做AI推理，也就不難理解了。

或許，我們還可以再引用一下英特爾CEO帕特·基辛格2023年底接受媒體訪問時所說的話，來鞏固一下各位的印象：

“從經濟學的角度看推理應用的話，我不會打造一個需要花費四萬美元的全是H100的后臺環境，因為它耗電太多，并且需要構建新的管理和安全模型，以及新的IT基礎設施。”

“如果我能在標準版的英特爾芯片上運行這些模型，就不會出現這些問題。”

AI Everywhere

回看2023年，大模型本身是AI圈絕對的話題中心。

但2024年剛開始，明顯能感覺到的趨勢就是各類技術進展，各行業應用落地進展都在加快，呈現一種“多點開花”的局面。

在這種局面下，可以預見的是還將有更多AI推理需求涌現，推理算力在整個AI算力需求中所占的比例只會增加。

比如以Sora為代表的AI視頻生成，業內推測其訓練算力需求其實比大模型少，但推理算力需求卻是大模型的成百上千倍。

而AI視頻應用落地需要的視頻傳輸等其他加速優化，也是CPU的拿手好戲。

所以綜合來看，CPU在整個英特爾AI Everywhere愿景下的定位也就明確了：

補足GPU或專用加速器覆蓋不到或不足的地方，為更多樣和復雜的場景提供靈活的算力選擇，在強化通用計算的同時，成為AI普及的重要基礎設施。

拿CPU搞AI推理誰給你的底氣

文章出處：量子位

本文鏈接：http://www.www897cc.com/showinfo-24-79716-0.html拿CPU搞AI推理誰給你的底氣

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：微星推出新款27寸電競顯示器：4K 160Hz屏、支持QD量子點技術

下一篇：專訪AMD Lisa Su博士：AI PC三位一體優勢在我！

標簽：

熱門焦點

紅魔電競平板評測：大屏幕硬實力

前言：三年的疫情因為要上網課的原因激活了平板市場，如今網課的時代已經過去，大家的生活都恢復到了正軌，這也就意味著，真正考驗平板電腦生存的環境來了。也就是面對著這種殘酷的
2023年Q2用戶偏好榜：12+256G版本成新主流

3月份的性能榜、性價比榜和好評榜之后，就要輪到2023年的第二季度偏好榜了，上半年的新機潮已經過去，最明顯的肯定就是大內存和存儲的機型了，另外部分中端機也取消了屏幕塑料支架
轎車從天而降電動車主被撞身亡超速搶道所致：現場視頻讓網友吵翻

近日，上海青浦區法院判決轎車從天而降電動車主被撞身亡案，轎車車主被判有期徒刑一年。案件顯示當時男子駕駛轎車在上海某路段行駛，前車忽然轉彎提速超車，
一文掌握 Golang 模糊測試（Fuzz Testing）

模糊測試（Fuzz Testing）模糊測試（Fuzz Testing）是通過向目標系統提供非預期的輸入并監視異常結果來發現軟件漏洞的方法。可以用來發現應用程序、操作系統和網絡協議等中的漏洞或
零售大模型“干中學”，攀爬數字化珠峰

文/侯煜編輯/cc來源/華爾街科技眼對于絕大多數登山愛好者而言，攀爬珠穆朗瑪峰可謂終極目標。攀登珠峰的商業路線有兩條，一是尼泊爾境內的南坡路線，一是中國境內的北坡路線。相
破圈是B站頭上的緊箍咒

來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之每年的暑期檔都少不了瞄準追劇女孩們的古偶劇集，2021年有優酷的《山河令》，2022年有愛奇藝的《蒼蘭訣》，今年卻輪到小破站抓住了追
余承東:AI大模型技術的發展將會帶來下一代智能終端操作系統的智慧體驗

8月4日消息，2023年華為開發者大會（HDC.Together）今天正式開幕，華為發布HarmonyOS 4、全新升級的鴻蒙開發套件、HarmonyOS Next開發者預覽版本等一系列
華為Mate 60系列用上可變靈動島：正式版體驗將會更出色

這段時間以來，關于華為新旗艦的爆料日漸密集。據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將
外交部：美方應停止在網絡安全問題上不負責任地指責他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關科研成果。中方對此有何評論？對此

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

拿CPU搞AI推理誰給你的底氣

紅魔電競平板評測：大屏幕硬實力

2023年Q2用戶偏好榜：12+256G版本成新主流

轎車從天而降電動車主被撞身亡超速搶道所致：現場視頻讓網友吵翻

一文掌握 Golang 模糊測試（Fuzz Testing）

零售大模型“干中學”，攀爬數字化珠峰

破圈是B站頭上的緊箍咒

余承東:AI大模型技術的發展將會帶來下一代智能終端操作系統的智慧體驗

華為Mate 60系列用上可變靈動島：正式版體驗將會更出色

外交部：美方應停止在網絡安全問題上不負責任地指責他國

最新推薦

猜你喜歡

熱門推薦

相關資訊

拿CPU搞AI推理 誰給你的底氣

最新推薦

猜你喜歡

熱門推薦

相關資訊

拿CPU搞AI推理誰給你的底氣