日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 數碼

拿CPU搞AI推理 誰給你的底氣

來源: 責編: 時間:2024-03-27 17:34:58 174觀看
導讀 大模型的訓練階段我們選擇GPU,但到了推理階段,我們果斷把CPU加到了菜單上。量子位在近期與眾多行業人士交流過程中發現,他們中有很多人紛紛開始傳遞出上述的這種觀點。無獨有偶,Hugging Face在官方優化教程中,也

大模型的訓練階段我們選擇GPU,但到了推理階段,我們果斷把CPU加到了菜單上。A6U28資訊網——每日最新資訊28at.com

量子位在近期與眾多行業人士交流過程中發現,他們中有很多人紛紛開始傳遞出上述的這種觀點。A6U28資訊網——每日最新資訊28at.com

無獨有偶,Hugging Face在官方優化教程中,也有數篇文章劍指“如何用CPU高效推理大模型”:A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣A6U28資訊網——每日最新資訊28at.com

而且細品教程內容后不難發現,這種用CPU加速推理的方法,所涵蓋的不僅僅是大語言模型,更是涉獵到了圖像、音頻等形式的多模態大模型。A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣A6U28資訊網——每日最新資訊28at.com

不僅如此,就連主流的框架和庫,例如TensorFlow和PyTorch等,也一直在不斷優化,提供針對CPU的優化、高效推理版本。A6U28資訊網——每日最新資訊28at.com

就這樣,在GPU及其他專用加速芯片一統AI訓練天下的時候,CPU在推理,包括大模型推理這件事上似乎辟出了一條“蹊徑”,而且與之相關的討論熱度居然也逐漸高了起來。A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣A6U28資訊網——每日最新資訊28at.com

至于為什么會出現這樣的情況,與大模型的發展趨勢可謂是緊密相關。A6U28資訊網——每日最新資訊28at.com

自從ChatGPT問世引爆了AIGC,國內外玩家先是以訓練為主,呈現出一片好不熱鬧的百模大戰;然而當訓練階段完畢,各大模型便紛紛踏至應用階段。A6U28資訊網——每日最新資訊28at.com

就連英偉達在公布的新季度財報中也表示,180億美元數據中心收入,AI推理已占四成。A6U28資訊網——每日最新資訊28at.com

由此可見,推理逐漸成為大模型進程,尤其是落地進程中的主旋律。A6U28資訊網——每日最新資訊28at.com

為什么Pick CPU做推理?A6U28資訊網——每日最新資訊28at.com

要回答這個問題,我們不妨先從效果來倒推,看看已經部署了CPU來做AI推理的“玩家”用得如何。A6U28資訊網——每日最新資訊28at.com

有請兩位重量級選手——京東云和英特爾。A6U28資訊網——每日最新資訊28at.com

今年,京東云推出了搭載第五代英特爾? 至強? 可擴展處理器的新一代服務器。A6U28資訊網——每日最新資訊28at.com

首先來看這款新服務器搭載的CPU。A6U28資訊網——每日最新資訊28at.com

若是用一句話來形容這個新一代的英特爾? 至強? 可擴展處理器,或許就是AI味道越發得濃厚——A6U28資訊網——每日最新資訊28at.com

與使用相同內置AI加速技術(AMX,高級矩陣擴展)的前一代,也就是第四代至強? 可擴展處理器相比,它深度學習實時推理性能提升高達42%;與內置上一代AI加速技術(DL-Boost,深度學習加速)、隔輩兒的第三代至強? 可擴展處理器相比,AI推理性能更是高提升至14倍。A6U28資訊網——每日最新資訊28at.com

到這里,我們就要詳細說說英特爾? 至強? 內置AI加速器經歷的兩個階段了:A6U28資訊網——每日最新資訊28at.com

第一階段,針對矢量運算優化。A6U28資訊網——每日最新資訊28at.com

從2017年第一代至強? 可擴展處理器引入高級矢量擴展 512(英特爾? AVX-512)指令集開始,讓矢量運算利用單條CPU指令就能執行多個數據運算。A6U28資訊網——每日最新資訊28at.com

再到第二代和第三代的矢量神經網絡指令 (VNNI,是DL-Boost的核心),進一步把乘積累加運算的三條單獨指令合并,進一步提升計算資源的利用率,同時更好地利用高速緩存,避免了潛在的帶寬瓶頸。A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣A6U28資訊網——每日最新資訊28at.com

第二階段,也就是現階段,針對矩陣運算優化。A6U28資訊網——每日最新資訊28at.com

所以從第四代至強? 可擴展處理器開始,內置AI加速技術的主角換成了英特爾? 高級矩陣擴展(英特爾AMX)。它特別針對深度學習模型常見的矩陣乘法運算優化,支持BF16(訓練/推理)和INT8(推理)等常見數據類型。A6U28資訊網——每日最新資訊28at.com

英特爾AMX主要由兩個組件組成:專用的Tile寄存器存儲大量數據,配合TMUL加速引擎執行矩陣乘法運算。有人把它比作內置在CPU里的Tensor Core,嗯,確實很形象。A6U28資訊網——每日最新資訊28at.com

這么一搞,它不僅做到在單個操作中計算更大的矩陣,還保證了可擴展性和可伸縮性。A6U28資訊網——每日最新資訊28at.com

英特爾AMX在至強CPU每個內核上并靠近系統內存,這樣一來可減少數據傳輸延遲、提高數據傳輸帶寬,實際使用上的復雜性也降低了。A6U28資訊網——每日最新資訊28at.com

例如現在若是將不超過200億參數的模型“投喂”給第五代至強? 可擴展處理器,那么時延將低到不超過100毫秒!A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣A6U28資訊網——每日最新資訊28at.com

其次再看新一代京東云服務器。A6U28資訊網——每日最新資訊28at.com

據介紹,京東與英特爾聯合定制優化的第五代英特爾? 至強? 可擴展處理器的Llama2-13B推理性能(Token 生成速度)提升了 51%,足以滿足問答、客服和文檔總結等多種AI場景的需求場景。A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣△ Llama2-13B推理性能測試數據A6U28資訊網——每日最新資訊28at.com

對于更高參數模型,甚至是70B Llama2, 第五代英特爾至強可擴展處理器仍可勝任勝任。A6U28資訊網——每日最新資訊28at.com

由此可見,CPU內置AI加速器發展到現在,用于推理已能保證在性能上足夠應對實戰需求了。A6U28資訊網——每日最新資訊28at.com

像這樣建立在通用服務器基礎上的AI加速方案,除了可用于模型推理之外,還能靈活滿足數據分析、機器學習等應用的需求,夸張點說,一個服務器就能完成AI應用的平臺化和全流程支持。A6U28資訊網——每日最新資訊28at.com

不僅如此,用CPU做AI推理,也存在CPU與生俱來的優勢,例如成本,還有更為重要的——部署和實踐的效率。A6U28資訊網——每日最新資訊28at.com

因為它本身就是計算機的標準組件,幾乎所有的服務器和計算機都配備了CPU,傳統業務中也已然存在大量的基于CPU的現成應用。A6U28資訊網——每日最新資訊28at.com

這意味著選擇CPU進行推理,既容易獲取,也不需要導入異構硬件平臺的設計或具備相關的人才儲備,還更容易獲得技術支持和維護。A6U28資訊網——每日最新資訊28at.com

以醫療行業為例,過去CPU已廣泛用于電子病歷系統、醫院資源規劃系統等,培養出成熟的技術團隊,也建立了完善的采購流程。A6U28資訊網——每日最新資訊28at.com

以此為基礎,醫療信息化龍頭企業衛寧健康,就利用CPU構建了能夠高效、低成本部署和應用的WiNEX Copilot落地方案,這個方案已深度集成到衛寧新一代的WiNEX產品中,任何一家已采用該系統的醫院,都能迅速上崗這種“醫生AI助手”。A6U28資訊網——每日最新資訊28at.com

僅其一項病歷文書助手功能,就可以在8小時內,也就是在醫生下班后的時間里處理近6000份病歷,相當于三甲醫院12位醫生一天工作量的總和!A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣A6U28資訊網——每日最新資訊28at.com

而且也正如我們剛才所提到的,從Hugging Face所提供的優化教程來看,只需要簡單的幾步,就可以讓CPU快速部署用于高效推理。A6U28資訊網——每日最新資訊28at.com

優化簡單、上手快,便是CPU真正在AI應用落地過程中的又雙叒一個優勢了。A6U28資訊網——每日最新資訊28at.com

這意味著任何或大或小的場景中,只要基于CPU的優化實現了一個單點的成功突破,那么它很快就可以實現精準且快速的復制或擴展,結果就是:能讓更多用戶能在相同或相近的場景中,以更快的速度、更優的成本把AI應用落到實地。A6U28資訊網——每日最新資訊28at.com

畢竟英特爾不僅是一家硬件公司,同時也擁有著龐大的軟件團隊。在傳統深度學習時代就積累了大量優化方法和工具,如OpenVINO? 工具包就在工業、零售等行業廣泛應用。A6U28資訊網——每日最新資訊28at.com

到了大模型時代,英特爾也深入與主流大模型如Llama 2、Baichuan、Qwen等深度合作,以英特爾? Extension for Transformer工具包為例,它就能讓大模型推理性能加速達40倍。A6U28資訊網——每日最新資訊28at.com

加之現在大模型所呈現的明顯趨勢就是越發地開始卷應用,如何能讓層出不窮的新應用“快好省”地落下去、用起來成了關鍵中的關鍵。A6U28資訊網——每日最新資訊28at.com

因此,為什么越來越多的人會選擇CPU做AI推理,也就不難理解了。A6U28資訊網——每日最新資訊28at.com

或許,我們還可以再引用一下英特爾CEO帕特·基辛格2023年底接受媒體訪問時所說的話,來鞏固一下各位的印象:A6U28資訊網——每日最新資訊28at.com

“從經濟學的角度看推理應用的話,我不會打造一個需要花費四萬美元的全是H100的后臺環境,因為它耗電太多,并且需要構建新的管理和安全模型,以及新的IT基礎設施。”A6U28資訊網——每日最新資訊28at.com

“如果我能在標準版的英特爾芯片上運行這些模型,就不會出現這些問題。”A6U28資訊網——每日最新資訊28at.com

AI EverywhereA6U28資訊網——每日最新資訊28at.com

回看2023年,大模型本身是AI圈絕對的話題中心。A6U28資訊網——每日最新資訊28at.com

但2024年剛開始,明顯能感覺到的趨勢就是各類技術進展,各行業應用落地進展都在加快,呈現一種“多點開花”的局面。A6U28資訊網——每日最新資訊28at.com

在這種局面下,可以預見的是還將有更多AI推理需求涌現,推理算力在整個AI算力需求中所占的比例只會增加。A6U28資訊網——每日最新資訊28at.com

比如以Sora為代表的AI視頻生成,業內推測其訓練算力需求其實比大模型少,但推理算力需求卻是大模型的成百上千倍。A6U28資訊網——每日最新資訊28at.com

而AI視頻應用落地需要的視頻傳輸等其他加速優化,也是CPU的拿手好戲。A6U28資訊網——每日最新資訊28at.com

所以綜合來看,CPU在整個英特爾AI Everywhere愿景下的定位也就明確了:A6U28資訊網——每日最新資訊28at.com

補足GPU或專用加速器覆蓋不到或不足的地方,為更多樣和復雜的場景提供靈活的算力選擇,在強化通用計算的同時,成為AI普及的重要基礎設施。A6U28資訊網——每日最新資訊28at.com

拿CPU搞AI推理 誰給你的底氣A6U28資訊網——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.www897cc.com/showinfo-24-79716-0.html拿CPU搞AI推理 誰給你的底氣

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微星推出新款27寸電競顯示器:4K 160Hz屏、支持QD量子點技術

下一篇: 專訪AMD Lisa Su博士:AI PC三位一體 優勢在我!

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 五常市| 常熟市| 新巴尔虎右旗| 嘉鱼县| 收藏| 两当县| 威海市| 桐城市| 鄯善县| 扶绥县| 翁牛特旗| 玉田县| 广水市| 邯郸县| 舟山市| 仲巴县| 翁牛特旗| 武夷山市| 蓬安县| 娱乐| 香河县| 贵溪市| 南昌市| 山东省| 陆河县| 荥经县| 紫阳县| 台南县| 海原县| 微山县| 蓝山县| 耒阳市| 武穴市| 西峡县| 农安县| 毕节市| 奉化市| 敦煌市| 盐城市| 元阳县| 如皋市|