本實用指南將幫助用戶了解,如何配置個人電腦才能更有效地使用生成式 AI 大語言模型
生成式人工智能 (GenAI) 徹底改變了計算世界,戴爾科技的用戶都開始考慮借助大語言模型 (LLM) 去開發能夠提升其公司生產力、效率和創新力的新功能。戴爾科技擁有全球最豐富的 AI 基礎設施產品組合,從云到客戶端設備一應俱全 [1], 因此能夠為用戶提供滿足其一切 AI 需求的端到端 AI 解決方案和服務。戴爾科技還提供專為助力 AI 工作負載而設計的硬件解決方案,包括工作站、高性能計算服務器、數據存儲、云原生軟件定義基礎設施、網絡交換機、數據保護、HCI 和各種服務。但用戶所面臨的最大問題之一是: 如何確定一臺 PC 能夠與特定的 LLM 有效配合。戴爾科技將嘗試解答這個問題。
首先應該掌握一些關于如何幫助 PC 處理 LLM 的基礎知識。雖然 AI 例程可以在 CPU 或被稱為 NPU 的新型專用 AI 回路中進行處理,但目前的主流仍然是在 PC 中使用 NVIDIA RTX GPU 進行 AI 處理,該 GPU 帶有被稱為“張量核心”(Tensor Core) 的專用回路。RTX 張量核心專門用于實現混合精度數學計算,而這是 AI 處理的核心。但進行數學運算只是需要考慮的因素之一,鑒于 LLM 潛在的內存占用量,還需要額外考慮可用的內存空間。要在 GPU 中最大程度地發揮 AI 性能,就必須將 LLM 處理加入到 GPU VRAM。NVIDIA 的 GPU 產品線在各種移動和固定工作站產品中都可以擴展,用戶可以通過所提供的張量核心數量和 GPU VRAM 選項來輕松調整系統規模。請注意,某些固定工作站可以搭載多顆 GPU 來進一步擴大容量。
市場上出現的 LLM 數量和種類越來越多,但在確定硬件需求時,最需要考慮的因素之一是所選 LLM 的參數規模。以 Meta AI 的 Llama-2 LLM 為例,該模型有 70 億、130 億和 700 億這三種不同的參數規模。一般來說,參數規模越大,LLM 的準確性就越高,在一般知識應用中的適用性也就越強。
無論用戶的目標是將基礎模型原封不動地用于推理,還是根據具體的用例和數據進行調整,他們都需要了解 LLM 對機器的要求以及如何最好地管理模型。如果能夠利用用戶專有的數據開發和訓練出針對特定用例的模型,那么用戶的 AI 項目就能為其帶來最大的創新和回報。在使用 LLM 開發新功能和應用時,參數規模最大的模型可能會對機器性能提出極高的要求,因此數據科學家們開發出了一些辦法來幫助降低處理開銷和管理 LLM 輸出準確性。
量化就是其中的一種辦法。該技術通過修改 LLM 內部參數 (即權重) 的數學精度來縮小 LLM 的規模。降低位精度會對 LLM 產生兩方面的影響: 一是減少處理所占用的空間和對內存的需求,二是影響 LLM 的輸出準確性。量化可以看作是 JPEG 圖像壓縮,雖然壓縮得越多,創建出的圖像效率就越高,但在某些用例中可能會使圖像變得模糊不清。
在實際應用中,如果用戶想要運行量化為 4 位精度的 Llama-2 模型,可以考慮戴爾 Precision 3000 和 5000 系列的多款移動工作站。
戴爾科技全新的 3000 和 5000 系列移動工作站集成了 CPU,NPU,GPU 多處理器組合,能夠優化 100 多款應用中的 AI 性能,使其運行更快、能效更高。例如,它們可支持全新的協作體驗,如 AI 驅動的視頻會議,提供背景模糊、面部取景和視線糾正等功能。NPU 能有效地卸載 CPU 或 GPU 上的任務,使功耗降低高達 40%。這意味著電池續航時間更長,用戶無需頻繁充電即可持續工作。此外,新款 CPU 還配備了速度更快的集成顯卡,為更多媒體密集型 AI 工作負載提供卓越性能。CPU、NPU 和 GPU 協同工作,共同打造靈活、高性能且節能的 AI 引擎,為用戶帶來絕佳體驗。
此外,全新戴爾 Precision 3490 和 3590 移動工作站最高可搭載 NVIDIA RTX 500 Ada 圖形處理器,提升專業用戶的工作效率。Precision 3591 則專注于設計與創作領域,輕松應對入門級 2D 和 3D CAD 應用。而 Precision 5000 系列移動工作站將創意應用的性能提升到了新的高度,Precision 5690 憑借其小巧的 16 英寸機身,為用戶帶來出色的創意應用體驗。它具備廣闊的視野、出色的便攜性和強大的應用性能,最高可配備 NVIDIA RTX 5000 圖形處理器。同時,機身小巧但強大功能的 Precision 5490 作為一款 14 英寸超便攜設備,在性能和體驗方面也毫不遜色。
在更高精度 (BF16) 運行會增加對內存的需求,但戴爾科技的解決方案可以在任何精度上滿足任何規模的 LLM 需求。戴爾 Precision 7960 塔式工作站可支持多達四個 NVIDIA 高性能 GPU, 其 AI 處理能力比上代產品高出 80% 且每個 GPU 的 VRAM 高達 48GB, 而 VRAM 是處理 GenAI 大語言模型最關鍵的配置之一。
那么如何解決輸出準確性所受到的影響? 另一種被稱為微調的技術可以通過在特定數據上重新訓練 LLM 的參數子集來提高準確性,進而提高特定用例中的輸出準確性。微調會調整某些已訓練參數的權重,能夠加快訓練過程并提高輸出準確性。通過將微調與量化相結合,就可以產生針對特定應用的小語言模型,這些模型非常適合部署到對 AI 處理能力要求較低的各種設備上。同樣,如果開發人員想要對 LLM 進行微調,也可以放心地將 Precision 工作站作為構建 GenAI 解決方案過程中的沙盒。
在使用 LLM 時這些不同技術不會相互排斥。把它們結合在一起使用往往會帶來更高的運行效率和準確性。
總之,LLM 的規模以及哪些技術能夠為有效使用 LLM 所需的計算系統配置提供最佳參考都是關鍵的決定因素。戴爾科技堅信無論用戶在其 AI 旅程中想要朝哪個方向發展,戴爾科技的臺式機、數據中心等解決方案都將為其提供助力。
戴爾科技集團
戴爾科技集團致力于幫助企業和個人構建數字化未來,改進他們的工作、生活和娛樂方式,為客戶提供面向數據時代全面和創新的產品、技術、解決方案及服務組合。
[1]基于戴爾科技集團的內部分析,2023 年 8 月。
本文鏈接:http://www.www897cc.com/showinfo-26-80919-0.html戴爾 Precision 工作站:助力客戶更有效地使用 GenAI 大語言模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com