隨著人工智能的快速發展,大型語言模型(LLM)在商業領域的應用越來越廣泛。然而,傳統的微調方法往往需要耗費大量的運算資源和成本,這對于資源有限的企業來說是一個巨大的阻礙。
為了解決這個問題,史丹佛大學和加州大學柏克萊分校(UC Berkeley)的研究團隊共同開發了一種名為S-LoRA的創新技術,該技術可以大幅降低微調LLM的成本,讓企業能夠在單一圖形處理單元(GPU)上運行數百個甚至數千個模型。
傳統上,微調LLM需要使用新的范例,重新訓練預訓練模型并調整所有參數。然而,LLM通常擁有數十億個參數,因此需要大量的運算資源。S-LoRA技術通過參數高效微調法(PEFT)解決了這個問題。
LoRA是一種由微軟開發的低端適應款模型,它可以降低可訓練參數的數量,同時維持準確度,從而大幅減少定制化模型所需的存儲器和運算資源。S-LoRA則擁有動態存儲器管理系統,可以在主存儲器(RAM)和GPU之間靈活切換LoRA適配器。
S-LoRA系統還引入了“統一分頁”(Unified Paging),讓服務器能夠處理數百個甚至數千個批量的查詢,而不會出現存儲器碎片化問題。此外,S-LoRA還整合了“張量平行系統”(Tensor parallelism)。
這些特點使得S-LoRA能夠在單一GPU或多個GPU上服務許多LoRA適配器。最顯著的成就是,S-LoRA能夠同時服務2,000個適配器。
目前,S-LoRA的程序碼已經公布在GitHub上。研究人員計劃將其整合到當今流行的LLM服務架構中,這樣企業就可以輕松地將S-LoRA融入自家應用程序,以最小的成本享受定制化的LLM驅動服務。
本文鏈接:http://www.www897cc.com/showinfo-27-38475-0.htmlS-LoRA技術:減輕企業LLM部署負擔
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com