6 月 11 日消息,科技媒體 marktechpost 昨日(6 月 10 日)發布博文,報道稱 Meta 公司推出 LlamaRL 框架,采用全異步分布式設計,在 405B 參數模型上,LlamaRL 將強化學習步驟時間從 635.8 秒縮短至 59.5 秒,速度提升 10.7 倍。
注:強化學習(Reinforcement Learning,RL)通過基于反饋調整輸出,讓模型更貼合用戶需求。隨著對模型精準性和規則適配性的要求不斷提高,強化學習在訓練后階段的重要性日益凸顯,持續優化模型性能,成為許多先進大語言模型系統的關鍵組成部分。
將強化學習應用于大語言模型,最大障礙在于資源需求。訓練涉及海量計算和多組件協調,如策略模型、獎勵評分器等。模型參數高達數百億,內存使用、數據通信延遲和 GPU 閑置等問題困擾著工程師。
Meta 推出的 LlamaRL 框架,采用 PyTorch 構建全異步分布式系統,簡化協調并支持模塊化定制。通過獨立執行器并行處理生成、訓練和獎勵模型,LlamaRL 大幅減少等待時間,提升效率。
LlamaRL 通過分布式直接內存訪問(DDMA)和 NVIDIA NVLink 技術,實現 405B 參數模型權重同步僅需 2 秒。
在實際測試中,LlamaRL 在 8B、70B 和 405B 模型上分別將訓練時間縮短至 8.90 秒、20.67 秒和 59.5 秒,速度提升最高達 10.7 倍。
MATH 和 GSM8K 基準測試顯示,其性能穩定甚至略有提升。LlamaRL 有效解決內存限制和 GPU 效率問題,為訓練大語言模型開辟了可擴展路徑。
本文鏈接:http://www.www897cc.com/showinfo-45-13679-0.htmlMeta 推 LlamaRL 強化學習框架:全異步分布設計,訓練 AI 模型提速 10.7 倍
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com