日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 知識百科

性能最高提升 6.9 倍,字節跳動開源大模型訓練框架 veGiantModel

來源: 責編: 時間:2023-08-07 16:30:03 222觀看
導讀 背景近些年,NLP 應用方面有所突破,Bert、GPT、GPT-3 等超大模型橫掃各種 NLP 測試后,人們發現參數量越大的模型,在算法方面表現越好,于是紛紛開始迅速向大模型方向發展,模型體積爆

背景fA928資訊網——每日最新資訊28at.com

近些年,NLP 應用方面有所突破,Bert、GPT、GPT-3 等超大模型橫掃各種 NLP 測試后,人們發現參數量越大的模型,在算法方面表現越好,于是紛紛開始迅速向大模型方向發展,模型體積爆炸式增長。而大模型訓練給現有的訓練系統帶來的主要挑戰為顯存壓力,計算壓力和通信壓力。fA928資訊網——每日最新資訊28at.com

fA928資訊網——每日最新資訊28at.com

The size of language model is growing at an exponential rate (來源:https://huggingface.co/blog/large-language-models)fA928資訊網——每日最新資訊28at.com

火山引擎大模型訓練框架 veGiantModelfA928資訊網——每日最新資訊28at.com

針對這個需求,字節跳動 AML 團隊內部開發了火山引擎大模型訓練框架 veGiantModel。基于 PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 為基礎的高性能大模型訓練框架。其特點包括:fA928資訊網——每日最新資訊28at.com

同時支持數據并行、算子切分、流水線并行 3 種分布式并行策略,同時支持自動化和定制化的并行策略;基于 ByteCCL 高性能異步通訊庫,訓練任務吞吐相比其他開源框架有 1.2x-3.5x 的提升;提供了更友好、靈活的流水線支持,降低了模型開發迭代所需要的人力;可在 GPU上高效地支持數十億至上千億參數量的大模型;對帶寬要求低,在私有化部署無 RDMA 強依賴。fA928資訊網——每日最新資訊28at.com

其中,ByteCCL 為字節跳動自研的 BytePS 的升級版,針對 A100/V100 等各種機型拓撲做了分層規約優化,并支持了 allgather、alltoall 等更全面的通訊原語。fA928資訊網——每日最新資訊28at.com

veGiantModel 性能表現硬件配置fA928資訊網——每日最新資訊28at.com

為了展示 VeGiantModel 的性能,veGiantModel 團隊使用了自建機房的物理機,分別在 A100 和 V100 機型上做了測試,實驗配置分別如下:fA928資訊網——每日最新資訊28at.com

V100 測試:每個機器 8 張 Tesla V100 32G 型號 GPU,網絡帶寬 100GA100 測試:每個機器 8 張 Ampere A100 40G 型號 GPU,網絡帶寬 800G模型和對照組選擇fA928資訊網——每日最新資訊28at.com

veGiantModel 選擇了 GPT-13B 模型進行評估,seq length 是 256, global batch size 是 1536。GPT 為目前市面上最為流行的 transformer based 語言模型。性能對照組選擇了開源社區最流行的 Megatron 和 DeepSpeed。fA928資訊網——每日最新資訊28at.com

測試結果V100/TCP :100Gb/s TCP 網絡帶寬,4 機,每機 8 張 Tesla V100 32G GPUV100/RDMA:100Gb/s RDMA 網絡帶寬,4 機,每機 8 張 Tesla V100 32G GPUA100/TCP:800Gb/s TCP 網絡帶寬,4 機,每機 8 張 Tesla A100 40G GPUA100/RDMA:800Gb/s RDMA 網絡帶寬,4 機,每機 8 張 Tesla A100 40G GPU模型:GPT-13BMegatron:v2.4,tensor-model-parallel-size 設置為 4, pipeline-model-parallel-size 設置為 4DeepSpeed:v0.4.2,使用 DeepSpeedExamples 開源社區中默認的 zero3 的配置運行環境統計值:Throughtput (samples/s)fA928資訊網——每日最新資訊28at.com

fA928資訊網——每日最新資訊28at.com

fA928資訊網——每日最新資訊28at.com

從上述數據可以看出:fA928資訊網——每日最新資訊28at.com

veGiantModel 性能更優:無論是在高帶寬還是低帶寬的場下,veGiantModel 在 V100 和 A100 上均勝出 Megatron 和 DeepSpeed,最高可達 6.9 倍提升。veGiantModel 對網絡帶寬要求低:veGiantModel 在帶寬變化對吞吐的影響相對最小 (<10%),而 DeepSpeed(ZeRO) 是對帶寬要求最高的,最高可達將近 5 倍的差距。原因解析fA928資訊網——每日最新資訊28at.com

veGiantModel 為什么比 Megatron 和 DeepSpeed 更快?原因如下:fA928資訊網——每日最新資訊28at.com

ByteCCL (BytePS) 高性能異步通訊庫。支持定制化的并行策略,可以將性能優化推到極致。在支持數據并行、算子切分、流水線并行 3 種分布式并行策略時,veGiantModel 會綜合考慮到跨機的帶寬,自動調整 toplogy 的 placement。傳送門fA928資訊網——每日最新資訊28at.com

veGiantModel 現已在 GitHub 上開源,地址如下:fA928資訊網——每日最新資訊28at.com

https://github.com/volcengine/veGiantModelfA928資訊網——每日最新資訊28at.com

GitHub 上詳細介紹了如何使用 veGiantModel 以及如何使用 veGiantModel 快速跑起一個 GPT 的預訓練。火山引擎機器學習平臺原生支持了 veGiantModel,目前平臺正在公測中,歡迎大家試用:https://www.volcengine.com/product/ml-platformfA928資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2229-0.html性能最高提升 6.9 倍,字節跳動開源大模型訓練框架 veGiantModel

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟智能云在華新增數據中心區域正式啟用 看好中國市場機會

下一篇: 云計算不相信小廠

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 汉阴县| 韩城市| 左权县| 夏河县| 平阴县| 潼关县| 邵阳县| 孝感市| 弋阳县| 永昌县| 德州市| 灵台县| 凌海市| 泸定县| 嘉峪关市| 腾冲县| 龙游县| 德钦县| 朔州市| 萝北县| 高淳县| 腾冲县| 巫溪县| 彝良县| 鹤山市| 陇西县| 郁南县| 丰县| 藁城市| 兴海县| 河源市| 绥滨县| 大同县| 临夏县| 九江县| 舟曲县| 吉安市| 定日县| 巴彦淖尔市| 芜湖县| 广平县|