當前位置：首頁 > 科技 > 知識百科

性能最高提升 6.9 倍，字節跳動開源大模型訓練框架 veGiantModel

來源：責編：時間：2023-08-07 16:30:03 242觀看

導讀背景近些年，NLP 應用方面有所突破，Bert、GPT、GPT-3 等超大模型橫掃各種 NLP 測試后，人們發現參數量越大的模型，在算法方面表現越好，于是紛紛開始迅速向大模型方向發展，模型體積爆

背景

近些年，NLP 應用方面有所突破，Bert、GPT、GPT-3 等超大模型橫掃各種 NLP 測試后，人們發現參數量越大的模型，在算法方面表現越好，于是紛紛開始迅速向大模型方向發展，模型體積爆炸式增長。而大模型訓練給現有的訓練系統帶來的主要挑戰為顯存壓力，計算壓力和通信壓力。

The size of language model is growing at an exponential rate (來源：https://huggingface.co/blog/large-language-models)

火山引擎大模型訓練框架 veGiantModel

針對這個需求，字節跳動 AML 團隊內部開發了火山引擎大模型訓練框架 veGiantModel。基于 PyTorch 框架，veGiantModel 是以 Megatron 和 DeepSpeed 為基礎的高性能大模型訓練框架。其特點包括：

同時支持數據并行、算子切分、流水線并行 3 種分布式并行策略，同時支持自動化和定制化的并行策略；基于 ByteCCL 高性能異步通訊庫，訓練任務吞吐相比其他開源框架有 1.2x-3.5x 的提升；提供了更友好、靈活的流水線支持，降低了模型開發迭代所需要的人力；可在 GPU上高效地支持數十億至上千億參數量的大模型；對帶寬要求低，在私有化部署無 RDMA 強依賴。

其中，ByteCCL 為字節跳動自研的 BytePS 的升級版，針對 A100/V100 等各種機型拓撲做了分層規約優化，并支持了 allgather、alltoall 等更全面的通訊原語。

veGiantModel 性能表現硬件配置

為了展示 VeGiantModel 的性能，veGiantModel 團隊使用了自建機房的物理機，分別在 A100 和 V100 機型上做了測試，實驗配置分別如下：

V100 測試：每個機器 8 張 Tesla V100 32G 型號 GPU，網絡帶寬 100GA100 測試：每個機器 8 張 Ampere A100 40G 型號 GPU，網絡帶寬 800G模型和對照組選擇

veGiantModel 選擇了 GPT-13B 模型進行評估，seq length 是 256, global batch size 是 1536。GPT 為目前市面上最為流行的 transformer based 語言模型。性能對照組選擇了開源社區最流行的 Megatron 和 DeepSpeed。

測試結果V100/TCP ：100Gb/s TCP 網絡帶寬，4 機，每機 8 張 Tesla V100 32G GPUV100/RDMA：100Gb/s RDMA 網絡帶寬，4 機，每機 8 張 Tesla V100 32G GPUA100/TCP：800Gb/s TCP 網絡帶寬，4 機，每機 8 張 Tesla A100 40G GPUA100/RDMA：800Gb/s RDMA 網絡帶寬，4 機，每機 8 張 Tesla A100 40G GPU模型：GPT-13BMegatron：v2.4，tensor-model-parallel-size 設置為 4, pipeline-model-parallel-size 設置為 4DeepSpeed：v0.4.2，使用 DeepSpeedExamples 開源社區中默認的 zero3 的配置運行環境統計值：Throughtput (samples/s)

從上述數據可以看出：

veGiantModel 性能更優：無論是在高帶寬還是低帶寬的場下，veGiantModel 在 V100 和 A100 上均勝出 Megatron 和 DeepSpeed，最高可達 6.9 倍提升。veGiantModel 對網絡帶寬要求低：veGiantModel 在帶寬變化對吞吐的影響相對最小 (<10%)，而 DeepSpeed(ZeRO) 是對帶寬要求最高的，最高可達將近 5 倍的差距。原因解析

veGiantModel 為什么比 Megatron 和 DeepSpeed 更快？原因如下：

ByteCCL (BytePS) 高性能異步通訊庫。支持定制化的并行策略，可以將性能優化推到極致。在支持數據并行、算子切分、流水線并行 3 種分布式并行策略時，veGiantModel 會綜合考慮到跨機的帶寬，自動調整 toplogy 的 placement。傳送門

veGiantModel 現已在 GitHub 上開源，地址如下：

https://github.com/volcengine/veGiantModel

GitHub 上詳細介紹了如何使用 veGiantModel 以及如何使用 veGiantModel 快速跑起一個 GPT 的預訓練。火山引擎機器學習平臺原生支持了 veGiantModel，目前平臺正在公測中，歡迎大家試用：https://www.volcengine.com/product/ml-platform

本文鏈接：http://www.www897cc.com/showinfo-119-2229-0.html性能最高提升 6.9 倍，字節跳動開源大模型訓練框架 veGiantModel

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：微軟智能云在華新增數據中心區域正式啟用看好中國市場機會

下一篇：云計算不相信小廠

標簽：

熱門焦點

跑分安卓第一！Redmi K60至尊版8月發布！盧偉冰：目標年度性能之王

8月5日消息，Redmi K60至尊版將于8月發布，在此前舉行的戰略發布會上，官方該機將搭載搭載天璣9200+處理器，安兔兔V10跑分超177萬分，是目前安卓陣營最高的分數
2023年，我眼中的字節跳動

此時此刻（2023年7月），字節跳動從未上市，也從未公布過任何官方的上市計劃；但是這并不妨礙它成為中國最受關注的互聯網公司之一。從2016-17年的抖音強勢崛起，到2018年的“頭騰
中國家電海外掘金正當時｜出海專題

作者｜吳南南編輯｜胡展嘉運營｜陳佳慧出品｜零態LT（ID：LingTai_LT）2023年，出海市場戰況空前，中國創業者在海外紛紛摩拳擦掌，以期能夠把中國的商業模式、創業理念、戰略打法輸出海外，他們依
攜眾多高端產品亮相ChinaJoy，小米帶來一場科技與人文的視聽盛宴

7月28日，全球數字娛樂領域最具知名度與影響力的年度盛會中國國際數碼互動娛樂展覽會（簡稱ChinaJoy）在上海新國際博覽中心盛大開幕。作為全球領先的科
iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，iQOO 11不僅全球首發2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競屏，同時在快充
2299元起！iQOO Pad明晚首銷：性能最強天璣平板

5月23日，iQOO如期舉行了新品發布會，除了首發安卓最強旗艦處理器的iQOO Neo8系列新機外，還在發布會上推出了旗下首款平板電腦——iQOO Pad，其最大的賣點
英特爾Xe HPG游戲顯卡：擁有512EU，單風扇版本

據10 月 30 日外媒 TheVerge 消息報道，英特爾 Xe HPG Arc Alchemist 的正面實被曝光，不僅擁有 512 EU 版顯卡，還擁有 128EU 的單風扇版本。另外，這款顯卡 PCB
電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗

電博會為了更好地讓參展觀眾真正感受到智能家居的絕妙之處，海爾智家的程傳嶺先生同樣介紹了展會上海爾智家的模擬500平大平層，還原生活空間沉浸式體驗。程傳
中關村論壇11月25日開幕，15位諾獎級大咖將發表演講

11月18日，記者從2022中關村論壇新聞發布會上獲悉，中關村論壇將于11月25至30日在京舉行。本屆中關村論壇由科學技術部、國家發展改革委、工業和信息化部、國務

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

性能最高提升 6.9 倍，字節跳動開源大模型訓練框架 veGiantModel

跑分安卓第一！Redmi K60至尊版8月發布！盧偉冰：目標年度性能之王

2023年，我眼中的字節跳動

中國家電海外掘金正當時｜出海專題

攜眾多高端產品亮相ChinaJoy，小米帶來一場科技與人文的視聽盛宴

iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

2299元起！iQOO Pad明晚首銷：性能最強天璣平板

英特爾Xe HPG游戲顯卡：擁有512EU，單風扇版本

電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗

中關村論壇11月25日開幕，15位諾獎級大咖將發表演講

最新推薦

猜你喜歡

熱門推薦

相關資訊