日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 數碼

16384塊NVIDIA H100訓練Meta Llama3 4050億參數大模型:3小時報錯一次

來源: 責編: 時間:2024-07-29 17:39:32 414觀看
導讀 快科技7月29日消息,如今的AI大模型規模越來越龐大,動輒成百上千億參數,訓練過程不僅需要數萬甚至十幾萬塊GPU加速卡,出錯的幾率也越來越高。Meta(Facebook)就披露了一份驚人的報告。Meta在報告中披露,為了訓練自

快科技7月29日消息,如今的AI大模型規模越來越龐大,動輒成百上千億參數,訓練過程不僅需要數萬甚至十幾萬塊GPU加速卡,出錯的幾率也越來越高。Meta(Facebook)就披露了一份驚人的報告。Qbk28資訊網——每日最新資訊28at.com

Meta在報告中披露,為了訓練自己的Llama 3 4050億參數大模型,使用了包含16384塊NVIDIA H100 80GB GPU的集群,一共花了45天,期間居然出現了419次意外報錯,平均每3個小時就一次,而一半的錯誤都和GPU及其自帶的HBM3內存有關。Qbk28資訊網——每日最新資訊28at.com

16384塊NVIDIA H100訓練Meta Llama3 4050億參數大模型:3小時報錯一次Qbk28資訊網——每日最新資訊28at.com

要知道,大模型訓練的工作量異常龐大,而且需要高度同步,一次錯誤就可能導致整個訓練工作必須從頭再來。Qbk28資訊網——每日最新資訊28at.com

報告顯示,為期45天的預訓練階段中,總共出現了466次工作中斷,其中47次是計劃內的自動維護,419次是意外的,且大部分都來自硬件問題,GPU又是多的,占了其中的58.7%。Qbk28資訊網——每日最新資訊28at.com

具體來說,148次即30.1%的意外中斷來自各種GPU失效(包括NVLink總線),72次即17.2%來自HBM3內存失效——畢竟,700W的功耗太熱了。Qbk28資訊網——每日最新資訊28at.com

還有19次來自GPU SRAM,17次來自GPU處理器,6次來自GPU靜默數據錯誤,6次來自GPU散熱和傳感器。Qbk28資訊網——每日最新資訊28at.com

其他錯誤來自軟件bug、網線和網卡等等各個方面。Qbk28資訊網——每日最新資訊28at.com

有趣的是,CPU錯誤只出現了2次。Qbk28資訊網——每日最新資訊28at.com

還好,Llama 3團隊非常給力,在這么高的出錯幾率下,依然維持了超過90%的有效訓練時間,而且只有三次GPU報錯需要大量人工干預,其他都被自動化管理糾正了。Qbk28資訊網——每日最新資訊28at.com

16384塊NVIDIA H100訓練Meta Llama3 4050億參數大模型:3小時報錯一次Qbk28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-24-104367-0.html16384塊NVIDIA H100訓練Meta Llama3 4050億參數大模型:3小時報錯一次

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: NVIDIA全面轉向開源GPU驅動!性能實測與專有驅動相當

下一篇: 6499元 火影炙影H6-X筆記本首銷:140W滿血RTX 4070

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 扬中市| 轮台县| 龙口市| 东港市| 苗栗市| 崇左市| 黑龙江省| 岑巩县| 修文县| 呼图壁县| 绥化市| 安多县| 庐江县| 城固县| 沙河市| 疏勒县| 阿拉善右旗| 肃南| 辽阳县| 苍梧县| 外汇| 拜泉县| 日喀则市| 增城市| 通江县| 裕民县| 拉孜县| 定结县| 鄱阳县| 交口县| 贡山| 丹巴县| 禄劝| 诸暨市| 宁阳县| 三门峡市| 潼南县| 保定市| 邻水| 宜黄县| 汉阴县|