這兩天 DeepSeek 開源 3FS 并行文件系統的消息,猶如向 AI 基礎設施領域投下一枚深水炸彈。3FS 每秒能搬運 6.6TB 數據,相當于 1 秒鐘傳輸完 700 部 4K 高清電影。還能自動調資源,國產芯片用了它,跟國際大牌的差距直接縮到 15%。
這并非簡單的技術迭代 —— 當 Llama3 70B 模型單次訓練需吞掉 15PB 數據(相當于連續播放 250 萬小時 4K 視頻)時,全球 AI 實驗室突然意識到:決定大模型訓練效率的不僅是 GPU 算力,存儲系統正成為影響進度的一大瓶頸。
當 AI 算力狂飆時,存儲正在成為隱形戰場
2024 年,某頭部 AI 公司曾因存儲帶寬不足,導致 2000 張 A100 顯卡的算力利用率長期低于 40%,單日經濟損失超百萬美元。這暴露了 AI 時代的 "木桶效應"—— 當 GPU 計算速度進入微秒級時,一次突發的存儲抖動就可能導致整個訓練任務崩潰,讓數周的計算成果瞬間蒸發。這或許也是 DeepSeek 自研存儲的原因。
數據顯示,存儲優化可直接將 175B 參數模型的訓練周期壓縮 30%,對應百萬美元級的成本被填平。而在推理端,當 10% 的異常請求遭遇存儲延遲波動時,P99 響應時間會瞬間突破 SLA 紅線,這正是某自動駕駛公司在線服務突發降級的根本誘因。
DeepSeek 之所以選擇自研 3FS 的本質,正是發現了存儲架構在 AI 應用中的重要性。《金融行業先進 AI 存力報告》》報告中提到,在同樣的 GPU 算力規模下,存儲性能的高低可能造成模型訓練周期 3 倍的差異。在算力軍備競賽的背后,一場關于存儲性能密度的暗戰悄然升級,自研存儲顯得尤為重要。
5 家頭部廠商角逐 AI 存儲,國產能否拔得頭籌
相比于傳統 AI 的需求,大模型對存力需求場景具有數據量大、參數規模大、訓練周期長等特點。
為了提升大模型訓練速度,需要對大規模數據集進行快速加載,且一般采用數百甚至上萬張 GPU 構成計算集群進行高效的并行計算,需要高并發輸入 / 輸出(I/O)處理,而訓練數據集呈現海量小文件的特點,文件量在幾億到幾十億量級,對應的帶寬需求可能每秒要達到上 TB,這就要求存儲系統具備強大的數據管理能力,業界能達到該能力的僅寥寥幾家。
小編搜集了國內外優秀的并行存儲產品,對具體能力進行對比
IBM 作為老牌存儲品牌,其產品從 HPC 場景成功向 AI 場景演進。在全球 AI 場景得到廣泛應用的 DDN,多個讀、寫帶寬等關鍵性能指標上表現突出,但 DDN 由于技術封閉性、專有化硬件等原因,導致用戶建設成本過高。
國產廠商 DeepSeek 3FS 雖然是開源的新產品,但相對老牌存儲也有不錯的表現,在讀帶寬能力上表現優異,單集群 6.6TB/s,平均單節點 36.7GB/s 的讀帶寬。
我們還驚喜發現,另一家國產廠商京東云云海,在這個專業領域同樣表現出色,以單節點 95GB/s 的讀帶寬、60GB/s 的寫帶寬,進一步拉低了國產存儲與國際老牌廠商的差距。相較于 DeepSeek 的 3FS,京東云云海在提供高性能的同時適用性更廣,可以同時滿足 DeepSeek、ChatGPT、LLaMA 等 20 余種主流大模型的存力需求。
綜上來看,隨著大模型快速向縱深場景演進,對存儲的要求也越來越高,以 DeepSeek、京東云云海等國產存儲,顯示出在處理大規模數據集時的優越性能,未來國產存儲能否拔得頭籌,讓我們拭目以待。
本文鏈接:http://www.www897cc.com/showinfo-26-135149-0.html開源高性能文件系統 3FS,DeepSeek 為何自研存儲?
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com