互聯網上最大規模的預訓練來了!
Nous Research 宣布正式推出 Psyche 網絡(Psyche Network),通過去中心化方式革新人工智能(AI)訓練。
Psyche 網絡利用區塊鏈技術,匯聚全球計算資源,成功啟動了 40B 參數大語言模型 Consilience 的預訓練任務,總計 20 萬億 token,創下了迄今為止互聯網上最大規模的預訓練紀錄。
大語言模型 Consilience 采用 DeepSeek V3 的多頭潛在注意力(MLA)架構,相較于 Llama 使用的 GQA 架構更具表達力,同時通過優化 QKV 投影矩陣減少計算開銷。
Psyche 利用全球閑置的計算資源(如 4090、A100 和 H100 等消費級 GPU),大幅降低訓練成本。
通過并行實驗,Psyche 鼓勵開源社區提出新的模型架構和訓練方法,未來可能催生更多創新。
過去,人們總覺得「AI 模型的去中心化訓練」不過是一種幻想,尤其在那些超越了愛好者規模的語言模型面前更是如此。
但幾項關鍵技術突破 —— 尤其是并行化和強化學習 —— 正在逐漸打破這種局限,讓除了 OpenAI、Anthropic 這類大公司之外的小型團隊也開始進入這個賽道。
現在看來,聰明的算法可以彌補基礎設施的不足,而像 Nous Research 這樣的去中心化參與者正希望抓住這個機會。
砸碎算力墻近年來,AI 模型的訓練逐漸被大型科技公司壟斷。
訓練一個前沿模型需要數千個高性能 GPU 和超高帶寬的集群,這使得普通研究者或小型團隊幾乎無法參與。
這種集中化趨勢不僅限制了創新,還可能導致少數科技去投壟斷甚至控制 AI 模型。
集中式 AI,可能會少數科技巨頭「比你更了解你自己」。
Hermes 系列中規模最大的模型 ——Hermes 3 405B,是在基礎的 Llama 3.1 模型上進行微調完成的。
整個訓練過程動用了 128 塊 H100 GPU,耗時約 16 小時(總計約 2,086GPU 小時)。
從成本上看其實并不離譜 —— 目前租用 8 塊 H100 的計算節點每小時大約在 16 到 24 美元之間,因此一次完整訓練的開銷大約在 5,000 美元左右。
作為 Nous Research Hermes 系列的最新迭代,Hermes 3 405B 自 Llama-3.1 405B 的全參數微調模型,
但如果我們想更進一步,想得更大呢?
畢竟,Hermes 目前還是依賴 Llama 作為基礎模型。
如果我們不再依賴已有的模型,而是從零開始構建自己的基礎模型,那我們就需要更龐大的“船”了。
要以更大規模、低成本地實現類似的訓練成果,確實面臨不少挑戰,尤其是當訓練從集中化的 GPU 集群轉向基于互聯網的去中心化網絡時。
Nous Research 提出了 Psyche 網絡的解決方案:通過去中心化的方式,讓全球的計算資源參與 AI 模型訓練,降低進入門檻,推動 AI 發展的民主化。
Nous Research 的 Psyche 網絡成功實現了去中心化的 AI 訓練,開創了一個全新的模式。
Psyche 不僅降低了 AI 開發的門檻,還推動了全球協作和創新。
Consilience 模型的預訓練只是起點,未來 Psyche 網絡有望成為 AI 民主化的重要基石,為開源社區和小型團隊提供與科技巨頭抗衡的機會。
用 DisTrO 解決帶寬瓶頸在去中心化訓練中,網絡帶寬一直是最令人擔憂的問題之一。
在傳統的數據中心里,GPU 之間通過極高帶寬的連接(如 NVLink 或 InfiniBand)相連,帶寬可達每秒幾百 Gb(千兆位)。
而相比之下,互聯網上的志愿者節點,往往只有幾十甚至幾百 Mb(兆位)每秒的帶寬。
質疑者認為,這種高達 100 倍甚至 1,000 倍的帶寬差距,會讓跨互聯網的 AI 訓練變得無比緩慢、幾乎不可能。
畢竟,傳統的訓練方式需要 GPU 之間持續地交換更新信息,而如果試圖用普通家用網絡來完成這些通信,很可能會陷入「災難級」的訓練體驗。
在此前對 DeMo(Decoupled Momentum Optimization)的研究基礎上,Nous 推出的 DisTrO 技術,能夠讓所有訓練節點保持高度同步,同時將所需帶寬降低 1,000 到 10,000 倍。
2024 年 12 月,Nous 與多位合作伙伴一起,在封閉測試網中,訓練了一個 150 億參數的基礎模型,并成功驗證了多項理論設想:
首次將 DisTrO 優化器系列大規模應用于訓練任務
驗證了節點中途掉線和新增節點時的容錯能力
證明了增加訓練節點確實能提升整體訓練速度
這次實驗標志著分布式、去中心化訓練邁出了從理論走向現實的關鍵一步。
在硅谷的一些圈子里,「加密」這個詞幾乎成了貶義詞,而 Nous 一直努力保持與 AI 開發者之間的開放交流橋梁不被切斷。
也正因如此,他們這次將 Psyche 搭建在區塊鏈上,是一個值得關注的重要轉變。
Psyche 將成為 Nous 用于預訓練、微調和部署下一代模型的平臺。
通過將技術棧遷移到 Solana 區塊鏈,Nous 希望釋放區塊鏈的以下三大優勢:
無需許可:任何人都可以貢獻計算資源
彈性與高可用性:不再依賴中心化基礎設施
激勵機制:協調并獎勵為網絡作出貢獻的參與者
將這一協議向整個市場開放,意味著任何人都能擁有其中的一部分。而其潛在的擴展性之大,顯然已經讓不少極客興奮不已。
計劃概覽Nous 的初期目標是先上線一個封閉測試網(Phase 0),驗證是否能在 Solana 上運行一個更大規模、分布式、具備容錯能力的 DisTrO 系統。后續階段會逐步引入更高級的功能。
在 Phase 0 階段,貢獻者可以攜帶自己的 GPU 加入進來(明確提到支持 4090、A100 和 H100 等型號),并開始獲得獎勵。此階段會對參與者進行篩選,以防止惡意行為者加入。
一旦系統穩定運行,權限將逐步開放,允許不同類型的計算資源(無論是專業的還是消費級的)自由接入網絡,協助訓練 Llama、Diffusion 等不同類型的模型架構。
強化學習(Reinforcement Learning,RL)不依賴于預先準備好的數據集,而是通過模型與環境直接互動來學習。
每個節點如果做出有助于模型進化的行為,就會獲得正反饋,反之則獲得負反饋。
由于這些節點可以異步運行,分布式訓練在強化學習框架下反而運行良好。
每個節點可以獨立行動,收集經驗,并定期與其他節點分享進展。
這極大緩解了傳統訓練中常見的「同步難題」,特別是在硬件能力和網絡延遲差異大的情況下。
通過 RL,Psyche 上的預訓練模型可以進一步學會推理能力和領域知識。
而每個 Psyche 節點在訓練過程中的表現都將影響它的獎勵:計算能力更強或使用了更先進訓練方法的節點,可能會獲得更多代幣激勵。
在常常被斥為「過度炒作又頻頻令人失望」的區塊鏈生態中,能看到真正的創新成果,確實令人欣慰 —— 簡直讓人「冷漠的靈魂也重新燃起了熱情」。
這一切,真的令人感到振奮。
Nous 并不是一開始就擁抱區塊鏈技術的,相反,他們幾乎是被「拖著、踢著、喊著」走上了這條路 ——
但原因很簡單:區塊鏈確實是解決他們問題最合適的工具。
他們需要一種方式,不論對方來自哪里,都能吸引計算資源與人才并進行公平支付;區塊鏈,在這一點上表現得無比出色。
他們需要一種手段,能夠協調并擴展大規模訓練任務;而協調與擴展,正是區塊鏈技術的「第二天性」。
他們還需要一種不受停電、封禁、宕機等影響的托管機制,能讓項目「打不死」、無法被關閉;在這方面,區塊鏈(這次不再是諷刺)也的確提供了最可靠的保障。
而最值得欣慰的是:這一次,人們選擇區塊鏈,不是出于投機炒作,而是出于對實際問題的認真思考與真實需求的回應。
如果 Psyche 成功了,它不僅將證明去中心化訓練是切實可行的,更是回歸初心:為取代的集中化計算,提供了強有力的工具。
參考資料:
https://x.com/NousResearch/status/1922744483571171605
https://nousresearch.com/nous-psyche/
https://x.com/563defi/status/1909976170990313594
本文來自微信公眾號:新智元(ID:AI_era),原標題《刷新世界記錄!40B 模型 + 20 萬億 token,散戶組團挑戰算力霸權》
本文鏈接:http://www.www897cc.com/showinfo-45-13220-0.html散戶組團挑戰算力霸權,40B 模型 + 20 萬億 token 刷新世界紀錄
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com