瘋狂挖人的 Meta,終于在今天發(fā)布了最新 AI 研發(fā)成果!代碼世界模型 CWM 是本次發(fā)布的模型,創(chuàng)新性地將世界模型引入了代碼生成任務(wù)中。這是否會(huì)成為編程模型新范式?
瘋狂挖人的 Meta,終于把他們的 AI 研發(fā)新成果端上來了!
就在今天,Meta 官宣發(fā)布了一款名為代碼世界模型(Code World Model,CWM)的 LLM,探索如何使用世界模型改進(jìn) AI 代碼生成性能。

Yann LeCun 也親自下場(chǎng)轉(zhuǎn)發(fā)撐場(chǎng)子了。

CWM 究竟有哪些創(chuàng)新點(diǎn)?這個(gè) 32B 的參數(shù)相對(duì)較小的大模型,究竟有多強(qiáng)?
CWM 創(chuàng)新點(diǎn)本次發(fā)布的 CWM,最大的創(chuàng)新點(diǎn)是,將世界模型引入了代碼生成任務(wù)中。
簡(jiǎn)言之,該模型的核心正如 Yann LeCun 所言:生成代碼時(shí),通過提前預(yù)測(cè)即將生成的代碼指令可能產(chǎn)生的效果,來更好地規(guī)劃出能夠滿足人類期望達(dá)成的效果的代碼,從而改進(jìn)生成代碼的質(zhì)量。
當(dāng)人類進(jìn)行規(guī)劃時(shí),我們會(huì)設(shè)想不同行動(dòng)可能產(chǎn)生的結(jié)果。
當(dāng)人類思考代碼時(shí),會(huì)在腦海中模擬其部分執(zhí)行過程。
而目前市面上的主流語言模型,還很難做到這一點(diǎn)。
專門訓(xùn)練一個(gè)代碼世界模型,補(bǔ)足這一點(diǎn),生成代碼的效果會(huì)不會(huì)好很多,是 Meta 要通過本次發(fā)布的 CWM 驗(yàn)證的猜想。

CWM 基于大量編程數(shù)據(jù),加上專門定制的 Python 和 Bash(Linux 和 macOS 的命令行解釋器腳本語言)的世界建模數(shù)據(jù),進(jìn)行該模型的訓(xùn)練。
通過這種訓(xùn)練,CWM 能夠模擬 Python 程序在 Bash 環(huán)境中的執(zhí)行及與 Agent 之間的交互。
對(duì)于「數(shù)數(shù) strawberry 中有多少個(gè) r」這個(gè)難倒無數(shù)大模型的問題,CWM 也用類似 pdb(Python Debug 用的調(diào)試器)的形式演示了其工作流程:


CWM 直接發(fā)布了 3 個(gè)不同的 Checkpoint,用于不同目的。


「光說不練假把式」,我們直接看看這個(gè) 32B 的小參數(shù)大模型在各類編程基準(zhǔn)測(cè)試中的表現(xiàn)如何。
SWE-bench Verified 是一個(gè)真實(shí)開源項(xiàng)目修復(fù)的最常用的編程評(píng)測(cè)標(biāo)準(zhǔn),讓模型在真實(shí)的大型開源倉庫里,根據(jù) GitHub issue+failing tests,定位并修復(fù)缺陷,最終以自動(dòng)化測(cè)試是否全部通過來判定是否解決。
在該項(xiàng)測(cè)試中,32B 小參數(shù)的 CWM 成績(jī)?yōu)?65.8%,遜于 Qwen3-Coder 和 Kimi-K2-Instruct,與閉源的 Gemini-2.5-Thinking 接近,屬于開源陣營(yíng)第一梯隊(duì)了。

其他測(cè)試成績(jī) Alexandr Wang 也直接發(fā)出來了:
LiveCodeBench:68.6%
Math-500:96.6%
AIME 2024:76.0%

CWM 模型算是 Meta 的一次概念驗(yàn)證,投入了不算多的算力訓(xùn)練這個(gè)小參數(shù)大模型,主要是為了檢驗(yàn)將世界模型引入代碼生成任務(wù)是否會(huì)顯著提高生成代碼質(zhì)量。
換言之,我們今日看到的這個(gè)模型只能算 Demo。大的還在后面?
參考資料:
https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
https://x.com/syhw/status/1970960837721653409
https://x.com/AIatMeta/status/1970963571753222319
https://x.com/ylecun/status/1970967341052854748
https://x.com/alexandr_wang/status/1970973317227225433
本文來自微信公眾號(hào):新智元(ID:AI_era)
本文鏈接:http://www.www897cc.com/showinfo-45-28134-0.htmlLeCun 團(tuán)隊(duì)開源首款代碼世界模型,能像程序員一樣思考的 LLM 來了
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com