8 月 16 日消息,研究機構(gòu) Ai2 現(xiàn)已在 GitHub 開源了旗下 MolmoAct 機器人“行動推理模型”(Action Reasoning Model,ARM)模型,該模型主要運用于具身機器人場景,號稱可以解決機器人在三維空間中的動作規(guī)劃與理解問題。
據(jù)介紹,與傳統(tǒng)僅依賴文字描述推導(dǎo)動作的視覺語言行動模型(VLA)不同,MolmoAct 旨在克服語言難以完整表達(dá)三維環(huán)境深度和距離關(guān)系的不足。因此 MolmoAct 在第一階段會首先生成由 VQVAE 預(yù)訓(xùn)練得到的空間感知 Token,相應(yīng) Token 同時包含幾何結(jié)構(gòu)與位置信息,可用于評估物體間的距離,并為后續(xù)規(guī)劃提供基礎(chǔ)。
而在第二階段,模型會在圖像空間中生成一系列路徑點,作為任務(wù)的中間目標(biāo),直觀展示動作展開的順序。第三階段,路徑點會被轉(zhuǎn)化為機器人末端執(zhí)行器或機械爪的低層馬達(dá)指令,并根據(jù)機器人運動學(xué)配置進行動作解碼。
研究團隊指出,在名為 SimplerEnv 的模擬測試環(huán)境中,MolmoAct-7B 在訓(xùn)練集未見過的任務(wù)中達(dá)到了 72.1% 的成功率,優(yōu)于 Physical Intelligence、谷歌、微軟和英偉達(dá)等實驗室的對照模型。在 LIBERO 模擬平臺的多任務(wù)與終身學(xué)習(xí)測試中,經(jīng)過高效參數(shù)微調(diào),平均成功率提升至 86.6%。同時,相比業(yè)界 AI 機器人大模型,MolmoAct 的訓(xùn)練成本更低:預(yù)訓(xùn)練僅使用了 2630 萬樣本和 256 顆 H100 GPU,大約 1 天即可完成;微調(diào)則只需 64 顆 H100,約 2 小時即可完成。
此外,為降低機器人操作風(fēng)險并提升可解釋性,MolmoAct 在執(zhí)行動作前會將內(nèi)部規(guī)劃的運動軌跡疊加到輸入圖像上,用戶可以直接查看并修正動作方案。同時,用戶還可以通過平板等設(shè)備使用手繪方式標(biāo)注目標(biāo)姿態(tài)或路徑,模型會即時整合這些標(biāo)注進行一系列調(diào)整。
目前,Ai2 已在 GitHub 同步開源了 MolmoAct-7B 的完整資源(https://github.com/allenai/MolmoAct),官方強調(diào),這些資源與工具可以幫助其他研究團隊在不同機器人平臺和任務(wù)中充分驗證與優(yōu)化。
本文鏈接:http://www.www897cc.com/showinfo-45-26190-0.html可實現(xiàn)三重空間感知:Ai2 開源具身機器人 AI 模型 MolmoAct
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 2026款零跑B01購車攻略:高性價比之選,650悅享版值得入手
下一篇: 谷歌開源 Gemma 家族最輕量模型 Gemma 3 270M:2.7 億參數(shù)可靈活用于 手機平板端側(cè)及 Web 環(huán)境