在人工智能領域迎來又一重大突破之際,智元機器人公司于近日震撼發布了其首個通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創新成果不僅標志著機器人在理解與執行人類指令方面邁出了關鍵一步,更為具身智能的未來發展鋪設了廣闊道路。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態大模型)與MoE(混合專家)技術。VLM作為模型的主干網絡,依托互聯網上的海量文本與圖文數據,賦予了GO-1強大的場景感知與理解能力。而MoE則進一步細分為隱動作專家模型和動作專家模型,前者通過學習互聯網上的人類操作視頻,使模型能夠理解并執行復雜動作;后者則借助高質量的仿真與真實機器數據,確保動作的精準執行。
GO-1展現出了多方面的卓越特性。其采訓推一體化設計,確保了數據采集、模型訓練與推理的無縫銜接,大大提高了效率。小樣本快速泛化能力更是令人矚目,即使在數據稀缺的情況下,也能迅速適應新場景與新任務。尤為值得一提的是“一腦多形”功能,使得GO-1能夠輕松遷移至不同形態的機器人本體,實現快速適配。借助智元的數據回流系統,GO-1能夠持續進化,從實際執行中汲取經驗,不斷優化自身性能。而人類視頻學習能力,則讓模型能夠結合互聯網視頻與真實人類示范,深化對人類行為的理解。
GO-1的構建基于具身領域的數字金字塔模型,從底層的互聯網純文本與圖文數據,到上層的人類操作視頻、仿真數據,直至頂層的真機示教數據,每一層都為機器人的“基礎教育”與“能力培訓”提供了堅實支撐。這種全面的知識體系,使得GO-1能夠輕松應對多樣化的環境與物體,快速學習并執行新操作。
在實際應用中,GO-1的表現同樣令人印象深刻。無論是家庭場景中的倒水、烤吐司,還是商業活動中的檢票、發放物料,甚至是商務會議中的拿飲料、拿蘋果等指令,GO-1都能迅速響應并精準執行。更令人興奮的是,通過數據回流機制,GO-1能夠不斷從執行中學習,即使初次嘗試出現失誤,也能在后續任務中不斷改進,直至完美完成任務。
GO-1的發布,無疑為具身智能的發展注入了強勁動力。它打破了傳統機器人局限于單一任務、封閉環境的束縛,實現了從多種任務到開放世界的跨越,讓機器人能夠更好地適應多變的真實世界。這一創新成果,不僅預示著機器人將在更多場景中發揮重要作用,更為人工智能的未來發展開辟了無限可能。
本文鏈接:http://www.www897cc.com/showinfo-45-11423-0.html智元發布通用具身基座大模型GO-1,新人形機器人即將亮相!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com