在機器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創(chuàng)新成果近日由智元機器人公司正式發(fā)布。這款通用具身基座模型標(biāo)志著機器人在理解并執(zhí)行人類指令方面邁出了重要一步。
GO-1的核心在于其獨特的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。這一組合不僅賦予了GO-1強大的場景感知與理解能力,還使其能夠迅速適應(yīng)不同的機器人本體,實現(xiàn)了從理論到實踐的跨越。
VLM作為GO-1的主干網(wǎng)絡(luò),通過繼承開源多模態(tài)大模型的權(quán)重,并利用互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù),使機器人具備了廣泛的場景理解能力。而MoE中的隱動作專家模型和動作專家模型,則分別通過學(xué)習(xí)互聯(lián)網(wǎng)上的大規(guī)模人類操作和跨本體操作視頻,以及高質(zhì)量的仿真數(shù)據(jù)和真機數(shù)據(jù),進一步提升了GO-1的動作理解和執(zhí)行能力。
GO-1的發(fā)布,意味著機器人技術(shù)迎來了小樣本快速泛化的新時代。這款模型能夠在極少數(shù)據(jù)甚至零樣本的情況下,迅速適應(yīng)新場景和新任務(wù),大大降低了后訓(xùn)練成本。同時,“一腦多形”的特性使其能夠在不同機器人形態(tài)之間自由遷移,快速適配到各種本體。
智元機器人在構(gòu)建GO-1時,采用了數(shù)字金字塔的設(shè)計理念。從底層的大規(guī)模純文本與圖文數(shù)據(jù),到上層的人類操作/跨本體視頻、仿真數(shù)據(jù),再到頂層的真機示教數(shù)據(jù),每一層都為機器人的“基礎(chǔ)教育”和“能力培訓(xùn)”提供了堅實的基礎(chǔ)。這使得GO-1能夠輕松面對多種多樣的環(huán)境和物體,快速學(xué)習(xí)新的操作。
在實際應(yīng)用中,GO-1展現(xiàn)出了驚人的表現(xiàn)。用戶只需用平常講話的方式告訴機器人要做的事情,比如“掛衣服”,機器人就能根據(jù)所學(xué)習(xí)的知識和數(shù)據(jù),迅速理解并執(zhí)行任務(wù)。無論是家庭場景中的倒水、烤吐司,還是商務(wù)會議中的拿飲料、拿蘋果,GO-1都能快速響應(yīng),精準完成。
GO-1還具備持續(xù)進化的能力。通過數(shù)據(jù)回流系統(tǒng),機器人可以從實際執(zhí)行中遇到的問題數(shù)據(jù)中不斷學(xué)習(xí),持續(xù)改進自己的表現(xiàn)。例如,當(dāng)機器人在做咖啡時不小心把杯子放歪了,它就能從這次失敗中吸取教訓(xùn),下次做得更好。
智元機器人的這一創(chuàng)新成果,無疑為具身智能的發(fā)展注入了新的活力。GO-1的出現(xiàn),意味著機器人將能夠更快地適應(yīng)多變的真實世界,從家庭到辦公、從商業(yè)到工業(yè),各種場景下的應(yīng)用都將變得更加便捷和高效。這不僅將極大地提升人類的生活質(zhì)量和工作效率,還將為機器人技術(shù)的未來發(fā)展開辟更加廣闊的道路。
本文鏈接:http://www.www897cc.com/showinfo-45-11421-0.html智元機器人發(fā)布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com