在機(jī)器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創(chuàng)新成果近日由智元機(jī)器人公司正式發(fā)布。這款通用具身基座模型,以其獨特的Vision-Language-Latent-Action(ViLLA)框架,為機(jī)器人領(lǐng)域帶來了革命性的突破。
ViLLA框架由兩大核心組件構(gòu)成:VLM(多模態(tài)大模型)與MoE(混合專家)。VLM作為GO-1的主干網(wǎng)絡(luò),基于開源多模態(tài)大模型5-2B的權(quán)重進(jìn)行訓(xùn)練,通過互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù),賦予了GO-1強(qiáng)大的場景感知和理解能力。而MoE則包含了隱動作專家模型和動作專家模型,前者利用互聯(lián)網(wǎng)上的大規(guī)模人類操作和跨本體操作視頻,使模型能夠理解并執(zhí)行各種動作;后者則通過高質(zhì)量的仿真數(shù)據(jù)和真機(jī)數(shù)據(jù),確保了動作的精細(xì)執(zhí)行能力。
GO-1的發(fā)布,標(biāo)志著機(jī)器人在小樣本快速泛化、跨本體應(yīng)用等方面取得了顯著進(jìn)展。該模型能夠在極少數(shù)據(jù)甚至零樣本的情況下,快速適應(yīng)新場景和新任務(wù),實現(xiàn)“一腦多形”的跨本體部署。同時,智元機(jī)器人還預(yù)告,未來幾個月將推出基于強(qiáng)化學(xué)習(xí)的仿真模型,并即將亮相新的人形機(jī)器人。
GO-1的成功,得益于其獨特的數(shù)字金字塔構(gòu)建方式。底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),為機(jī)器人提供了廣泛的知識基礎(chǔ)。在此基礎(chǔ)上,通過引入互聯(lián)網(wǎng)的大規(guī)模人類操作/跨本體視頻和仿真數(shù)據(jù),GO-1得以學(xué)習(xí)各種動作操作模式,并增強(qiáng)泛化性。金字塔的頂層則是高質(zhì)量的真機(jī)示教數(shù)據(jù),用于訓(xùn)練精準(zhǔn)動作執(zhí)行。
在實際應(yīng)用中,GO-1展現(xiàn)出了卓越的性能。用戶只需通過簡單的語言指令,機(jī)器人就能根據(jù)場景和物體理解指令的含義,并快速執(zhí)行相應(yīng)動作。例如,用戶告訴機(jī)器人“掛衣服”,機(jī)器人就能根據(jù)所學(xué)知識和仿真數(shù)據(jù),理解掛衣服的步驟,并精準(zhǔn)完成任務(wù)。GO-1還能通過數(shù)據(jù)回流系統(tǒng)持續(xù)進(jìn)化,從實際執(zhí)行中遇到的問題數(shù)據(jù)中不斷學(xué)習(xí),提高任務(wù)完成的成功率。
GO-1的應(yīng)用場景廣泛,從家庭場景中的準(zhǔn)備餐食、收拾桌面,到辦公和商業(yè)場景中的接待訪客、發(fā)放物品,再到工業(yè)等其他場景的操作任務(wù),都能輕松應(yīng)對。這意味著機(jī)器人將能夠走向更多不同場景,適應(yīng)多變的真實世界,為人類的工作和生活帶來更多便利。
智元啟元大模型GO-1的發(fā)布,不僅為機(jī)器人領(lǐng)域帶來了技術(shù)上的突破,更為具身智能的通用化、開放化與智能化發(fā)展開辟了新道路。未來,隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展,機(jī)器人將在更多領(lǐng)域發(fā)揮重要作用,為人類創(chuàng)造更加美好的生活和工作環(huán)境。
本文鏈接:http://www.www897cc.com/showinfo-45-11417-0.html智元啟元大模型GO-1發(fā)布,具身智能邁向新高度,新人形機(jī)器人即將亮相!
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com