在機(jī)器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創(chuàng)新產(chǎn)品于近日震撼發(fā)布,標(biāo)志著通用具身基座模型技術(shù)邁出了重要一步。這款由智元機(jī)器人精心打造的模型,憑借其獨(dú)特的Vision-Language-Latent-Action(ViLLA)框架,正引領(lǐng)著機(jī)器人智能化發(fā)展的新潮流。
GO-1的核心競爭力在于其ViLLA框架,該框架巧妙融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。VLM作為模型的主干網(wǎng)絡(luò),通過吸收互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù),賦予了GO-1強(qiáng)大的場景感知和理解能力。而MoE則通過隱動(dòng)作專家模型和動(dòng)作專家模型的協(xié)同作用,使GO-1具備了動(dòng)作的理解和精細(xì)執(zhí)行能力。
GO-1的五大特點(diǎn)尤為引人注目:采訓(xùn)推一體化設(shè)計(jì),確保了數(shù)據(jù)采集、模型訓(xùn)練和推理的無縫銜接;小樣本快速泛化能力,使得GO-1能夠在極少數(shù)據(jù)甚至零樣本的情況下,迅速適應(yīng)新場景和新任務(wù);一腦多形特性,意味著GO-1可以輕松遷移至不同形態(tài)的機(jī)器人,實(shí)現(xiàn)跨本體應(yīng)用;持續(xù)進(jìn)化機(jī)制,借助智元的數(shù)據(jù)回流系統(tǒng),GO-1能夠不斷從實(shí)際執(zhí)行中遇到的問題中學(xué)習(xí)成長;人類視頻學(xué)習(xí)能力,則讓GO-1能夠結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范,深化對人類行為的理解。
在構(gòu)建過程中,GO-1采用了數(shù)字金字塔的設(shè)計(jì)理念。底層基于互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),為機(jī)器人提供了廣泛的知識(shí)基礎(chǔ)。其上則是人類操作和跨本體視頻數(shù)據(jù),幫助機(jī)器人學(xué)習(xí)各種動(dòng)作操作模式。再往上,仿真數(shù)據(jù)增強(qiáng)了GO-1的泛化性,使其能夠應(yīng)對不同場景和物體。而金字塔的頂層,則是高質(zhì)量的真機(jī)示教數(shù)據(jù),確保了GO-1精準(zhǔn)動(dòng)作執(zhí)行的能力。
ViLLA框架的引入,使得GO-1能夠?qū)⒍嘞鄼C(jī)視覺信號(hào)和人類語言指令直接轉(zhuǎn)化為機(jī)器人的動(dòng)作執(zhí)行。與傳統(tǒng)的Vision-Language-Action(VLA)模型相比,ViLLA通過預(yù)測隱式動(dòng)作標(biāo)記(Latent Action Tokens),有效彌合了圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝。例如,當(dāng)用戶以自然語言指令“掛衣服”時(shí),GO-1能夠迅速理解指令含義,結(jié)合所學(xué)的人類操作視頻和仿真數(shù)據(jù),精準(zhǔn)完成掛衣服的任務(wù)。
GO-1的廣泛應(yīng)用場景同樣令人矚目。從家庭場景中的準(zhǔn)備餐食、收拾桌面,到辦公和商業(yè)場景的接待訪客、發(fā)放物品,再到工業(yè)等更多領(lǐng)域的操作任務(wù),GO-1都能迅速適應(yīng)并高效完成。GO-1的數(shù)據(jù)回流機(jī)制還使其能夠持續(xù)進(jìn)化,不斷從實(shí)際執(zhí)行中優(yōu)化自身性能。
智元機(jī)器人的這一創(chuàng)新成果,不僅為機(jī)器人智能化發(fā)展樹立了新的里程碑,更為機(jī)器人走進(jìn)千家萬戶、服務(wù)各行各業(yè)提供了強(qiáng)有力的技術(shù)支撐。隨著GO-1的不斷推廣和應(yīng)用,我們有理由相信,一個(gè)更加智能化、便捷化的機(jī)器人時(shí)代即將到來。
本文鏈接:http://www.www897cc.com/showinfo-45-11392-0.html智元機(jī)器人發(fā)布通用基座大模型GO-1,新人形機(jī)器人亮相在即
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com