在人工智能領(lǐng)域迎來又一重大突破之際,智元機(jī)器人公司于近日震撼發(fā)布了其首個(gè)通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創(chuàng)新成果不僅標(biāo)志著機(jī)器人在理解與執(zhí)行人類指令方面邁出了關(guān)鍵一步,更為具身智能的未來發(fā)展鋪設(shè)了廣闊道路。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。VLM作為模型的主干網(wǎng)絡(luò),依托互聯(lián)網(wǎng)上的海量文本與圖文數(shù)據(jù),賦予了GO-1強(qiáng)大的場景感知與理解能力。而MoE則進(jìn)一步細(xì)分為隱動(dòng)作專家模型和動(dòng)作專家模型,前者通過學(xué)習(xí)互聯(lián)網(wǎng)上的人類操作視頻,使模型能夠理解并執(zhí)行復(fù)雜動(dòng)作;后者則借助高質(zhì)量的仿真與真實(shí)機(jī)器數(shù)據(jù),確保動(dòng)作的精準(zhǔn)執(zhí)行。
GO-1展現(xiàn)出了多方面的卓越特性。其采訓(xùn)推一體化設(shè)計(jì),確保了數(shù)據(jù)采集、模型訓(xùn)練與推理的無縫銜接,大大提高了效率。小樣本快速泛化能力更是令人矚目,即使在數(shù)據(jù)稀缺的情況下,也能迅速適應(yīng)新場景與新任務(wù)。尤為值得一提的是“一腦多形”功能,使得GO-1能夠輕松遷移至不同形態(tài)的機(jī)器人本體,實(shí)現(xiàn)快速適配。借助智元的數(shù)據(jù)回流系統(tǒng),GO-1能夠持續(xù)進(jìn)化,從實(shí)際執(zhí)行中汲取經(jīng)驗(yàn),不斷優(yōu)化自身性能。而人類視頻學(xué)習(xí)能力,則讓模型能夠結(jié)合互聯(lián)網(wǎng)視頻與真實(shí)人類示范,深化對(duì)人類行為的理解。
GO-1的構(gòu)建基于具身領(lǐng)域的數(shù)字金字塔模型,從底層的互聯(lián)網(wǎng)純文本與圖文數(shù)據(jù),到上層的人類操作視頻、仿真數(shù)據(jù),直至頂層的真機(jī)示教數(shù)據(jù),每一層都為機(jī)器人的“基礎(chǔ)教育”與“能力培訓(xùn)”提供了堅(jiān)實(shí)支撐。這種全面的知識(shí)體系,使得GO-1能夠輕松應(yīng)對(duì)多樣化的環(huán)境與物體,快速學(xué)習(xí)并執(zhí)行新操作。
在實(shí)際應(yīng)用中,GO-1的表現(xiàn)同樣令人印象深刻。無論是家庭場景中的倒水、烤吐司,還是商業(yè)活動(dòng)中的檢票、發(fā)放物料,甚至是商務(wù)會(huì)議中的拿飲料、拿蘋果等指令,GO-1都能迅速響應(yīng)并精準(zhǔn)執(zhí)行。更令人興奮的是,通過數(shù)據(jù)回流機(jī)制,GO-1能夠不斷從執(zhí)行中學(xué)習(xí),即使初次嘗試出現(xiàn)失誤,也能在后續(xù)任務(wù)中不斷改進(jìn),直至完美完成任務(wù)。
GO-1的發(fā)布,無疑為具身智能的發(fā)展注入了強(qiáng)勁動(dòng)力。它打破了傳統(tǒng)機(jī)器人局限于單一任務(wù)、封閉環(huán)境的束縛,實(shí)現(xiàn)了從多種任務(wù)到開放世界的跨越,讓機(jī)器人能夠更好地適應(yīng)多變的真實(shí)世界。這一創(chuàng)新成果,不僅預(yù)示著機(jī)器人將在更多場景中發(fā)揮重要作用,更為人工智能的未來發(fā)展開辟了無限可能。
本文鏈接:http://www.www897cc.com/showinfo-45-11423-0.html智元發(fā)布通用具身基座大模型GO-1,新人形機(jī)器人即將亮相!
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com