3 月 12 日晚間,谷歌 DeepMind 在機(jī)器人 AI 領(lǐng)域扔下 “重磅炸彈”,一口氣推出兩款新型 AI 模型,為機(jī)器人在現(xiàn)實(shí)世界中的應(yīng)用帶來(lái)了全新突破。
先來(lái)說(shuō)說(shuō) Gemini Robotics,這是一款視覺(jué)語(yǔ)言行動(dòng)模型,它的厲害之處在于,能讓機(jī)器人在沒(méi)有經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的情況下,迅速理解并適應(yīng)全新的場(chǎng)景。Gemini Robotics 是基于谷歌的旗艦 AI 模型 Gemini 2.0 開(kāi)發(fā)的,就像是給 Gemini 2.0 裝上了 “現(xiàn)實(shí)行動(dòng)” 的翅膀。
谷歌 DeepMind 機(jī)器人部門(mén)的高級(jí)總監(jiān) Carolina Parada 介紹,Gemini Robotics 借助 Gemini 2.0 強(qiáng)大的多模態(tài)理解能力,融入物理行動(dòng)這一新模態(tài),成功打通了 AI 與現(xiàn)實(shí)世界交互的通道。在通用性、互動(dòng)性和靈活性這三個(gè)機(jī)器人高效運(yùn)作的關(guān)鍵領(lǐng)域,Gemini Robotics 都取得了顯著進(jìn)展。它不僅能應(yīng)對(duì)各種新情況,在與人類(lèi)和周?chē)h(huán)境互動(dòng)時(shí)表現(xiàn)得更加出色,還能完成像折紙、開(kāi)瓶蓋這類(lèi)精細(xì)的物理操作。
另一款 Gemini Robotics - ER(具象推理)模型也不容小覷,它被視為一種先進(jìn)的視覺(jué)語(yǔ)言模型,具備 “理解復(fù)雜動(dòng)態(tài)世界” 的能力。Parada 舉例說(shuō),當(dāng)我們準(zhǔn)備裝便當(dāng)盒時(shí),需要考慮桌上物品的擺放位置和操作方式,而 Gemini Robotics - ER 就是為解決這類(lèi)推理任務(wù)而設(shè)計(jì)的。機(jī)器人專(zhuān)家可以通過(guò)它與現(xiàn)有的低級(jí)控制系統(tǒng)對(duì)接,為機(jī)器人解鎖更多新功能。
本文鏈接:http://www.www897cc.com/showinfo-27-137073-0.html谷歌 DeepMind 放大招:新 AI 模型賦能機(jī)器人 “自學(xué)成才”
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 高通立下 “軍令狀”:2026 年驍龍 X PC 機(jī)型破百
下一篇: 寶馬與華為聯(lián)手開(kāi)發(fā)鴻蒙系統(tǒng)智能應(yīng)用,2025年新車(chē)型將率先搭載