當前位置：首頁 > 科技 > 軟件

只用 13 天，OpenAI 做出了能聽、能說、能自主決策的機器人大模型

來源：責編：時間：2024-03-18 09:29:04 201觀看

導讀作者|LiYuan編輯|鄭玄資深機器人專家 Eric Jang 不久前曾預言：「ChatGPT 曾在一夜之間出現。我認為，有智慧的機器人技術也將如此。」他或許說對了。北京時間 3 月 13 日深夜，一段人形機器人的視頻開始在 X 上熱

作者|LiYuan

編輯|鄭玄

資深機器人專家 Eric Jang 不久前曾預言：「ChatGPT 曾在一夜之間出現。我認為，有智慧的機器人技術也將如此。」

他或許說對了。

北京時間 3 月 13 日深夜，一段人形機器人的視頻開始在 X 上熱傳。

之前從未展示過機器人方向能力的 OpenAI，在與投資公司的人形機器人的合作中，第一次展示了自己的機器人智能能力。

Figure，OpenAI 投資的機器人公司，上傳了這段視頻。在視頻中，Figure 的人形機器人，可以完全與人類流暢對話，理解人類的意圖，同時還能理解人的自然語言指令進行抓取和放置，并解釋自己為什么這么做。

而其背后，就是 OpenAI 為其配置的智能大腦。

在過去一年的具身智能進展中，或許你曾經看過類似的機器人自主決策、拿取物品的展示，但在這段視頻中，Figure 人形機器人的對話流暢度、展現出的智能感，接近人類操作速度的動作流暢性，絕對都是第一流的。

Figure 還特意強調，整段視頻沒有任何加速，也沒有任何剪輯，是一鏡到底拍攝的。同時，機器人是在完全自主的情況下進行的行為，沒有任何遠程操縱 —— 似乎在暗暗諷刺前段時間爆火的展現了酷炫機械能力，但是沒有太多智能程度的斯坦福炒菜機器人。

比起機器人的智能表現，更可怖的是，這只是 OpenAI 小試牛刀的結果 —— 從 OpenAI 宣布與 Figure 共同合作推進人形機器人領域的前沿，到這個視頻的發布，只有短短的十三天。

此次 Figure 人形機器人背后的智能，來自端到端的大語言-視覺模型，這是具身智能領域目前非常前沿的領域。去年極客公園報道過谷歌在類似領域的進展。谷歌做出的端到端機器人控制模型，被一些行業內的人士，譽為機器人大模型的 GPT-3 時刻。

而當時，谷歌的機器人模型，還只能根據對話來做一些抓取，并不能與人類對話，也不能向人類解釋自己為什么會這么做。而谷歌自身，從 Everyday Robotics 開始，已經有了五年以上的機器人研究經驗。

而 Figure 本身，成立于 2022 年。從 OpenAI 宣布介入與之合作，到今天它們共同推出一個能夠自主對話和決策的機器人，只有 13 天。

機器人智能的發展，顯然正在加速。

01. 端到端大模型驅動，機器人的速度已經接近人類速度

Figure 的創始人 Brett Adcock 和 AI 團隊的負責人 Corey Lynch 在 X 上解釋了此次視頻中機器人互動背后的原理。

此次的突破，由 OpenAI 與 Figure 共同做出。OpenAI 提供負責提供視覺推理和語言理解，而 Figure 的神經網絡提供快速、低水平、靈巧的機器人動作。

機器人所做出的所有行為都是出于已經學習過，內化了的能力，而不是來自遠程操作。

研究人員將機器人攝像頭中的圖像輸入，和機載麥克風捕獲的語音中的文本轉錄到由 OpenAI 訓練的，可以理解圖像和文本的多模態模型（VLM）中，由該模型處理對話的整個歷史記錄，得出語言響應，然后通過文本到語音的方式將其回復給人類。

同樣的模型，也負責決定在機器人上運行哪些學習的閉環行為來完成給定的命令，將特定的神經網絡權重加載到 GPU 上并執行策略。

這也是為什么這個機器人，屬于「端到端」的機器人控制。從語言輸入開始，模型接管了一切處理，直接輸出語言和行為結果，而不是中間輸出一些結果，再加載其他程序處理這些結果。

Figure 的機載攝像頭以 10hz 的頻率拍攝圖像，然后神經網絡以 200hz 輸出 24 個自由度動作。

Figure 的創始人提到，這代表機器人的速度已經有顯著提高，開始接近人類的速度。

圖片來源：Corey Lynch 的 X

OpenAI 的模型的多模態能力，是機器人可以與世界交互的關鍵，我們能夠從視頻中展示中看到許多類似的瞬間，比如：

描述一下它的周圍環境。

做出決定時使用常識推理。例如，「桌子上的盤子和杯子等餐具接下來很可能會進入晾衣架」。

將「我餓了」等模棱兩可的高級請求轉化為一些適合上下文的行為，例如「遞給對方一個蘋果」。

用簡單的英語描述 * 為什么 * 它會執行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用的物品」。

而模型能力的強大，使其還能夠擁有短期記憶，比如視頻中展示的「你能把它們放在那里嗎？」「它們」指的是什么？「那里」又在哪里？正確回答需要反思記憶的能力。

而具體的雙手動作，可以分成兩步來理解：

首先，互聯網預訓練模型對圖像和文本進行常識推理，以得出高級計劃。如視頻中展示的：Figure 的人形機器人快速形成了兩個計劃：1）將杯子放在碗碟架上，2）將盤子放在碗碟架上。

其次，大模型以 200hz 的頻率生成的 24-DOF 動作（手腕姿勢和手指關節角度），充當高速「設定點（setpoint）」，供更高速率的全身控制器跟蹤。全身控制器確保安全、穩定的動力，如保持平衡。

所有行為均由神經網絡視覺運動 Transformer 策略驅動，將像素直接映射到動作。

02.從 ChatGPT 到 Sora，再到機器人，OpenAI 想包攬「智能」這件事

2021 年夏天，OpenAI 悄悄關閉了其機器人團隊，當時，OpenAI 曾宣布無限期終止對機器人領域的探索，原因是缺乏訓練機器人使用人工智能移動和推理所需的數據，導致研發受到阻礙。

但顯然，OpenAI 并沒有放下對這個領域的關注。

2023 年 3 月，正在一年前，極客公園報道了OpenAI投資了來自挪威的機器人制造商 1X Technologies。其副總裁正是我在文初提到的，認為具身智能將會突然到來的 Eric Jang。

而無獨有偶，1X Technologies 的技術方向，也是端到端的神經網絡對于機器人的控制。

而今年 3 月初，OpenAI和其他投資人一起，參與了 Figure 的 B 輪融資，使其成立兩年，就達到了 26 億美金估值。

也正是在這一輪融資之后，OpenAI 宣布了與 Figure 的合作。

Figure 的創始人 Brett Adcock，是個「擅長組局」的連續創業者，整個職業生涯中創立過至少 7 家公司，其中一家以 27 億美元的估值上市，一家被 1.1 億美元的價格收購。

創建公司后，他招募到了研究科學家 Jerry Pratt 擔任首席技術官，前波士頓動力 / 蘋果工程師 Michael Rose 擔任機器人控制主管。此次進行分享的 AI 團隊負責人 Corey Lynch，則原本是 Google Deepmind 的 AI 研究員。

Figure 宣布自己在電機、固件、熱量、電子產品、中間件操作系統、電池系統、執行器傳感器、機械與結構方面，都招募了硬核的設計人才。

公司的確進展很快。在與 OpenAI 合作之前，已經做出了不少成績。2024 年 1 月，Figure 01（Figure 的第一款人形機器人）學會了做咖啡，公司稱，這背后引入了端到端神經網絡，機器人學會自己糾正錯誤，訓練時長為 10 小時。

Figure 01 引入 AI 學會做咖啡｜圖片來源：Figure

2 月，公司對外展示 Figure 01 的最新進展，在視頻里，這個機器人已經學會搬箱子，并運送到傳送帶上，但速度只有人類的 16.7%。

甚至在商業化上，也已經邁出了第一步：Figure 宣布與寶馬制造公司簽署商業協議，將 AI 和機器人技術整合到汽車生產中，部署在寶馬位于南卡羅來納州斯巴達堡的制造工廠。

而在今天的視頻展示推文中，Figure 宣布其目標是訓練一個世界模型，最終能夠賣出十億個級別的模型驅動的人形機器人。

不過，盡管 OpenAI 與 Figure 的合作進展順暢，但看起來 OpenAI 并未把寶壓在一家機器人公司。

北京時間 3 月 13 日，來自谷歌研究團隊、加州大學伯克利分校、斯坦福大學教授等一群研究者新成立的一家機器人 AI 公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI 的融資。

毫無意外，該公司，也是研究未來能夠成為通用機器人系統的人工智能。

多頭下注機器人領域，13 天合作做出領先的機器人大模型，OpenAI 在機器人領域意圖為何，引人關注。

智能人形機器人，未來不止看馬斯克的了。

本文來自微信公眾號：極客公園（ID：geekpark），作者：Li Yuan

本文鏈接：http://www.www897cc.com/showinfo-26-76165-0.html只用 13 天，OpenAI 做出了能聽、能說、能自主決策的機器人大模型

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：查漏補缺，盤點和Toggle相關的幾個API

下一篇：僅推出兩年，星巴克放棄“Odyssey NFT”計劃

標簽：

熱門焦點

6月安卓手機性能榜：vivo/iQOO霸占旗艦排行榜前三

2023年上半年已經正式過去了，我們也迎來了安兔兔V10版本，在新的驍龍8Gen3和天璣9300發布之前，性能榜的榜單大體會以驍龍8Gen2和天璣9200+為主，至于那顆3.36GHz的驍龍8Gen2領先
.NET 程序的 GDI 句柄泄露的再反思

一、背景1. 講故事上個月我寫過一篇如何洞察 C# 程序的 GDI 句柄泄露文章，當時用的是 GDIView + WinDbg 把問題搞定，前者用來定位泄露資源，后者用來定位泄露代碼，后面有朋友反
OPPO、vivo、小米等國內廠商Q2在印度智能手機市場份額依舊高達55%

7月20日消息，據外媒報道，研究機構的報告顯示，在全球智能手機出貨量同比仍在下滑的大背景下，印度這一有潛力的市場也未能幸免，出貨量同比也有下滑，多家廠
消息稱小米汽車開始篩選交付中心：需至少120個車位

IT之家 7 月 7 日消息，日前，有微博簡介為“汽車行業從業者、長三角一體化擁護者”的微博用戶 @長三角行健者發文表示，據經銷商集團反饋，小米汽車目前
國行版三星Galaxy Z Fold5/Z Flip5發布售價7499元起

2023年8月3日，三星電子舉行Galaxy新品中國發布會，正式在國內推出了新一代折疊屏智能手機三星Galaxy Z Fold5與Galaxy Z Flip5，以及三星Galaxy Tab S9
iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

在昨日舉行的的聯發科新一代旗艦芯片天璣9200+的發布會上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發搭載這款當前性能最強大的移動平臺
質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有
英特爾Xe-HP項目終止，將專注Xe-HPC/HPG系列顯卡

據10 月 31 日消息報道，英特爾高級副總裁兼加速計算系統和圖形事業部總經理表示，Xe-HP“ Arctic Sound” 系列服務器 GPU 已經應用于 oneAPI devcloud 云服
由于成本持續增加，筆記本產品價格預計將明顯上漲

根據知情人士透露，由于材料、物流等成本持續增加，筆記本產品價格預計將在2021年下半年有明顯上漲。進入6月下旬以來，全球半導體芯片缺貨情況加劇，顯卡、處理器

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

只用 13 天，OpenAI 做出了能聽、能說、能自主決策的機器人大模型

6月安卓手機性能榜：vivo/iQOO霸占旗艦排行榜前三

.NET 程序的 GDI 句柄泄露的再反思

OPPO、vivo、小米等國內廠商Q2在印度智能手機市場份額依舊高達55%

消息稱小米汽車開始篩選交付中心：需至少120個車位

國行版三星Galaxy Z Fold5/Z Flip5發布售價7499元起

iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

英特爾Xe-HP項目終止，將專注Xe-HPC/HPG系列顯卡

由于成本持續增加，筆記本產品價格預計將明顯上漲

最新推薦

猜你喜歡

熱門推薦

相關資訊