當(dāng)前位置：首頁 > 科技 > 知識百科

將點云與RGB圖像結(jié)合，谷歌&amp;Waymo提出的4D-Net，檢測遠(yuǎn)距離目標(biāo)

來源：責(zé)編：時間：2023-08-07 16:29:58 273觀看

導(dǎo)讀如今自動駕駛汽車和機(jī)器人能夠通過激光雷達(dá)、攝像頭等各種傳感捕獲信息。作為一種傳感器，LiDAR 使用光脈沖測量場景中目標(biāo)的 3D 坐標(biāo)，但是其存在稀疏、范圍有限等缺點—&

如今自動駕駛汽車和機(jī)器人能夠通過激光雷達(dá)、攝像頭等各種傳感捕獲信息。作為一種傳感器，LiDAR 使用光脈沖測量場景中目標(biāo)的 3D 坐標(biāo)，但是其存在稀疏、范圍有限等缺點——離傳感器越遠(yuǎn)，返回的點就越少。這意味著遠(yuǎn)處的目標(biāo)可能只得到少數(shù)幾個點，或者根本沒有，而且可能無法單獨被 LiDAR 采集到。同時，來自車載攝像頭的圖像輸入非常密集，這有利于檢測、目標(biāo)分割等語義理解任務(wù)。憑借高分辨率，攝像頭可以非常有效地檢測遠(yuǎn)處目標(biāo)，但在測量距離方面不太準(zhǔn)確。

自動駕駛汽車從 LiDAR 和車載攝像頭傳感器收集數(shù)據(jù)。每個傳感器測量值都會被定期記錄，提供 4D 世界的準(zhǔn)確表示。然而，很少有研究算法將這兩者結(jié)合使用。當(dāng)同時使用兩種傳感模式時會面臨兩個挑戰(zhàn)，1) 難以保持計算效率，2) 將一個傳感器的信息與另一個傳感器配對會進(jìn)一步增加系統(tǒng)復(fù)雜性，因為 LiDAR 點和車載攝像頭 RGB 圖像輸入之間并不總是直接對應(yīng)。

在發(fā)表于 ICCV 2021 的論文《 4D-Net for Learned Multi-Modal Alignment 》中，來自谷歌、Waymo 的研究者提出了一個可以處理 4D 數(shù)據(jù)（3D 點云和車載攝像頭圖像數(shù)據(jù)）的神經(jīng)網(wǎng)絡(luò)：4D-Net。這是首次將 3D LiDAR 點云和車載攝像頭 RGB 圖像進(jìn)行結(jié)合的研究。此外，谷歌還介紹了一種動態(tài)連接學(xué)習(xí)方法。最后，谷歌證明 4D-Net 可以更好地使用運(yùn)動線索（motion cues）和密集圖像信息來檢測遠(yuǎn)處目標(biāo)，同時保持計算效率。

論文地址：https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

4D-Net

谷歌使用 4D 輸入進(jìn)行目標(biāo) 3D 邊框檢測。4D-Net 有效地將 3D LiDAR 點云與 RGB 圖像及時結(jié)合，學(xué)習(xí)不同傳感器之間的連接及其特征表示。

谷歌使用輕量級神經(jīng)架構(gòu)搜索來學(xué)習(xí)兩種類型的傳感器輸入及其特征表示之間的聯(lián)系，以獲得最準(zhǔn)確的 3D 框檢測。在自動駕駛領(lǐng)域，可靠地檢測高度可變距離的目標(biāo)尤為重要。現(xiàn)代 LiDAR 傳感器的檢測范圍可達(dá)數(shù)百米，這意味著更遠(yuǎn)的目標(biāo)在圖像中會顯得更小，并且它們最有價值的特征將在網(wǎng)絡(luò)的早期層中，與后面的層表示的近距離目標(biāo)相比，它們可以更好地捕捉精細(xì)尺度的特征。基于這一觀察，谷歌將連接修改為動態(tài)的，并使用自注意力機(jī)制在所有層的特征中進(jìn)行選擇。谷歌應(yīng)用了一個可學(xué)習(xí)的線性層，它能夠?qū)⒆⒁饬訖?quán)應(yīng)用于所有其他層的權(quán)重，并學(xué)習(xí)當(dāng)前任務(wù)的最佳組合。

連接學(xué)習(xí)方法示意圖。

結(jié)果

谷歌在 Waymo Open Dataset 基準(zhǔn)中進(jìn)行了測試，之前的模型只使用了 3D 點云，或單個點云和相機(jī)圖像數(shù)據(jù)的組合。4D-Net 有效地使用了兩種傳感器輸入，在 164 毫秒內(nèi)處理 32 個點云和 16 個 RGB 幀，與其他方法相比性能良好。相比之下，性能次優(yōu)的方法效率和準(zhǔn)確性較低，因為它的神經(jīng)網(wǎng)絡(luò)計算需要 300 毫秒，而且比 4D-Net 使用更少的傳感器輸入。

3D 場景的結(jié)果。上圖：與檢測到的車輛相對應(yīng)的 3D 框以不同顏色顯示；虛線框代表丟失的目標(biāo)。底部：出于可視化目的，這些框顯示在相應(yīng)的攝像機(jī)圖像中。

檢測遠(yuǎn)處的目標(biāo)

4D-Net 的另一個優(yōu)點是，它既利用了 RGB 提供的高分辨率，可以準(zhǔn)確地檢測到圖像上的目標(biāo)，又利用了點云數(shù)據(jù)提供的精確深度。因此，點云方法無法探測到的遠(yuǎn)距離目標(biāo)可以被 4D-Net 探測到。這是由于相機(jī)數(shù)據(jù)的融合，能夠探測到遙遠(yuǎn)的目標(biāo)，并有效地將這一信息傳播到網(wǎng)絡(luò)的 3D 部分，以產(chǎn)生準(zhǔn)確的探測。

為了了解 4D-Net 帶來的優(yōu)勢，谷歌進(jìn)行了一系列消融研究。實驗發(fā)現(xiàn)，如果至少有一個傳感器輸入是及時流的，則可以顯著提高檢測準(zhǔn)確率。及時考慮兩個傳感器輸入可以最大程度地提高性能。

使用點云 (PC)、時間點云 (PC + T)、RGB 圖像輸入 (RGB) 和時間 RGB 圖像 (RGB + T) 時，以平均精度 (AP) 測量 3D 目標(biāo)檢測的 4D-Net 性能。

多流 4D-Net

由于 4D-Net 動態(tài)連接學(xué)習(xí)機(jī)制是通用的，因此谷歌并沒有局限于僅將點云流與 RGB 視頻流結(jié)合起來。實際上，谷歌發(fā)現(xiàn)提供一個高分辨率單圖像流以及一個與 3D 點云流輸入結(jié)合的低分辨率視頻流非常劃算。因此，谷歌在下圖中展示了四流（four-stream）架構(gòu)的示例，該架構(gòu)比具有實時點云和圖像的兩流架構(gòu)性能更好。

動態(tài)連接學(xué)習(xí)選擇特定的特征輸入以連接在一起。依托多個輸入流，4D-Net 必須學(xué)習(xí)多個目標(biāo)特征表示之間的連接，這一點很好理解，因為算法沒有改變并且只需要從輸入中選擇特定的特征。這是一個使用可微架構(gòu)搜索的輕量級過程，可以發(fā)現(xiàn)模型架構(gòu)內(nèi)部新的連接，并進(jìn)而高效地找到新的 4D-Net 模型

多流 4D-Net 架構(gòu)包含一個實時 3D 點云流以及多個圖像流（高分辨率單圖像流、中分辨率單圖像流和更低分辨率視頻流圖像）。

谷歌展示了 4D-Net 是一種高效的目標(biāo)檢測方法，尤其適合檢測遠(yuǎn)距離目標(biāo)。研究者希望這項工作為未來的 4D 數(shù)據(jù)研究提供珍貴的資源。

本文鏈接：http://www.www897cc.com/showinfo-119-2190-0.html將點云與RGB圖像結(jié)合，谷歌&amp;Waymo提出的4D-Net，檢測遠(yuǎn)距離目標(biāo)

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Jeff Dean：我們寫了一份「稀疏模型設(shè)計指南」，請查收

下一篇：十分鐘徹底理解 Redis 的持久化和主從復(fù)制

標(biāo)簽：

熱門焦點

7月安卓手機(jī)性價比榜：努比亞+紅魔兩款新機(jī)入榜

7月登場的新機(jī)有努比亞Z50S Pro和紅魔8S Pro，除了三星之外目前唯二的兩款搭載超頻版驍龍8Gen2處理器的產(chǎn)品，而且努比亞和紅魔也一貫有著不錯的性價比，所以在本次的性價比榜單
6月iOS設(shè)備好評榜：第一蟬聯(lián)榜首近一年

作為安兔兔各種榜單里變化最小的那個，2023年6月的iOS好評榜和上個月相比沒有任何排名上的變化，僅僅是部分設(shè)備好評率的下降，長年累月的用戶評價和逐漸退出市場的老款機(jī)器讓這
十個可以手動編寫的 JavaScript 數(shù)組 API

JavaScript 中有很多API，使用得當(dāng)，會很方便，省力不少。你知道它的原理嗎? 今天這篇文章，我們將對它們進(jìn)行一次小總結(jié)。現(xiàn)在開始吧。1.forEach()forEach()用于遍歷數(shù)組接收一參
十個簡單但很有用的Python裝飾器

裝飾器（Decorators）是Python中一種強(qiáng)大而靈活的功能，用于修改或增強(qiáng)函數(shù)或類的行為。裝飾器本質(zhì)上是一個函數(shù)，它接受另一個函數(shù)或類作為參數(shù)，并返回一個新的函數(shù)或類。它們通常用
阿里大調(diào)整

來源：產(chǎn)品劉有媒體報道稱，近期淘寶天貓集團(tuán)啟動了近年來最大的人力制度改革，涉及員工績效、層級體系等多個核心事項，目前已形成一個初步的“征求意見版”：1、取消P序列
小米公益基金會捐贈2500萬元馳援北京、河北暴雨救災(zāi)

8月2日消息，今日小米科技創(chuàng)始人雷軍在其微博上發(fā)布消息稱，小米公益基金會宣布捐贈2500萬元馳援北京、河北暴雨救災(zāi)。攜手抗災(zāi)，京冀安康！以下為公告原文
8月見！小米MIX Fold 3獲得3C認(rèn)證：支持67W快充

這段時間以來，包括三星、一加、榮耀等等有不少品牌旗下的最新折疊屏旗艦都得到了不少爆料，而小米新一代折疊屏旗艦——小米MIX Fold 3此前也屢屢被傳
三星折疊屏手機(jī)去年銷售近1000萬臺今年目標(biāo)定為1500萬

7月29日消息，三星率先發(fā)力可折疊手機(jī)市場，在全球市場已經(jīng)取得了非常亮眼的成績，接下來會進(jìn)一步鞏固和擴(kuò)大這一優(yōu)勢。三星在推出Galaxy Z Flip5和Galax
iQOO Neo8 Pro搶先上架：首發(fā)天璣9200+ 安卓性能之王

經(jīng)過了一段時間的密集爆料，昨日iQOO官方如期對外宣布：將于5月23日推出全新的iQOO Neo8系列新品，官方稱這是一款擁有旗艦級性能調(diào)校的作品。隨著發(fā)布時

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

將點云與RGB圖像結(jié)合，谷歌&amp;Waymo提出的4D-Net，檢測遠(yuǎn)距離目標(biāo)

7月安卓手機(jī)性價比榜：努比亞+紅魔兩款新機(jī)入榜

6月iOS設(shè)備好評榜：第一蟬聯(lián)榜首近一年

十個可以手動編寫的 JavaScript 數(shù)組 API

十個簡單但很有用的Python裝飾器

阿里大調(diào)整

小米公益基金會捐贈2500萬元馳援北京、河北暴雨救災(zāi)

8月見！小米MIX Fold 3獲得3C認(rèn)證：支持67W快充

三星折疊屏手機(jī)去年銷售近1000萬臺今年目標(biāo)定為1500萬

iQOO Neo8 Pro搶先上架：首發(fā)天璣9200+ 安卓性能之王

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

將點云與RGB圖像結(jié)合，谷歌&amp;amp;Waymo提出的4D-Net，檢測遠(yuǎn)距離目標(biāo)

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

將點云與RGB圖像結(jié)合，谷歌&Waymo提出的4D-Net，檢測遠(yuǎn)距離目標(biāo)