當(dāng)前位置：首頁 > 元宇宙 > AI

GPT-4o 差點沒及格！首個多任務(wù)長視頻評測基準(zhǔn)，它有億點難

來源：責(zé)編：時間：2024-06-25 17:11:53 199觀看

導(dǎo)讀難度大升級的多任務(wù)長視頻理解評測基準(zhǔn) MLVU 來了！由智源聯(lián)合北郵、北大和浙大等多所高校推出。究竟有多難呢？最終排名第一的 GPT-4o 單選正確率還不足 65%。而且研究發(fā)現(xiàn)，大部分模型的性能都會隨著視頻時長增加

難度大升級的多任務(wù)長視頻理解評測基準(zhǔn) MLVU 來了！由智源聯(lián)合北郵、北大和浙大等多所高校推出。究竟有多難呢？最終排名第一的 GPT-4o 單選正確率還不足 65%。

而且研究發(fā)現(xiàn)，大部分模型的性能都會隨著視頻時長增加顯著下降。

研究進一步證明，提升上下文窗口，提升圖像理解能力，以及使用更強大的 LLM Backbone 對長視頻理解的性能具有顯著的提升作用。

目前相關(guān)論文及數(shù)據(jù)集已公開，具體細(xì)節(jié)下面一起看看吧~

MLVU 的構(gòu)建過程

當(dāng)前流行的 Video Benchmark 主要針對短視頻設(shè)計，大部分視頻的長度都在 1 分鐘以內(nèi)。

且現(xiàn)有評測基準(zhǔn)往往專注在特定領(lǐng)域的視頻（例如電影、第一視角）和特定的視頻評測任務(wù)（例如 Captioning，Temporal Perception，Action Understanding）。

此外，現(xiàn)有部分長視頻理解評測任務(wù)往往只和局部幀有關(guān)，或者針對經(jīng)典電影進行問答，這導(dǎo)致 MLLMs 可以直接憑借 text prompt 正確回答而無需對視頻進行分析。

針對以上不足，新基準(zhǔn) MLVU 從以下 3 個層面進行構(gòu)建：

時長和來源更豐富

MLVU 的視頻時長覆蓋了 3 分鐘到超過 2 小時，平均視頻時長 12 分鐘，極大擴展了當(dāng)前流行的 Video Benchmark 的時長范圍。

另外，MLVU 的大部分任務(wù)標(biāo)注過程中進行了片段-問題對應(yīng)標(biāo)注。

例如，Video Summarization 任務(wù)分段標(biāo)注了視頻的前 3 分鐘，前 6 分鐘……

這意味著，MLLMs 可以靈活地在 MLVU 上選擇測試不同時長情況下的長視頻理解能力。

同時，MLVU 收集了包括電影、電視劇、紀(jì)錄片、卡通動畫片、監(jiān)控視頻、第一視角視頻和游戲視頻等多個類型的長視頻，覆蓋了長視頻理解的多個領(lǐng)域范圍。

任務(wù)類別更全面

團隊針對長視頻理解設(shè)計了 9 類不同的任務(wù)，并進一步將任務(wù)分為三類：全面理解、單細(xì)節(jié)理解、多細(xì)節(jié)理解。

全面理解任務(wù)：要求 MLLMs 理解和利用視頻的全局信息來解決問題

單細(xì)節(jié)理解任務(wù)：要求 MLLMs 根據(jù)問題定位長視頻中的某一細(xì)節(jié)，并利用該細(xì)節(jié)來解決問題

多細(xì)節(jié)理解任務(wù)：要去 MLLMs 定位和理解長視頻中的多個相關(guān)片段來完成和解決問題

此外，還包括了單項選擇題和開放生成式問題，全面考察 MLLMs 在不同場景下的長視頻理解能力。

以下為 9 大任務(wù)的示例：

問題設(shè)置與答案標(biāo)注更合理

為了突出新舊基準(zhǔn)變化，直接以情節(jié)問答（Plot Question Answering）任務(wù)為例。

假如以電影、電視的角色作為問題線索來對 MLLMs 進行提問，舊基準(zhǔn)的常見問題有兩種。

一是挑“經(jīng)典”下手，這導(dǎo)致 MLLMs 在沒有對視頻進行分析的情況下，直接使用了自有知識回答問題。

另一部分試圖避免這個問題，但由于長視頻的復(fù)雜性，僅僅利用代詞和描述性語句來指代情節(jié)細(xì)節(jié)非常困難。

他們的問題非常寬泛或者需要在問題中額外指定具體的時間片段而不是讓 MLLMs 自己根據(jù)題目尋找對應(yīng)細(xì)節(jié)。

MLVU 通過精細(xì)的人工標(biāo)注克服了這些問題。

在所有的情節(jié)問答任務(wù)中，MLVU 均使用“具有詳細(xì)細(xì)節(jié)的代詞”來指代情節(jié)中的人物、事件或背景，避免了問題泄露帶來的潛在影響，MLLMs 需要根據(jù)問題提供的線索識別和定位相關(guān)片段才能進一步解決問題。

此外，MLVU 的 Plot QA 問題具備豐富的多樣性，增強了評測的合理性和可靠性。

模型在 MLVU 上的表現(xiàn)

團隊在 MLVU 上對 20 個流行的 MLLM 進行了評測，包括開源模型和閉源模型。

實驗結(jié)果表明，盡管 GPT-4o 在所有任務(wù)中均取得了第 1 名，但它的單選平均準(zhǔn)確率只有 64.6%。

且所有模型都在需要細(xì)粒度理解能力的任務(wù)上（單細(xì)節(jié)、多細(xì)節(jié)理解任務(wù)）表現(xiàn)糟糕。

此外，大部分模型的性能都會隨著視頻時長增加顯著下降。

另一明顯結(jié)論是，開源模型和閉源模型之間存在較大的差距。

開源模型中單項選擇題性能最強的 InternVL-1.5 單選平均準(zhǔn)確度僅有 50.4%；開放生成式題目最強的 LLaMA-Vid 得分僅有 4.22，均遠(yuǎn)遠(yuǎn)落后于 GPT-4o 的 64.6% 和 5.80。

不過研究發(fā)現(xiàn)，提升上下文窗口，提升 MLLM 的圖像理解能力，以及使用更強大的 LLM Backbone 對長視頻理解的性能具有顯著的提升作用。

這揭示了未來 MLLMs 在提升長視頻理解能力的重要改進方向。

論文：

https://arxiv.org/abs/2406.04264

項目鏈接：

https://github.com/JUNJIE99/MLVU

本文來自微信公眾號：量子位（ID：QbitAI），作者：關(guān)注前沿科技

本文鏈接：http://www.www897cc.com/showinfo-45-4772-0.htmlGPT-4o 差點沒及格！首個多任務(wù)長視頻評測基準(zhǔn)，它有億點難

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：沒有授權(quán)也沒關(guān)系？多家 AI 公司被曝繞過網(wǎng)絡(luò)標(biāo)準(zhǔn)抓取新聞出版商網(wǎng)站內(nèi)容

下一篇：斯坦福大模型評測榜 Claude 3 排名第一，阿里 Qwen2、零一萬物 Yi Large 國產(chǎn)模型進入前十

標(biāo)簽：

熱門焦點

這場虛擬人爭奪戰(zhàn)，互聯(lián)網(wǎng)巨頭下場先贏一半？

撰文/ 孟會緣近兩年間，要論引得無數(shù)互聯(lián)網(wǎng)巨頭競折腰的一大熱門產(chǎn)業(yè)，莫過于元宇宙領(lǐng)域中的數(shù)字人了。作為繼數(shù)字藏品之后，開發(fā)元宇宙的又一重點落地項目，互聯(lián)網(wǎng)
8個最適合藝術(shù)家發(fā)行NFT的交易市場

近年來，加密風(fēng)靡全球。加密圈最令人興奮的方面之一是它能夠用于創(chuàng)建稱為NFT 的數(shù)字資產(chǎn)。從 CyberKitties 到 Cyber Galleries，NFT 已成為藝術(shù)家和藝術(shù)鑒賞家的
元宇宙社交時代，華麗歸來的超級QQ秀重構(gòu)虛擬社交場景

作者:狂人不知不覺間，QQ已經(jīng)迎來了第23個生日。作為國內(nèi)社交平臺的起點，QQ可謂是睥睨全網(wǎng)，不僅有龐大的用戶群體，還將虛擬形象及QQ整合成在線虛擬社區(qū)，開啟了時髦
DAO登上了歷史舞臺，但是主流準(zhǔn)備好采用DAO了嗎？

Block-807DAO要么是定義虛擬未來、無領(lǐng)導(dǎo)組織的革命性概念，要么是充滿存在主義和自我毀滅挑戰(zhàn)的反烏托邦結(jié)構(gòu)，取決于你在與誰交談。近幾個月來， DAO已經(jīng)從Crypto
NFT自動售貨機來啦！

“紐約市有一臺售賣 Solana NFT 的自動售貨機，用信用卡就能買”Solana NFT 市場 Neon 可讓您使用信用卡親自購買 NFT，無需使用加密貨幣。由于基于 Solana 鏈的 N
王老吉啟動元宇宙“吉空間”，HTC發(fā)布元宇宙應(yīng)用VIVERSE

今日《元宇宙新鮮事》有：王老吉啟動元宇宙“吉空間”；HTC發(fā)布元宇宙應(yīng)用VIVERSE；Meta將在馬德里構(gòu)建一個元宇宙創(chuàng)新中心；央視網(wǎng)《新聞+》推出系列視頻《聊聊元宇宙
冬奧會數(shù)字收藏品升溫，市場再現(xiàn)“一墩難求”

根據(jù)公開信息顯示，國際奧委會官方授權(quán)的冰墩墩數(shù)字盲盒于北京時間2月12日凌晨在nWayPlay平臺發(fā)售，總數(shù)為500個，每個99美元，每人限購5個。此外，不同的奧運徽章數(shù)字藏
從概念到落地 Web3.0初具雛形

加密資產(chǎn)熱潮催生出的鏈上應(yīng)用中，除了DeFi、NFT、鏈游GameFi等場景外，還有一個熱詞叫「Web3.0」。Web3.0的概念最早出現(xiàn)在2014年，由以太坊聯(lián)合創(chuàng)始人及波卡創(chuàng)建者
初探元宇宙

2021年可以被稱為“元宇宙”元年。繼2021年3月沙盒游戲平臺Roblox將“元宇宙”概念放入招股書中，被稱為“元宇宙”第一股后，F(xiàn)acebook更名為Meta, 引發(fā)全球范圍內(nèi)

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-4o 差點沒及格！首個多任務(wù)長視頻評測基準(zhǔn)，它有億點難

這場虛擬人爭奪戰(zhàn)，互聯(lián)網(wǎng)巨頭下場先贏一半？

8個最適合藝術(shù)家發(fā)行NFT的交易市場

元宇宙社交時代，華麗歸來的超級QQ秀重構(gòu)虛擬社交場景

DAO登上了歷史舞臺，但是主流準(zhǔn)備好采用DAO了嗎？

NFT自動售貨機來啦！

王老吉啟動元宇宙“吉空間”，HTC發(fā)布元宇宙應(yīng)用VIVERSE

冬奧會數(shù)字收藏品升溫，市場再現(xiàn)“一墩難求”

從概念到落地 Web3.0初具雛形

初探元宇宙

最新推薦

拯救XR，蘋果力不從心

10億基金，李彥宏呼喚下一個AI獨角獸

中文在線的“元宇宙”故事，資本聽膩了？

傳騰訊已推出全新XR業(yè)務(wù)；摩托羅拉正打造5GXR頸戴式計算組件

2022年中國元宇宙系列報告：底層架構(gòu)研究：虛擬引擎，擎動未來

音樂NFT平臺里的下一匹黑馬是誰？

猜你喜歡

熱門推薦

相關(guān)資訊