日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

GPT-4o 差點沒及格!首個多任務長視頻評測基準,它有億點難

來源: 責編: 時間:2024-06-25 17:11:53 168觀看
導讀 難度大升級的多任務長視頻理解評測基準 MLVU 來了!由智源聯合北郵、北大和浙大等多所高校推出。究竟有多難呢?最終排名第一的 GPT-4o 單選正確率還不足 65%。而且研究發現,大部分模型的性能都會隨著視頻時長增加

難度大升級的多任務長視頻理解評測基準 MLVU 來了!由智源聯合北郵、北大和浙大等多所高校推出。究竟有多難呢?最終排名第一的 GPT-4o 單選正確率還不足 65%。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

而且研究發現,大部分模型的性能都會隨著視頻時長增加顯著下降。h6g28資訊網——每日最新資訊28at.com

研究進一步證明,提升上下文窗口,提升圖像理解能力,以及使用更強大的 LLM Backbone 對長視頻理解的性能具有顯著的提升作用。h6g28資訊網——每日最新資訊28at.com

目前相關論文及數據集已公開,具體細節下面一起看看吧~h6g28資訊網——每日最新資訊28at.com

MLVU 的構建過程

當前流行的 Video Benchmark 主要針對短視頻設計,大部分視頻的長度都在 1 分鐘以內。h6g28資訊網——每日最新資訊28at.com

且現有評測基準往往專注在特定領域的視頻(例如電影、第一視角)和特定的視頻評測任務(例如 Captioning,Temporal Perception,Action Understanding)。h6g28資訊網——每日最新資訊28at.com

此外,現有部分長視頻理解評測任務往往只和局部幀有關,或者針對經典電影進行問答,這導致 MLLMs 可以直接憑借 text prompt 正確回答而無需對視頻進行分析。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

針對以上不足,新基準 MLVU 從以下 3 個層面進行構建:h6g28資訊網——每日最新資訊28at.com

時長和來源更豐富

MLVU 的視頻時長覆蓋了 3 分鐘到超過 2 小時,平均視頻時長 12 分鐘,極大擴展了當前流行的 Video Benchmark 的時長范圍。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

另外,MLVU 的大部分任務標注過程中進行了片段-問題對應標注。h6g28資訊網——每日最新資訊28at.com

例如,Video Summarization 任務分段標注了視頻的前 3 分鐘,前 6 分鐘……h6g28資訊網——每日最新資訊28at.com

這意味著,MLLMs 可以靈活地在 MLVU 上選擇測試不同時長情況下的長視頻理解能力。h6g28資訊網——每日最新資訊28at.com

同時,MLVU 收集了包括電影、電視劇、紀錄片、卡通動畫片、監控視頻、第一視角視頻和游戲視頻等多個類型的長視頻,覆蓋了長視頻理解的多個領域范圍。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

任務類別更全面

團隊針對長視頻理解設計了 9 類不同的任務,并進一步將任務分為三類:全面理解、單細節理解、多細節理解。h6g28資訊網——每日最新資訊28at.com

全面理解任務:要求 MLLMs 理解和利用視頻的全局信息來解決問題h6g28資訊網——每日最新資訊28at.com

單細節理解任務:要求 MLLMs 根據問題定位長視頻中的某一細節,并利用該細節來解決問題h6g28資訊網——每日最新資訊28at.com

多細節理解任務:要去 MLLMs 定位和理解長視頻中的多個相關片段來完成和解決問題h6g28資訊網——每日最新資訊28at.com

此外,還包括了單項選擇題和開放生成式問題,全面考察 MLLMs 在不同場景下的長視頻理解能力。h6g28資訊網——每日最新資訊28at.com

以下為 9 大任務的示例:h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

問題設置與答案標注更合理

為了突出新舊基準變化,直接以情節問答(Plot Question Answering)任務為例。h6g28資訊網——每日最新資訊28at.com

假如以電影、電視的角色作為問題線索來對 MLLMs 進行提問,舊基準的常見問題有兩種。h6g28資訊網——每日最新資訊28at.com

一是挑“經典”下手,這導致 MLLMs 在沒有對視頻進行分析的情況下,直接使用了自有知識回答問題。h6g28資訊網——每日最新資訊28at.com

另一部分試圖避免這個問題,但由于長視頻的復雜性,僅僅利用代詞和描述性語句來指代情節細節非常困難。h6g28資訊網——每日最新資訊28at.com

他們的問題非常寬泛或者需要在問題中額外指定具體的時間片段而不是讓 MLLMs 自己根據題目尋找對應細節。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

MLVU 通過精細的人工標注克服了這些問題。h6g28資訊網——每日最新資訊28at.com

在所有的情節問答任務中,MLVU 均使用“具有詳細細節的代詞”來指代情節中的人物、事件或背景,避免了問題泄露帶來的潛在影響,MLLMs 需要根據問題提供的線索識別和定位相關片段才能進一步解決問題。h6g28資訊網——每日最新資訊28at.com

此外,MLVU 的 Plot QA 問題具備豐富的多樣性,增強了評測的合理性和可靠性。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

模型在 MLVU 上的表現

團隊在 MLVU 上對 20 個流行的 MLLM 進行了評測,包括開源模型和閉源模型。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

實驗結果表明,盡管 GPT-4o 在所有任務中均取得了第 1 名,但它的單選平均準確率只有 64.6%。h6g28資訊網——每日最新資訊28at.com

且所有模型都在需要細粒度理解能力的任務上(單細節、多細節理解任務)表現糟糕。h6g28資訊網——每日最新資訊28at.com

此外,大部分模型的性能都會隨著視頻時長增加顯著下降。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

另一明顯結論是,開源模型和閉源模型之間存在較大的差距。h6g28資訊網——每日最新資訊28at.com

開源模型中單項選擇題性能最強的 InternVL-1.5 單選平均準確度僅有 50.4%;開放生成式題目最強的 LLaMA-Vid 得分僅有 4.22,均遠遠落后于 GPT-4o 的 64.6% 和 5.80。h6g28資訊網——每日最新資訊28at.com

不過研究發現,提升上下文窗口,提升 MLLM 的圖像理解能力,以及使用更強大的 LLM Backbone 對長視頻理解的性能具有顯著的提升作用。h6g28資訊網——每日最新資訊28at.com

h6g28資訊網——每日最新資訊28at.com

這揭示了未來 MLLMs 在提升長視頻理解能力的重要改進方向。h6g28資訊網——每日最新資訊28at.com

論文:h6g28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2406.04264h6g28資訊網——每日最新資訊28at.com

項目鏈接:h6g28資訊網——每日最新資訊28at.com

https://github.com/JUNJIE99/MLVUh6g28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:關注前沿科技h6g28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-4772-0.htmlGPT-4o 差點沒及格!首個多任務長視頻評測基準,它有億點難

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 沒有授權也沒關系?多家 AI 公司被曝繞過網絡標準抓取新聞出版商網站內容

下一篇: 斯坦福大模型評測榜 Claude 3 排名第一,阿里 Qwen2、零一萬物 Yi Large 國產模型進入前十

標簽:
  • 熱門焦點
  • ChatGPT訪問量增速下滑,AI真的是一場泡沫嗎?

    來源:首席商業評論2023年,最火的莫過于ChatGPT,席卷全球的同時也引發了生成式AI(人工智能)的投資熱潮。在美股,ChatGPT相關概念股飆漲,以AI算力龍頭英偉達為例,其股價年內一度累計上
  • 新周期,誰在堅守窄門?

    來源:錦緞今日的投資者恐怕已經忘記了,在OpenAI創造出ChatGPT這一殺器的前夜,生成式AI也曾經是一道窄門,窄到連馬斯克都差點失去了信心。在當時的輿論眼中,AGI的道路不夠性感,不夠
  • AI大模型“戰火”燒到了教育領域

    作者:劉曠自2023年開年以來,AI大模型這股風是越吹越猛烈了。隨著ChatGPT的出圈爆火,再度掀起了一波AI熱浪,無論是在國內還是國外都有不少企業宣布入局或者跟進AI大模型領域。與
  • 搭上“谷愛凌”,“柳夜熙們”站上風口?

    作者:張琳 曹楊從“永不塌房”的藝人到頻頻亮相北京冬奧會,作為元宇宙細分賽道之一的虛擬數字人又火了一把。2月7日,即谷愛凌摘得冬奧會自由式滑雪大跳臺金牌的
  • 2022年最具關注的9個頭像NFT項目

    什么是 PFP NFT 項目?PFP NFT (個人資料圖片NFT)是一組獨特的數字收藏品,人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色,在 Twit
  • 新款英特爾芯片將使NFT鑄造變得更加方便

    科技巨頭和微處理器制造商英特爾(Intel)正在發布一款適用于 NFT 鑄造和挖礦的新芯片。新產品專注于效率、易操作性和可持續性,該公司的戰略是從加密興起與 NFT爆
  • 虛擬數字人:元宇宙的主角破圈而來

    虛擬數字人市場逐步進入成熟期,商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,制
  • 數字經濟、數據要素與數字治理

    深入理解數字經濟與數據要素,有利于更準確理解和把握數字治理的基本規律,構建面向未來的健康的數字治理體系,也才能更好地理解元宇宙的治理框架。 一、數字經濟
  • 花旗集團前高管加入Provenance區塊鏈,擔任CEO

    No.1 花旗集團前高管加入Provenance區塊鏈,擔任CEO3月1日消息,Provenance區塊鏈基金會已任命花旗集團前高管摩根·麥肯尼(Morgan McKenney)為新任首席執行官。麥肯
Top 主站蜘蛛池模板: 中阳县| 巴林右旗| 宁远县| 永川市| 江油市| 英吉沙县| 嘉禾县| 莱阳市| 金乡县| 浮梁县| 铜陵市| 哈尔滨市| 壤塘县| 南漳县| 平泉县| 武清区| 长武县| 兴化市| 开阳县| 台北市| 临澧县| 芒康县| 潞城市| 阳谷县| 旺苍县| 保山市| 安西县| 武清区| 大荔县| 东方市| 紫金县| 平舆县| 尤溪县| 扎赉特旗| 辉南县| 墨玉县| 乐业县| 富源县| 新竹县| 梅河口市| 江孜县|