當(dāng)前位置：首頁 > 元宇宙 > AI

達摩院開源 VideoLLaMA3：僅 7B 大小，視頻理解拿下 SOTA

來源：責(zé)編：時間：2025-02-15 15:47:11 58觀看

導(dǎo)讀 7B 大小的視頻理解模型中的新 SOTA，來了！它就是由達摩院出品的 Video LLaMA 3，以圖像為中心構(gòu)建的新一代多模態(tài)視頻-語言模型。在通用視頻理解、時間推理和長視頻理解三個核心維度進行評估的過程中，VideoLLaMA 3

7B 大小的視頻理解模型中的新 SOTA，來了！它就是由達摩院出品的 Video LLaMA 3，以圖像為中心構(gòu)建的新一代多模態(tài)視頻-語言模型。

在通用視頻理解、時間推理和長視頻理解三個核心維度進行評估的過程中，VideoLLaMA 3 均取得優(yōu)異成績，超越多數(shù)基線模型。

不僅如此，適用于端側(cè)的 2B 大小的 Video LLaMA 3，在圖像理解上的表現(xiàn)也是較為出色。

在涵蓋文檔 / 圖表 / 場景文本理解、數(shù)學(xué)推理、多圖像理解和常識問答等多個維度的基準(zhǔn)測試，如在 InfoVQA 中超越之前最好成績，在 MathVista 數(shù)學(xué)推理任務(wù)上優(yōu)勢明顯。

VideoLLaMA 3 以圖片為中心的設(shè)計理念貫穿于整個模型架構(gòu)和訓(xùn)練過程。

通過高質(zhì)量的圖片文本數(shù)據(jù)為視頻理解打下堅實基礎(chǔ)，僅使用 3M 視頻文本數(shù)據(jù)，實現(xiàn)全面超越同參數(shù)量開源模型的視頻理解能力。

在線可玩

目前，VideoLLaMA 3 已經(jīng)在 HuggingFace 上提供了圖像、視頻理解的 demo。

例如我們給一張《蒙娜麗莎的微笑》，并向 VideoLLaMA 3 提問：

Discuss the historical impact and the significance of this painting in the art world.

討論這幅畫在藝術(shù)界的歷史影響和意義。

VideoLLaMA 3 的回答是這樣的：

《蒙娜麗莎》不僅是世界上最著名的畫作之一，也是藝術(shù)史上的重要作品。它創(chuàng)作于文藝復(fù)興時期，體現(xiàn)了該時期對人文主義的關(guān)注和古典學(xué)習(xí)的復(fù)興。列奧納多?達?芬奇的創(chuàng)新技術(shù)，如在色彩和色調(diào)之間進行柔和過渡的模糊手法，為這幅畫的神秘品質(zhì)做出了貢獻。幾個世紀(jì)以來，《蒙娜麗莎》一直是一個迷人的主題，激發(fā)了無數(shù)的解釋和分析。它已成為西方文化的標(biāo)志，象征著藝術(shù)成就的頂峰，象征著視覺藝術(shù)對跨越時間和文化的觀眾的持久魅力。

再來看下視頻理解的 demo，我們的問題是：

What is unusual in the video?

視頻中有什么不尋常之處？

對此，VideoLLaMA 3 表示：

這段視頻的不同尋常之處在于，它展示了熊這種典型的野生動物，正在進行一種類似人類的活動，比如在桌子上吃壽司。

VideoLLaMA 3 回答可謂是非常簡約且精準(zhǔn)了。

并且這個 demo 在 HuggingFace 上的操作也是極其簡單，只需上傳圖片或視頻，再提出你的問題即可。

怎么做到的？

VideoLLaMA 3 的關(guān)鍵，在于它是一種以圖像為中心的訓(xùn)練范式。

這種范式主要包含四個關(guān)鍵內(nèi)容：

視覺編碼器適配：讓視覺編碼器能處理動態(tài)分辨率圖像，用不同場景圖像提升其性能，使其能捕捉精細(xì)視覺細(xì)節(jié)。

視覺語言對齊：用豐富圖像文本數(shù)據(jù)為多模態(tài)理解打基礎(chǔ)，利用多種數(shù)據(jù)增強空間推理能力，同時保留模型語言能力。

多任務(wù)微調(diào)：用圖像文本問答數(shù)據(jù)和視頻字幕數(shù)據(jù)微調(diào)模型，提升其遵循自然語言指令和多模態(tài)理解能力，為視頻理解做準(zhǔn)備。

視頻微調(diào)：增強模型視頻理解和問答能力，訓(xùn)練數(shù)據(jù)包含多種視頻及圖像、文本數(shù)據(jù)。

從框架設(shè)計來看，主要包含兩大內(nèi)容。

首先是任意分辨率視覺標(biāo)記化（AVT）。

這種方法突破了傳統(tǒng)固定分辨率限制，采用 2D - RoPE 替換絕對位置嵌入，讓視覺編碼器能處理不同分辨率圖像和視頻，保留更多細(xì)節(jié)。

其次是差分幀剪枝器（DiffFP）。

針對視頻數(shù)據(jù)冗余問題，通過比較相鄰幀像素空間的 1-范數(shù)距離，修剪冗余視頻標(biāo)記，提高視頻處理效率，減少計算需求。

除了框架之外，高質(zhì)量數(shù)據(jù)也對 VideoLLaMA 3 的性能起到了關(guān)鍵作用。

首先是高質(zhì)量圖像重新標(biāo)注數(shù)據(jù)集 VL3Syn7M 的構(gòu)建。

為給 VideoLLaMA 3 提供高質(zhì)量訓(xùn)練數(shù)據(jù)，團隊構(gòu)建了包含 700 萬圖像-字幕對的 VL3Syn7M 數(shù)據(jù)集。

Aspect Ratio Filtering（長寬比過濾）：圖像長寬比可能影響模型特征提取。像一些長寬比極端的圖像，過寬或過長，會使模型在處理時產(chǎn)生偏差。通過過濾，確保數(shù)據(jù)集中圖像長寬比處于典型范圍，為后續(xù)準(zhǔn)確的特征提取奠定基礎(chǔ)。

Aesthetic Score Filtering（美學(xué)評分過濾）：利用美學(xué)評分模型評估圖像視覺質(zhì)量，舍棄低評分圖像。這一步能去除視覺效果差、構(gòu)圖不佳的圖像，減少噪聲干擾，保證模型學(xué)習(xí)到的圖像內(nèi)容和描述質(zhì)量更高，進而提升模型生成優(yōu)質(zhì)描述的能力。

Text-Image Similarity Calculation with Coarse Captioning（帶粗略字幕的文本-圖像相似度計算）：先用 BLIP2 模型為圖像生成初始字幕，再借助 CLIP 模型計算文本 - 圖像相似度，剔除相似度低的圖像。這一操作確保剩余圖像內(nèi)容與描述緊密相關(guān)，使模型學(xué)習(xí)到的圖文對更具可解釋性和代表性。

Visual Feature Clustering（視覺特征聚類）：運用 CLIP 視覺模型提取圖像視覺特征，通過 k-最近鄰（KNN）算法聚類，從每個聚類中心選取固定數(shù)量圖像。這樣既保證數(shù)據(jù)集多樣性，又維持語義類別的平衡分布，讓模型接觸到各類視覺內(nèi)容，增強其泛化能力。

Image Re - caption（圖像重新標(biāo)注）：對過濾和聚類后的圖像重新標(biāo)注。簡短字幕由 InternVL2-8B 生成，詳細(xì)字幕則由 InternVL2-26B 完成。不同階段訓(xùn)練使用不同類型字幕，滿足模型多樣化學(xué)習(xí)需求。

其次是各訓(xùn)練階段的數(shù)據(jù)混合。

在 VideoLLaMA 3 的不同訓(xùn)練階段，數(shù)據(jù)混合策略為模型提供了豐富多樣的學(xué)習(xí)場景。此外，團隊使用統(tǒng)一的數(shù)據(jù)組織形式以統(tǒng)一各個階段的訓(xùn)練。

Vision Encoder Adaptation（視覺編碼器適配）：此階段旨在增強模型對多樣場景的理解和特征提取能力，訓(xùn)練數(shù)據(jù)融合場景圖像、文檔識別圖像和少量場景文本圖像。

場景圖像來源廣泛，像 VL3-Syn7M-short 等，其中 Object365 和 SA-1B 數(shù)據(jù)集的引入增加了數(shù)據(jù)多樣性；場景文本圖像來自 BLIP3-OCR，其文本內(nèi)容和簡短重新標(biāo)注都作為字幕；文檔圖像選取自 pdfa-eng-wds 和 idl-wds，文檔文本內(nèi)容按閱讀順序作為圖像字幕。

Vision-Language Alignment（視覺語言對齊）：該階段使用高質(zhì)量數(shù)據(jù)微調(diào)模型，涵蓋場景圖像、場景文本圖像、文檔、圖表、細(xì)粒度數(shù)據(jù)以及大量高質(zhì)量純文本數(shù)據(jù)。

場景圖像整合多個數(shù)據(jù)集并重新標(biāo)注；場景文本圖像包含多種中英文數(shù)據(jù)集，并對 LAION 數(shù)據(jù)集中圖像篩選形成 Laion-OCR 數(shù)據(jù)集，其字幕包含文本內(nèi)容和文本位置的邊界框注釋。

文檔圖像除常見數(shù)據(jù)集外，還加入手寫和復(fù)雜文檔數(shù)據(jù)集；圖表數(shù)據(jù)雖量少，但來自 Chart-to-Text 數(shù)據(jù)集；細(xì)粒度數(shù)據(jù)包含區(qū)域字幕數(shù)據(jù)和帶框字幕數(shù)據(jù)，增強模型對圖像細(xì)節(jié)的理解。

Multi-task Fine-tuning（多任務(wù)微調(diào)）：用指令跟隨數(shù)據(jù)進行指令微調(diào)，數(shù)據(jù)混合覆蓋多種任務(wù)。

圖像數(shù)據(jù)分為一般、文檔、圖表 / 圖形、OCR、定位和多圖像六類，每類針對特定視覺理解方面。同時包含大量純文本數(shù)據(jù)，提升模型處理涉及視覺和文本輸入的指令跟隨任務(wù)的能力。

視頻數(shù)據(jù)則結(jié)合常用高質(zhì)量視頻字幕數(shù)據(jù)集、少量問答數(shù)據(jù)，以及 VideoLLaMA2 的內(nèi)部數(shù)據(jù)和內(nèi)部時間定位數(shù)據(jù)，增強模型視頻理解能力。

Video - centric Fine - tuning（視頻微調(diào)）：此階段聚焦提升模型視頻理解能力，收集多個開源數(shù)據(jù)集中帶注釋的視頻數(shù)據(jù)，還通過合成特定方面的密集字幕和問答對擴展數(shù)據(jù)規(guī)模。

此外，引入流媒體視頻理解和時間定位特征，同時使用一定量的純圖像和純文本數(shù)據(jù)，緩解模型災(zāi)難性遺忘問題。

論文和 demo 地址放在下面了，感興趣的小伙伴可以去體驗嘍~

論文地址：

https://arxiv.org/abs/2501.13106

GitHub 項目地址：

https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file

圖像理解 demo：

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image

視頻理解 demo：

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

HuggingFace 地址：

https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15

本文來自微信公眾號：量子位（ID：QbitAI），作者：關(guān)注前沿科技

本文鏈接：http://www.www897cc.com/showinfo-45-10771-0.html達摩院開源 VideoLLaMA3：僅 7B 大小，視頻理解拿下 SOTA

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：馬斯克974億美金全現(xiàn)金收購OpenAI，5月10日前能否成交？

下一篇： Anthropic 秘密“混合模型”Claude 4 首曝細(xì)節(jié)，硬剛 GPT-5

標(biāo)簽：

熱門焦點

SQL Error: select * from ***_ecms_news13 where id in(11,133,77,243,265,268,139,,263) limit 9

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

達摩院開源 VideoLLaMA3：僅 7B 大小，視頻理解拿下 SOTA

最新推薦

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

10億基金，李彥宏呼喚下一個AI獨角獸

韓國國民銀行將推出韓國首個加密貨幣 ETF

Meta 在衰落嗎？

花旗集團前高管加入Provenance區(qū)塊鏈，擔(dān)任CEO

Steam 禁止NFT和加密貨幣原因曝光

猜你喜歡

熱門推薦

相關(guān)資訊