日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

達摩院開源 VideoLLaMA3:僅 7B 大小,視頻理解拿下 SOTA

來源: 責編: 時間:2025-02-15 15:47:11 41觀看
導讀 7B 大小的視頻理解模型中的新 SOTA,來了!它就是由達摩院出品的 Video LLaMA 3,以圖像為中心構建的新一代多模態視頻-語言模型。在通用視頻理解、時間推理和長視頻理解三個核心維度進行評估的過程中,VideoLLaMA 3

7B 大小的視頻理解模型中的新 SOTA,來了!它就是由達摩院出品的 Video LLaMA 3,以圖像為中心構建的新一代多模態視頻-語言模型。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

在通用視頻理解、時間推理和長視頻理解三個核心維度進行評估的過程中,VideoLLaMA 3 均取得優異成績,超越多數基線模型。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

不僅如此,適用于端側的 2B 大小的 Video LLaMA 3,在圖像理解上的表現也是較為出色。ZYt28資訊網——每日最新資訊28at.com

在涵蓋文檔 / 圖表 / 場景文本理解、數學推理、多圖像理解和常識問答等多個維度的基準測試,如在 InfoVQA 中超越之前最好成績,在 MathVista 數學推理任務上優勢明顯。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

VideoLLaMA 3 以圖片為中心的設計理念貫穿于整個模型架構和訓練過程。ZYt28資訊網——每日最新資訊28at.com

通過高質量的圖片文本數據為視頻理解打下堅實基礎,僅使用 3M 視頻文本數據,實現全面超越同參數量開源模型的視頻理解能力。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

在線可玩

目前,VideoLLaMA 3 已經在 HuggingFace 上提供了圖像、視頻理解的 demo。ZYt28資訊網——每日最新資訊28at.com

例如我們給一張《蒙娜麗莎的微笑》,并向 VideoLLaMA 3 提問:ZYt28資訊網——每日最新資訊28at.com

Discuss the historical impact and the significance of this painting in the art world.ZYt28資訊網——每日最新資訊28at.com

討論這幅畫在藝術界的歷史影響和意義。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

VideoLLaMA 3 的回答是這樣的:ZYt28資訊網——每日最新資訊28at.com

《蒙娜麗莎》不僅是世界上最著名的畫作之一,也是藝術史上的重要作品。它創作于文藝復興時期,體現了該時期對人文主義的關注和古典學習的復興。列奧納多?達?芬奇的創新技術,如在色彩和色調之間進行柔和過渡的模糊手法,為這幅畫的神秘品質做出了貢獻。幾個世紀以來,《蒙娜麗莎》一直是一個迷人的主題,激發了無數的解釋和分析。它已成為西方文化的標志,象征著藝術成就的頂峰,象征著視覺藝術對跨越時間和文化的觀眾的持久魅力。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

再來看下視頻理解的 demo,我們的問題是:ZYt28資訊網——每日最新資訊28at.com

What is unusual in the video?ZYt28資訊網——每日最新資訊28at.com

視頻中有什么不尋常之處?ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

對此,VideoLLaMA 3 表示:ZYt28資訊網——每日最新資訊28at.com

這段視頻的不同尋常之處在于,它展示了熊這種典型的野生動物,正在進行一種類似人類的活動,比如在桌子上吃壽司。ZYt28資訊網——每日最新資訊28at.com

VideoLLaMA 3 回答可謂是非常簡約且精準了。ZYt28資訊網——每日最新資訊28at.com

并且這個 demo 在 HuggingFace 上的操作也是極其簡單,只需上傳圖片或視頻,再提出你的問題即可。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

怎么做到的?

VideoLLaMA 3 的關鍵,在于它是一種以圖像為中心的訓練范式。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

這種范式主要包含四個關鍵內容:ZYt28資訊網——每日最新資訊28at.com

視覺編碼器適配:讓視覺編碼器能處理動態分辨率圖像,用不同場景圖像提升其性能,使其能捕捉精細視覺細節。ZYt28資訊網——每日最新資訊28at.com

視覺語言對齊:用豐富圖像文本數據為多模態理解打基礎,利用多種數據增強空間推理能力,同時保留模型語言能力。ZYt28資訊網——每日最新資訊28at.com

多任務微調:用圖像文本問答數據和視頻字幕數據微調模型,提升其遵循自然語言指令和多模態理解能力,為視頻理解做準備。ZYt28資訊網——每日最新資訊28at.com

視頻微調:增強模型視頻理解和問答能力,訓練數據包含多種視頻及圖像、文本數據。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

從框架設計來看,主要包含兩大內容。ZYt28資訊網——每日最新資訊28at.com

首先是任意分辨率視覺標記化(AVT)。ZYt28資訊網——每日最新資訊28at.com

這種方法突破了傳統固定分辨率限制,采用 2D - RoPE 替換絕對位置嵌入,讓視覺編碼器能處理不同分辨率圖像和視頻,保留更多細節。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

其次是差分幀剪枝器(DiffFP)。ZYt28資訊網——每日最新資訊28at.com

針對視頻數據冗余問題,通過比較相鄰幀像素空間的 1-范數距離,修剪冗余視頻標記,提高視頻處理效率,減少計算需求。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

除了框架之外,高質量數據也對 VideoLLaMA 3 的性能起到了關鍵作用。ZYt28資訊網——每日最新資訊28at.com

首先是高質量圖像重新標注數據集 VL3Syn7M 的構建。ZYt28資訊網——每日最新資訊28at.com

為給 VideoLLaMA 3 提供高質量訓練數據,團隊構建了包含 700 萬圖像-字幕對的 VL3Syn7M 數據集。ZYt28資訊網——每日最新資訊28at.com

Aspect Ratio Filtering(長寬比過濾):圖像長寬比可能影響模型特征提取。像一些長寬比極端的圖像,過寬或過長,會使模型在處理時產生偏差。通過過濾,確保數據集中圖像長寬比處于典型范圍,為后續準確的特征提取奠定基礎。ZYt28資訊網——每日最新資訊28at.com

Aesthetic Score Filtering(美學評分過濾):利用美學評分模型評估圖像視覺質量,舍棄低評分圖像。這一步能去除視覺效果差、構圖不佳的圖像,減少噪聲干擾,保證模型學習到的圖像內容和描述質量更高,進而提升模型生成優質描述的能力。ZYt28資訊網——每日最新資訊28at.com

Text-Image Similarity Calculation with Coarse Captioning(帶粗略字幕的文本-圖像相似度計算):先用 BLIP2 模型為圖像生成初始字幕,再借助 CLIP 模型計算文本 - 圖像相似度,剔除相似度低的圖像。這一操作確保剩余圖像內容與描述緊密相關,使模型學習到的圖文對更具可解釋性和代表性。ZYt28資訊網——每日最新資訊28at.com

Visual Feature Clustering(視覺特征聚類):運用 CLIP 視覺模型提取圖像視覺特征,通過 k-最近鄰(KNN)算法聚類,從每個聚類中心選取固定數量圖像。這樣既保證數據集多樣性,又維持語義類別的平衡分布,讓模型接觸到各類視覺內容,增強其泛化能力。ZYt28資訊網——每日最新資訊28at.com

Image Re - caption(圖像重新標注):對過濾和聚類后的圖像重新標注。簡短字幕由 InternVL2-8B 生成,詳細字幕則由 InternVL2-26B 完成。不同階段訓練使用不同類型字幕,滿足模型多樣化學習需求。ZYt28資訊網——每日最新資訊28at.com

其次是各訓練階段的數據混合。ZYt28資訊網——每日最新資訊28at.com

在 VideoLLaMA 3 的不同訓練階段,數據混合策略為模型提供了豐富多樣的學習場景。此外,團隊使用統一的數據組織形式以統一各個階段的訓練。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

Vision Encoder Adaptation(視覺編碼器適配):此階段旨在增強模型對多樣場景的理解和特征提取能力,訓練數據融合場景圖像、文檔識別圖像和少量場景文本圖像。ZYt28資訊網——每日最新資訊28at.com

場景圖像來源廣泛,像 VL3-Syn7M-short 等,其中 Object365 和 SA-1B 數據集的引入增加了數據多樣性;場景文本圖像來自 BLIP3-OCR,其文本內容和簡短重新標注都作為字幕;文檔圖像選取自 pdfa-eng-wds 和 idl-wds,文檔文本內容按閱讀順序作為圖像字幕。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

Vision-Language Alignment(視覺語言對齊):該階段使用高質量數據微調模型,涵蓋場景圖像、場景文本圖像、文檔、圖表、細粒度數據以及大量高質量純文本數據。ZYt28資訊網——每日最新資訊28at.com

場景圖像整合多個數據集并重新標注;場景文本圖像包含多種中英文數據集,并對 LAION 數據集中圖像篩選形成 Laion-OCR 數據集,其字幕包含文本內容和文本位置的邊界框注釋。ZYt28資訊網——每日最新資訊28at.com

文檔圖像除常見數據集外,還加入手寫和復雜文檔數據集;圖表數據雖量少,但來自 Chart-to-Text 數據集;細粒度數據包含區域字幕數據和帶框字幕數據,增強模型對圖像細節的理解。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

Multi-task Fine-tuning(多任務微調):用指令跟隨數據進行指令微調,數據混合覆蓋多種任務。ZYt28資訊網——每日最新資訊28at.com

圖像數據分為一般、文檔、圖表 / 圖形、OCR、定位和多圖像六類,每類針對特定視覺理解方面。同時包含大量純文本數據,提升模型處理涉及視覺和文本輸入的指令跟隨任務的能力。ZYt28資訊網——每日最新資訊28at.com

視頻數據則結合常用高質量視頻字幕數據集、少量問答數據,以及 VideoLLaMA2 的內部數據和內部時間定位數據,增強模型視頻理解能力。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

Video - centric Fine - tuning(視頻微調):此階段聚焦提升模型視頻理解能力,收集多個開源數據集中帶注釋的視頻數據,還通過合成特定方面的密集字幕和問答對擴展數據規模。ZYt28資訊網——每日最新資訊28at.com

此外,引入流媒體視頻理解和時間定位特征,同時使用一定量的純圖像和純文本數據,緩解模型災難性遺忘問題。ZYt28資訊網——每日最新資訊28at.com

ZYt28資訊網——每日最新資訊28at.com

論文和 demo 地址放在下面了,感興趣的小伙伴可以去體驗嘍~ZYt28資訊網——每日最新資訊28at.com

論文地址:ZYt28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2501.13106ZYt28資訊網——每日最新資訊28at.com

GitHub 項目地址:ZYt28資訊網——每日最新資訊28at.com

https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-fileZYt28資訊網——每日最新資訊28at.com

圖像理解 demo:ZYt28資訊網——每日最新資訊28at.com

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-ImageZYt28資訊網——每日最新資訊28at.com

視頻理解 demo:ZYt28資訊網——每日最新資訊28at.com

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3ZYt28資訊網——每日最新資訊28at.com

HuggingFace 地址:ZYt28資訊網——每日最新資訊28at.com

https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15ZYt28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:關注前沿科技ZYt28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-10771-0.html達摩院開源 VideoLLaMA3:僅 7B 大小,視頻理解拿下 SOTA

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 馬斯克974億美金全現金收購OpenAI,5月10日前能否成交?

下一篇: Anthropic 秘密“混合模型”Claude 4 首曝細節,硬剛 GPT-5

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 德令哈市| 灵武市| 通城县| 宜川县| 海宁市| 永吉县| 探索| 长垣县| 普宁市| 家居| 金昌市| 枣强县| 溆浦县| 疏勒县| 深泽县| 保亭| 新巴尔虎右旗| 韶山市| 奈曼旗| 鹤山市| 顺义区| 桑植县| 资源县| 肇源县| 江孜县| 丰顺县| 无棣县| 周宁县| 垣曲县| 泰来县| 什邡市| 大兴区| 公主岭市| 商城县| 岢岚县| 安陆市| 中超| 嘉鱼县| 嘉荫县| 通辽市| 湾仔区|