日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

英偉達推 DAM-3B 模型:突破局部描述難題,讓 AI 看懂圖像 視頻每一個角落

來源: 責編: 時間:2025-04-26 10:25:57 50觀看
導讀 4 月 24 日消息,科技媒體 marktechpost 昨日(4 月 23 日)發布博文,報道稱英偉達為應對圖像和視頻中特定區域的詳細描述難題,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。視覺-語言模型(VLMs)在生成整體圖像描述

4 月 24 日消息,科技媒體 marktechpost 昨日(4 月 23 日)發布博文,報道稱英偉達為應對圖像和視頻中特定區域的詳細描述難題,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。Ri028資訊網——每日最新資訊28at.com

視覺-語言模型(VLMs)在生成整體圖像描述時表現出色,但對特定區域的細致描述往往力不從心,尤其在視頻中需考慮時間動態,挑戰更大。Ri028資訊網——每日最新資訊28at.com

英偉達推出的 Describe Anything 3B(DAM-3B)直面這一難題,支持用戶通過點、邊界框、涂鴉或掩碼指定目標區域,生成精準且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態圖像和動態視頻,模型已在 Hugging Face 平臺公開。Ri028資訊網——每日最新資訊28at.com

獨特架構與高效設計Ri028資訊網——每日最新資訊28at.com

DAM-3B 的核心創新在于“焦點提示”和“局部視覺骨干網絡”。Ri028資訊網——每日最新資訊28at.com

Ri028資訊網——每日最新資訊28at.com

焦點提示技術融合了全圖信息與目標區域的高分辨率裁剪,確保細節不失真,同時保留整體背景。Ri028資訊網——每日最新資訊28at.com

局部視覺骨干網絡則通過嵌入圖像和掩碼輸入,運用門控交叉注意力機制,將全局與局部特征巧妙融合,再傳輸至大語言模型生成描述。Ri028資訊網——每日最新資訊28at.com

DAM-3B-Video 進一步擴展至視頻領域,通過逐幀編碼區域掩碼并整合時間信息,即便面對遮擋或運動也能生成準確描述。Ri028資訊網——每日最新資訊28at.com

數據與評估雙管齊下Ri028資訊網——每日最新資訊28at.com

為解決訓練數據匱乏問題,NVIDIA 開發了 DLC-SDP 半監督數據生成策略,利用分割數據集和未標注的網絡圖像,構建了包含 150 萬局部描述樣本的訓練語料庫。Ri028資訊網——每日最新資訊28at.com

Ri028資訊網——每日最新資訊28at.com

通過自訓練方法優化描述質量,確保輸出文本的高精準度,團隊同時推出 DLC-Bench 評估基準,以屬性級正確性而非僵硬的參考文本對比衡量描述質量。Ri028資訊網——每日最新資訊28at.com

Ri028資訊網——每日最新資訊28at.com

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準測試中領先,平均準確率達 67.3%,超越 GPT-4o 和 VideoRefer 等模型。Ri028資訊網——每日最新資訊28at.com

DAM-3B 不僅填補了局部描述領域的技術空白,其上下文感知架構和高質量數據策略還為無障礙工具、機器人技術及視頻內容分析等領域開辟了新可能。Ri028資訊網——每日最新資訊28at.com

附上參考地址Ri028資訊網——每日最新資訊28at.com

Describe Anything: Detailed Localized Image and Video CaptioningRi028資訊網——每日最新資訊28at.com

Hugging FaceRi028資訊網——每日最新資訊28at.com

項目頁面Ri028資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12581-0.html英偉達推 DAM-3B 模型:突破局部描述難題,讓 AI 看懂圖像 視頻每一個角落

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 50 → 100 條:OpenAI 放寬限制,Plus 等用戶每周可用 o3 AI 模型消息數翻倍

下一篇: “AI 教父”等發布聯名公開信: OpenAI 重組背離初衷,呼吁監管介入

標簽:
  • 熱門焦點
  • 風口已至,多領域平臺融入社交元素!

    在眾多領域平臺中,社交元素都扮演著重要角色,如直播營銷帶貨、線上配對聽歌、游戲局內互動等。隨著元宇宙時代的來臨,社交產品不斷升級,社交元素推動流量變現,多平臺領域融入社交
  • 大廠元宇宙,又菜又愛玩

    撰文 | 吳先之 編輯 | 王 潘當下所有大廠推出的元宇宙產品,所能帶來的沉浸式體驗并不多,好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例,由于VR頭顯設
  • 中國區塊鏈產業生態地圖報告(2021)

    區塊鏈是技術整合創新、金融創新、組織方式創新、產業應用創新的多維度創新,以服務實體經濟、政務民生以及公共服務等領域為落腳點,以期實現整個地區和產業的資
  • 餐桌上怎么變出元宇宙?

    作者:星影“元宇宙讓餐飲業脫胎換骨。”實體的餐飲與虛擬的元宇宙,看起來風馬牛不相及,但最近全世界的餐飲企業都掀起了一股注冊元宇宙商標的熱潮。2月初,全球最大
  • Meta展示AI系統Builder Bot;《Pistol Whip》增加派對模式

    今日熱點:Meta展示AI系統Builder Bot;招聘信息顯示Meta正在探索具有蜂窩連接功能的VR/AR頭顯;英國VR工作室Coatsink Games正在為PSVR 2開發新游戲;VR節奏射擊游戲
  • 2022年元宇宙系列報告:UGC當道,XR帶來新交互體驗

    UGC作為元宇宙的主要內容創作模式,已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面,UGC模式勾勒了元宇宙的邊界,現今元宇宙UGC模式的主要呈現方式以元宇宙概念
  • 元宇宙存在的意義和價值

    科技公司目前都在猶豫,看誰能在元宇宙上押下更大的賭注。然而,除了巨額的資金投入,到底要怎樣才能獲勝在很大程度上還沒有得到證實。它是否僅僅是對當前數字景觀
  • 花旗集團前高管加入Provenance區塊鏈,擔任CEO

    No.1 花旗集團前高管加入Provenance區塊鏈,擔任CEO3月1日消息,Provenance區塊鏈基金會已任命花旗集團前高管摩根·麥肯尼(Morgan McKenney)為新任首席執行官。麥肯
  • 我們離元宇宙的實現只差一副眼鏡?

    近日的蘋果春季新品發布會,想必許多人都守在了屏幕前,就為等待傳說中的首款AR Glass。在發布會之前,蘋果全球營銷主管Greg Joswiak曾在Twitter上分享了一段短視頻
Top 主站蜘蛛池模板: 左云县| 曲麻莱县| 屏山县| 鄂托克前旗| 东城区| 绥滨县| 阿拉尔市| 祁连县| 岗巴县| 库伦旗| 邵阳县| 满洲里市| 嘉峪关市| 临沂市| 白水县| 延川县| 银川市| 连山| 阜平县| 南安市| 肥西县| 西充县| 南溪县| 常宁市| 江门市| 进贤县| 治县。| 湛江市| 天台县| 迁西县| 延安市| 本溪市| 合水县| 菏泽市| 交城县| 商水县| 托克托县| 永兴县| 苗栗市| 江华| 运城市|