日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

清華大學研發 LLM4VG 基準:用于評估 LLM 視頻時序定位性能

來源: 責編: 時間:2024-01-03 09:09:34 352觀看
導讀 12 月 29 日消息,大語言模型(LLM)的觸角已經從單純的自然語言處理,擴展到文本、音頻、視頻等多模態領域,而其中一項關鍵就是視頻時序定位(Video Grounding,VG)。VG 任務的目的基于給定查詢(一句描述),然后在目標視頻段中

12 月 29 日消息,大語言模型(LLM)的觸角已經從單純的自然語言處理,擴展到文本、音頻、視頻等多模態領域,而其中一項關鍵就是視頻時序定位(Video Grounding,VG)。38M28資訊網——每日最新資訊28at.com

38M28資訊網——每日最新資訊28at.com

VG 任務的目的基于給定查詢(一句描述),然后在目標視頻段中定位起始和結束時間,核心挑戰在于時間邊界定位的精度。38M28資訊網——每日最新資訊28at.com

清華大學研究團隊近日推出了“LLM4VG”基準,這是一個專門設計用于評估 LLM 在 VG 任務中的性能。38M28資訊網——每日最新資訊28at.com

此基準考慮了兩種主要策略:第一種涉及直接在文本視頻數據集(VidLLM)上訓練的視頻 LLM,第二種是結合傳統的 LLM 與預訓練的視覺模型。38M28資訊網——每日最新資訊28at.com

38M28資訊網——每日最新資訊28at.com

在第一種策略中,VidLLM 直接處理視頻內容和 VG 任務指令,根據其對文本-視頻的訓練輸出預測。38M28資訊網——每日最新資訊28at.com

第二種策略更為復雜,涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務指令集成的視頻內容的文本描述,通過精心設計的提示。38M28資訊網——每日最新資訊28at.com

這些提示經過專門設計,可以有效地將 VG 的指令與給定的視覺描述結合起來,從而讓 LLM 能夠處理和理解有關任務的視頻內容。38M28資訊網——每日最新資訊28at.com

據觀察,VidLLM 盡管直接在視頻內容上進行訓練,但在實現令人滿意的 VG 性能方面仍然存在很大差距。這一發現強調了在訓練中納入更多與時間相關的視頻任務以提高性能的必要性。38M28資訊網——每日最新資訊28at.com

38M28資訊網——每日最新資訊28at.com

而第二種策略優于 VidLLM,為未來的研究指明了一個有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設計,因此能夠生成詳細且準確的視頻描述后,更精細的圖形模型可以大幅提高 LLM 的 VG 性能。38M28資訊網——每日最新資訊28at.com

38M28資訊網——每日最新資訊28at.com

總之,該研究對 LLM 在 VG 任務中的應用進行了開創性的評估,強調了在模型訓練和提示設計中需要更復雜的方法。38M28資訊網——每日最新資訊28at.com

附上論文參考地址:https://arxiv.org/pdf/2312.14206.pdf38M28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3110-0.html清華大學研發 LLM4VG 基準:用于評估 LLM 視頻時序定位性能

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 廣汽埃安2023年銷量大放異彩,累計突破48萬輛大關

下一篇: 教 AI 入侵 AI,科學家研發 Masterkey 新方式

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 盐亭县| 且末县| 博白县| 中牟县| 平昌县| 西平县| 大安市| 华池县| 时尚| 五指山市| 邓州市| 吴川市| 辽源市| 博白县| 布尔津县| 房产| 隆回县| 阳城县| 中西区| 温州市| 兴文县| 凌源市| 马尔康县| 琼中| 梅河口市| 文化| 石嘴山市| 文登市| 朝阳县| 娄烦县| 登封市| 桃源县| 德江县| 洪雅县| 威信县| 临洮县| 罗城| 永嘉县| 黔江区| 清河县| 九江县|