日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

清華大學(xué)研發(fā) LLM4VG 基準(zhǔn):用于評(píng)估 LLM 視頻時(shí)序定位性能

來源: 責(zé)編: 時(shí)間:2024-01-03 09:09:34 351觀看
導(dǎo)讀 12 月 29 日消息,大語言模型(LLM)的觸角已經(jīng)從單純的自然語言處理,擴(kuò)展到文本、音頻、視頻等多模態(tài)領(lǐng)域,而其中一項(xiàng)關(guān)鍵就是視頻時(shí)序定位(Video Grounding,VG)。VG 任務(wù)的目的基于給定查詢(一句描述),然后在目標(biāo)視頻段中

12 月 29 日消息,大語言模型(LLM)的觸角已經(jīng)從單純的自然語言處理,擴(kuò)展到文本、音頻、視頻等多模態(tài)領(lǐng)域,而其中一項(xiàng)關(guān)鍵就是視頻時(shí)序定位(Video Grounding,VG)。1lf28資訊網(wǎng)——每日最新資訊28at.com

1lf28資訊網(wǎng)——每日最新資訊28at.com

VG 任務(wù)的目的基于給定查詢(一句描述),然后在目標(biāo)視頻段中定位起始和結(jié)束時(shí)間,核心挑戰(zhàn)在于時(shí)間邊界定位的精度。1lf28資訊網(wǎng)——每日最新資訊28at.com

清華大學(xué)研究團(tuán)隊(duì)近日推出了“LLM4VG”基準(zhǔn),這是一個(gè)專門設(shè)計(jì)用于評(píng)估 LLM 在 VG 任務(wù)中的性能。1lf28資訊網(wǎng)——每日最新資訊28at.com

此基準(zhǔn)考慮了兩種主要策略:第一種涉及直接在文本視頻數(shù)據(jù)集(VidLLM)上訓(xùn)練的視頻 LLM,第二種是結(jié)合傳統(tǒng)的 LLM 與預(yù)訓(xùn)練的視覺模型。1lf28資訊網(wǎng)——每日最新資訊28at.com

1lf28資訊網(wǎng)——每日最新資訊28at.com

在第一種策略中,VidLLM 直接處理視頻內(nèi)容和 VG 任務(wù)指令,根據(jù)其對(duì)文本-視頻的訓(xùn)練輸出預(yù)測(cè)。1lf28資訊網(wǎng)——每日最新資訊28at.com

第二種策略更為復(fù)雜,涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務(wù)指令集成的視頻內(nèi)容的文本描述,通過精心設(shè)計(jì)的提示。1lf28資訊網(wǎng)——每日最新資訊28at.com

這些提示經(jīng)過專門設(shè)計(jì),可以有效地將 VG 的指令與給定的視覺描述結(jié)合起來,從而讓 LLM 能夠處理和理解有關(guān)任務(wù)的視頻內(nèi)容。1lf28資訊網(wǎng)——每日最新資訊28at.com

據(jù)觀察,VidLLM 盡管直接在視頻內(nèi)容上進(jìn)行訓(xùn)練,但在實(shí)現(xiàn)令人滿意的 VG 性能方面仍然存在很大差距。這一發(fā)現(xiàn)強(qiáng)調(diào)了在訓(xùn)練中納入更多與時(shí)間相關(guān)的視頻任務(wù)以提高性能的必要性。1lf28資訊網(wǎng)——每日最新資訊28at.com

1lf28資訊網(wǎng)——每日最新資訊28at.com

而第二種策略優(yōu)于 VidLLM,為未來的研究指明了一個(gè)有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設(shè)計(jì),因此能夠生成詳細(xì)且準(zhǔn)確的視頻描述后,更精細(xì)的圖形模型可以大幅提高 LLM 的 VG 性能。1lf28資訊網(wǎng)——每日最新資訊28at.com

1lf28資訊網(wǎng)——每日最新資訊28at.com

總之,該研究對(duì) LLM 在 VG 任務(wù)中的應(yīng)用進(jìn)行了開創(chuàng)性的評(píng)估,強(qiáng)調(diào)了在模型訓(xùn)練和提示設(shè)計(jì)中需要更復(fù)雜的方法。1lf28資訊網(wǎng)——每日最新資訊28at.com

附上論文參考地址:https://arxiv.org/pdf/2312.14206.pdf1lf28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3110-0.html清華大學(xué)研發(fā) LLM4VG 基準(zhǔn):用于評(píng)估 LLM 視頻時(shí)序定位性能

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 廣汽埃安2023年銷量大放異彩,累計(jì)突破48萬輛大關(guān)

下一篇: 教 AI 入侵 AI,科學(xué)家研發(fā) Masterkey 新方式

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 台北市| 大田县| 云安县| 霸州市| 革吉县| 临海市| 垦利县| 华蓥市| 高唐县| 佳木斯市| 浪卡子县| 方山县| 望城县| 茌平县| 高唐县| 谷城县| 巧家县| 类乌齐县| 沙洋县| 定陶县| 昌图县| 佛冈县| 衡东县| 连江县| 通城县| 逊克县| 广州市| 无棣县| 阿城市| 宜兴市| 大理市| 永善县| 莱芜市| 巴楚县| 甘谷县| 明光市| 深水埗区| 滕州市| 志丹县| 兰西县| 衢州市|