日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

AI 變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長(zhǎng) 3 小時(shí)視頻

來源: 責(zé)編: 時(shí)間:2023-12-14 16:35:28 373觀看
導(dǎo)讀 啥?AI 都能自己看電影大片了?賈佳亞團(tuán)隊(duì)最新研究成果,讓大模型直接學(xué)會(huì)了處理超長(zhǎng)視頻。丟給它一部科幻大片《星際穿越》(片長(zhǎng) 2 小時(shí) 49 分鐘):它“看”完之后,不僅能結(jié)合電影情節(jié)和人物輕松對(duì)電影進(jìn)行點(diǎn)評(píng):還能很精

啥?AI 都能自己看電影大片了?emL28資訊網(wǎng)——每日最新資訊28at.com

賈佳亞團(tuán)隊(duì)最新研究成果,讓大模型直接學(xué)會(huì)了處理超長(zhǎng)視頻。emL28資訊網(wǎng)——每日最新資訊28at.com

丟給它一部科幻大片《星際穿越》(片長(zhǎng) 2 小時(shí) 49 分鐘):emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

它“看”完之后,不僅能結(jié)合電影情節(jié)和人物輕松對(duì)電影進(jìn)行點(diǎn)評(píng):emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

還能很精準(zhǔn)地回答出劇中所涉的細(xì)節(jié):emL28資訊網(wǎng)——每日最新資訊28at.com

例如:蟲洞的作用和創(chuàng)造者是誰?emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

答:未來的智慧生物放置在土星附近,用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越。emL28資訊網(wǎng)——每日最新資訊28at.com

男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲?emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

答:通過手表以摩斯密碼的方式傳遞數(shù)據(jù)。emL28資訊網(wǎng)——每日最新資訊28at.com

啊這,感覺電影博主的飯碗也要被 AI 搶走了。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

這就是最新多模態(tài)大模型 LLaMA-VID,它支持單圖、短視頻和長(zhǎng)視頻三種輸入。emL28資訊網(wǎng)——每日最新資訊28at.com

對(duì)比來看,包括 GPT-4V 等在內(nèi)的同類模型基本只能處理圖像。emL28資訊網(wǎng)——每日最新資訊28at.com

而背后原理更有看頭。emL28資訊網(wǎng)——每日最新資訊28at.com

據(jù)介紹,LLaMA-VID 只通過一個(gè)非常簡(jiǎn)單的辦法就達(dá)成了如上能力,那就是:emL28資訊網(wǎng)——每日最新資訊28at.com

把表示每一幀圖像的 token 數(shù)量,壓縮到僅有 2 個(gè)。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

具體效果如何以及如何實(shí)現(xiàn)?一起來看。emL28資訊網(wǎng)——每日最新資訊28at.com

人物理解分析、電影細(xì)節(jié)都 OK

對(duì)于電影來說,除了精準(zhǔn)回答所涉細(xì)節(jié),LLaMA-VID 也能對(duì)角色進(jìn)行十分準(zhǔn)確的理解和分析。emL28資訊網(wǎng)——每日最新資訊28at.com

還是《星際穿越》,我們讓它看完后分析米勒星球上相對(duì)地球時(shí)間的快慢及原因。emL28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果完全正確:emL28資訊網(wǎng)——每日最新資訊28at.com

LLaMA-VID 表示是因?yàn)槊桌招乔蛟诤诙锤浇瑢?dǎo)致 1 小時(shí)相當(dāng)于地球 7 年。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

再丟給它時(shí)長(zhǎng)近倆小時(shí)的《阿甘正傳》。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于“珍妮對(duì)于阿甘有何意義?”這一問題,LLaMA-VID 的回答是:emL28資訊網(wǎng)——每日最新資訊28at.com

孩童時(shí)期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于阿甘在戰(zhàn)爭(zhēng)及退伍后的事件也能進(jìn)行分析,且回答也很到位:emL28資訊網(wǎng)——每日最新資訊28at.com

丹中尉責(zé)怪阿甘救了自己,因?yàn)檫@讓他無法戰(zhàn)死沙場(chǎng)。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

除了看電影,成為一個(gè)無所不知的的“電影搭子”,它也能很好地理解宣傳片的意圖,回答一些開放問題。emL28資訊網(wǎng)——每日最新資訊28at.com

比如給它一段最近很火的 GTA6 預(yù)告片。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

問它“這個(gè)游戲哪里最吸引你?”,它“看”完后給出的想法是:emL28資訊網(wǎng)——每日最新資訊28at.com

一是游戲場(chǎng)景和設(shè)置非常多(從賽車、特技駕駛到射擊等),二是視覺效果比較驚艷。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

哦對(duì)了,LLaMA-VID 還能根據(jù)游戲中的場(chǎng)景和特征,推測(cè)出預(yù)告片是 Rockstar 游戲公司的推廣:emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

以及認(rèn)出游戲的背景城市為邁阿密(根據(jù)夜生活、海灘等信息,以及在作者提示游戲設(shè)置在佛羅里達(dá)之后)。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

最后,在宣傳片、時(shí)長(zhǎng)高達(dá) 2-3 小時(shí)的電影這些視頻材料之外,我們也來看看 LLaMA-VID 對(duì)最基礎(chǔ)的圖片信息的理解能力。emL28資訊網(wǎng)——每日最新資訊28at.com

吶,準(zhǔn)確識(shí)別出這是一塊布料,上面有個(gè)洞:emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

讓它扮演“福爾摩斯”也不在話下。面對(duì)這樣一張房間內(nèi)景照片:emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

它可以從門上掛了很多外套分析出房間主人可能生活繁忙 / 經(jīng)常外出。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

看得出來,LLaMA-VID 對(duì)視頻的準(zhǔn)確解讀正是建立在這樣的圖片水準(zhǔn)之上的,但最關(guān)鍵的點(diǎn)還是它如何完成如此長(zhǎng)時(shí)間的視頻處理。emL28資訊網(wǎng)——每日最新資訊28at.com

幾行代碼實(shí)現(xiàn)單幀 2 token 表示

LLaMA-VID 的關(guān)鍵創(chuàng)新是將每幀畫面的 token 數(shù)量壓縮到很低,從而實(shí)現(xiàn)可處理超長(zhǎng)視頻。emL28資訊網(wǎng)——每日最新資訊28at.com

很多傳統(tǒng)多模態(tài)大模型對(duì)于單張圖片編碼的 token 數(shù)量過多,導(dǎo)致了視頻時(shí)間加長(zhǎng)后,所需 token 數(shù)量暴增,模型難以承受。emL28資訊網(wǎng)——每日最新資訊28at.com

為此研究團(tuán)隊(duì)重新設(shè)計(jì)了圖像的編碼方式,采用上下文編碼(Context Token)和圖像內(nèi)容編碼(Content Token)來對(duì)視頻中的單幀進(jìn)行編碼。emL28資訊網(wǎng)——每日最新資訊28at.com

從而實(shí)現(xiàn)了將每一幀用 2 個(gè) token 表示。emL28資訊網(wǎng)——每日最新資訊28at.com

具體來看 LLaMA-VID 的框架。emL28資訊網(wǎng)——每日最新資訊28at.com

只包含 3 個(gè)部分:emL28資訊網(wǎng)——每日最新資訊28at.com

采用編解碼器產(chǎn)生視覺嵌入和文本引導(dǎo)特征。emL28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)特定 token 生成策略轉(zhuǎn)換上下文 token 和圖像內(nèi)容 token。emL28資訊網(wǎng)——每日最新資訊28at.com

指令調(diào)優(yōu)進(jìn)一步優(yōu)化。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)指令,LLaMA-VID 選取單個(gè)圖像或視頻幀作為輸入,然后從大語言模型上生成回答。emL28資訊網(wǎng)——每日最新資訊28at.com

這個(gè)過程從一個(gè)可視編碼器開始,該編碼器將輸入幀轉(zhuǎn)換為可視幀嵌入。emL28資訊網(wǎng)——每日最新資訊28at.com

然后文本解碼器根據(jù)用戶輸入和圖像編碼器提取的特征,來生成與輸入指令相關(guān)的跨模態(tài)索引(Text Query)。emL28資訊網(wǎng)——每日最新資訊28at.com

然后利用注意力機(jī)制(Context Attention),將視覺嵌入中和文本相關(guān)的視覺線索聚合起來,也就是特征采樣和組合,從而生成高質(zhì)量的指令相關(guān)特征。emL28資訊網(wǎng)——每日最新資訊28at.com

為了提高效率,模型將可視化嵌入樣本壓縮到不同 token 大小,甚至是一個(gè) token。emL28資訊網(wǎng)——每日最新資訊28at.com

其中,上下文 token 根據(jù)用戶輸入的問題生成,盡可能保留和用戶問題相關(guān)的視覺特征。emL28資訊網(wǎng)——每日最新資訊28at.com

圖像內(nèi)容 token 則直接根據(jù)用戶指令對(duì)圖像特征進(jìn)行池化采樣,更關(guān)注圖像本身的內(nèi)容信息,對(duì)上下文 token 未關(guān)注到的部分進(jìn)行補(bǔ)充。emL28資訊網(wǎng)——每日最新資訊28at.com

文本引導(dǎo)上下文 token 和圖像 token 來一起表示每一幀。emL28資訊網(wǎng)——每日最新資訊28at.com

最后,大語言模型將用戶指令和所有視覺 token 作為輸入,生成回答。emL28資訊網(wǎng)——每日最新資訊28at.com

而且這種 token 的生成方法很簡(jiǎn)單,僅需幾行代碼。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果方面,LLaMA-VID 在多個(gè)視頻問答和推理榜單上實(shí)現(xiàn) SOTA。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

僅需加入 1 個(gè)上下文 token 拓展,LLaMA-VID 在多個(gè)圖片問答指標(biāo)上也能獲得顯著提升。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

在 16 個(gè)視頻、圖片理解及推理數(shù)據(jù)集上,LLaMA-VID 實(shí)現(xiàn)了很好效果。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

在 GitHub 上,團(tuán)隊(duì)提供了不同階段的所有微調(diào)模型,以及第一階段的預(yù)訓(xùn)練權(quán)重。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

具體訓(xùn)練包括 3 個(gè)過程:特征對(duì)齊、指令微調(diào)、長(zhǎng)視頻微調(diào)(相應(yīng)步驟可參考 GitHub)。emL28資訊網(wǎng)——每日最新資訊28at.com

此外,LLaMA-VID 還收集了 400 部電影并生成 9K 條長(zhǎng)視頻問答語料,包含電影影評(píng)、人物成長(zhǎng)及情節(jié)推理等。emL28資訊網(wǎng)——每日最新資訊28at.com

結(jié)合之前賈佳亞團(tuán)隊(duì)所發(fā)布的長(zhǎng)文本數(shù)據(jù)集 LongAlpaca-12k(9k 條長(zhǎng)文本問答語料對(duì)、3k 短文本問答語料對(duì)), 可輕松將現(xiàn)有多模態(tài)模型拓展來支持長(zhǎng)視頻輸入。emL28資訊網(wǎng)——每日最新資訊28at.com

值得一提的是,今年 8 月開始賈佳亞團(tuán)隊(duì)就發(fā)布了主攻推理分割的 LISA 多模態(tài)大模型。emL28資訊網(wǎng)——每日最新資訊28at.com

10 月還發(fā)布了長(zhǎng)文本開源大語言模型 LongAlpaca(70 億參數(shù))和超長(zhǎng)文本擴(kuò)展方法 LongLoRA。emL28資訊網(wǎng)——每日最新資訊28at.com

LongLoRA 只需兩行代碼便可將 7B 模型的文本長(zhǎng)度拓展到 100k tokens,70B 模型的文本長(zhǎng)度拓展到 32k tokens。emL28資訊網(wǎng)——每日最新資訊28at.com

最后,團(tuán)隊(duì)也提供了 demo 地址,可自己上傳視頻和 LLaMA-VID 對(duì)話(部署在單塊 3090,需要的小伙伴可以參考 code 用更大的顯存部署,直接和整個(gè)電影對(duì)話)。emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

看來,以后看不懂諾蘭電影,可以請(qǐng)教 AI 試試emL28資訊網(wǎng)——每日最新資訊28at.com

emL28資訊網(wǎng)——每日最新資訊28at.com

~emL28資訊網(wǎng)——每日最新資訊28at.com

論文地址:emL28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2311.17043emL28資訊網(wǎng)——每日最新資訊28at.com

GitHub 地址:emL28資訊網(wǎng)——每日最新資訊28at.com

https://github.com/dvlab-research/LLaMA-VIDemL28資訊網(wǎng)——每日最新資訊28at.com

demo 地址:emL28資訊網(wǎng)——每日最新資訊28at.com

http://103.170.5.190:7864/emL28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:豐色 明敏emL28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2892-0.htmlAI 變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長(zhǎng) 3 小時(shí)視頻

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 谷歌 OpenAI 大模型巔峰對(duì)決!Gemini 激戰(zhàn) GPT-4,數(shù)學(xué)代碼卻慘遭碾壓

下一篇: 谷歌發(fā)言人承認(rèn):Gemini AI 演示視頻內(nèi)容和語音提示均非實(shí)時(shí)錄制

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 這一超級(jí)富豪“逆襲”,身價(jià)大增4330億

    來源:侃見財(cái)經(jīng)互聯(lián)網(wǎng)的突圍沒有“終點(diǎn)”。在快節(jié)奏的商業(yè)環(huán)境下,不斷的試錯(cuò)成了互聯(lián)網(wǎng)企業(yè)的標(biāo)配,一年一個(gè)風(fēng)口,一個(gè)風(fēng)口造就一個(gè)熱點(diǎn),但是回頭來看,最終受益的還是身處
  • 三院士三教授熱聊元宇宙&——AIGC,學(xué)術(shù)界怎么看?

    來源:清元宇宙在近日舉辦的中國江寧2023元宇宙產(chǎn)業(yè)·人才高峰論壇暨AIGC發(fā)展大會(huì)上,中國工程院院士譚建榮、劉韻潔、鄭緯民出席并發(fā)表了主旨演講。除了三大院士,還有清華
  • 元宇宙里賣酸奶,好炸裂的操作!

    作者 | 李東陽 來源 | 首席營銷官有沒有發(fā)現(xiàn),當(dāng)下的熱搜出現(xiàn)一個(gè)有意思的現(xiàn)象,那就是“情懷”不知不覺成為了主流,爺青回話題討論性非常高。前有名偵探柯南和優(yōu)衣庫
  • 【申萬宏源】必然的碎片化AI落地,哪種路徑可能勝出? | 元宇宙Meta洞見

    大規(guī)模預(yù)訓(xùn)GPT(Generative PreTraining)是OpenAI在2018年提出的模型,大規(guī)模預(yù)訓(xùn)練模型(大模型)漸漸成為了AI算法領(lǐng)域的熱點(diǎn)。AI產(chǎn)業(yè)鏈:從算力到應(yīng)用工作流程視角?
  • 萬字專訪Vitalik Buterin:以太坊將成為主流和最安全的基礎(chǔ)層

    Vitalik Buterin 在 19 歲時(shí)撰寫了以太坊白皮書。他的目標(biāo)簡(jiǎn)單而全面,即創(chuàng)建一個(gè)“世界計(jì)算機(jī)”,旨在成為所有在線應(yīng)用程序的靈活基礎(chǔ)層,無需任何第三方。自 2015
  • 元宇宙是數(shù)字共識(shí)生態(tài)的集成邏輯表達(dá)

    作者: 李鳴元宇宙是數(shù)字共識(shí)生態(tài)的集成邏輯表達(dá),是以區(qū)塊鏈技術(shù)為核心的可信數(shù)字化價(jià)值交互網(wǎng)絡(luò),是基于Web3.0技術(shù)體系和運(yùn)作機(jī)制支撐下的數(shù)字新生態(tài)。本體論是
  • 虛擬數(shù)字人:元宇宙的主角破圈而來

    虛擬數(shù)字人市場(chǎng)逐步進(jìn)入成熟期,商業(yè)化進(jìn)程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級(jí)和成長(zhǎng)四個(gè)階段。隨技術(shù)逐年突破,制
  • 元宇宙存在的意義和價(jià)值

    科技公司目前都在猶豫,看誰能在元宇宙上押下更大的賭注。然而,除了巨額的資金投入,到底要怎樣才能獲勝在很大程度上還沒有得到證實(shí)。它是否僅僅是對(duì)當(dāng)前數(shù)字景觀
  • Ceramic:為Web3.0社交應(yīng)用打造的中間件

    大家關(guān)注老雅痞公眾號(hào)這么久,對(duì)Web3的概念不陌生吧?讓我們做一個(gè)簡(jiǎn)短的回顧,Web3主要被描述為去中心化的網(wǎng)絡(luò),旨在實(shí)現(xiàn)無服務(wù)器、去中心化的互聯(lián)網(wǎng),即用戶掌握自己
Top 主站蜘蛛池模板: 昭通市| 页游| 临海市| 普定县| 南安市| 改则县| 昭平县| 蕲春县| 广饶县| 兴安盟| 荆门市| 滨海县| 永宁县| 平武县| 高清| 广昌县| 定边县| 绥芬河市| 惠水县| 兴业县| 安塞县| 二手房| 舒兰市| 桐乡市| 巴林左旗| 天水市| 屏东县| 盐池县| 桂东县| 高青县| 友谊县| 汽车| 宜宾市| 凌源市| 临西县| 甘泉县| 东辽县| 册亨县| 松阳县| 辽中县| 大渡口区|