日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

AI 變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長 3 小時(shí)視頻

來源: 責(zé)編: 時(shí)間:2023-12-14 16:35:28 374觀看
導(dǎo)讀 啥?AI 都能自己看電影大片了?賈佳亞團(tuán)隊(duì)最新研究成果,讓大模型直接學(xué)會了處理超長視頻。丟給它一部科幻大片《星際穿越》(片長 2 小時(shí) 49 分鐘):它“看”完之后,不僅能結(jié)合電影情節(jié)和人物輕松對電影進(jìn)行點(diǎn)評:還能很精

啥?AI 都能自己看電影大片了?mII28資訊網(wǎng)——每日最新資訊28at.com

賈佳亞團(tuán)隊(duì)最新研究成果,讓大模型直接學(xué)會了處理超長視頻。mII28資訊網(wǎng)——每日最新資訊28at.com

丟給它一部科幻大片《星際穿越》(片長 2 小時(shí) 49 分鐘):mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

它“看”完之后,不僅能結(jié)合電影情節(jié)和人物輕松對電影進(jìn)行點(diǎn)評:mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

還能很精準(zhǔn)地回答出劇中所涉的細(xì)節(jié):mII28資訊網(wǎng)——每日最新資訊28at.com

例如:蟲洞的作用和創(chuàng)造者是誰?mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

答:未來的智慧生物放置在土星附近,用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越。mII28資訊網(wǎng)——每日最新資訊28at.com

男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲?mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

答:通過手表以摩斯密碼的方式傳遞數(shù)據(jù)。mII28資訊網(wǎng)——每日最新資訊28at.com

啊這,感覺電影博主的飯碗也要被 AI 搶走了。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

這就是最新多模態(tài)大模型 LLaMA-VID,它支持單圖、短視頻和長視頻三種輸入。mII28資訊網(wǎng)——每日最新資訊28at.com

對比來看,包括 GPT-4V 等在內(nèi)的同類模型基本只能處理圖像。mII28資訊網(wǎng)——每日最新資訊28at.com

而背后原理更有看頭。mII28資訊網(wǎng)——每日最新資訊28at.com

據(jù)介紹,LLaMA-VID 只通過一個(gè)非常簡單的辦法就達(dá)成了如上能力,那就是:mII28資訊網(wǎng)——每日最新資訊28at.com

把表示每一幀圖像的 token 數(shù)量,壓縮到僅有 2 個(gè)。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

具體效果如何以及如何實(shí)現(xiàn)?一起來看。mII28資訊網(wǎng)——每日最新資訊28at.com

人物理解分析、電影細(xì)節(jié)都 OK

對于電影來說,除了精準(zhǔn)回答所涉細(xì)節(jié),LLaMA-VID 也能對角色進(jìn)行十分準(zhǔn)確的理解和分析。mII28資訊網(wǎng)——每日最新資訊28at.com

還是《星際穿越》,我們讓它看完后分析米勒星球上相對地球時(shí)間的快慢及原因。mII28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果完全正確:mII28資訊網(wǎng)——每日最新資訊28at.com

LLaMA-VID 表示是因?yàn)槊桌招乔蛟诤诙锤浇瑢?dǎo)致 1 小時(shí)相當(dāng)于地球 7 年。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

再丟給它時(shí)長近倆小時(shí)的《阿甘正傳》。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

對于“珍妮對于阿甘有何意義?”這一問題,LLaMA-VID 的回答是:mII28資訊網(wǎng)——每日最新資訊28at.com

孩童時(shí)期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

對于阿甘在戰(zhàn)爭及退伍后的事件也能進(jìn)行分析,且回答也很到位:mII28資訊網(wǎng)——每日最新資訊28at.com

丹中尉責(zé)怪阿甘救了自己,因?yàn)檫@讓他無法戰(zhàn)死沙場。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

除了看電影,成為一個(gè)無所不知的的“電影搭子”,它也能很好地理解宣傳片的意圖,回答一些開放問題。mII28資訊網(wǎng)——每日最新資訊28at.com

比如給它一段最近很火的 GTA6 預(yù)告片。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

問它“這個(gè)游戲哪里最吸引你?”,它“看”完后給出的想法是:mII28資訊網(wǎng)——每日最新資訊28at.com

一是游戲場景和設(shè)置非常多(從賽車、特技駕駛到射擊等),二是視覺效果比較驚艷。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

哦對了,LLaMA-VID 還能根據(jù)游戲中的場景和特征,推測出預(yù)告片是 Rockstar 游戲公司的推廣:mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

以及認(rèn)出游戲的背景城市為邁阿密(根據(jù)夜生活、海灘等信息,以及在作者提示游戲設(shè)置在佛羅里達(dá)之后)。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

最后,在宣傳片、時(shí)長高達(dá) 2-3 小時(shí)的電影這些視頻材料之外,我們也來看看 LLaMA-VID 對最基礎(chǔ)的圖片信息的理解能力。mII28資訊網(wǎng)——每日最新資訊28at.com

吶,準(zhǔn)確識別出這是一塊布料,上面有個(gè)洞:mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

讓它扮演“福爾摩斯”也不在話下。面對這樣一張房間內(nèi)景照片:mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

它可以從門上掛了很多外套分析出房間主人可能生活繁忙 / 經(jīng)常外出。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

看得出來,LLaMA-VID 對視頻的準(zhǔn)確解讀正是建立在這樣的圖片水準(zhǔn)之上的,但最關(guān)鍵的點(diǎn)還是它如何完成如此長時(shí)間的視頻處理。mII28資訊網(wǎng)——每日最新資訊28at.com

幾行代碼實(shí)現(xiàn)單幀 2 token 表示

LLaMA-VID 的關(guān)鍵創(chuàng)新是將每幀畫面的 token 數(shù)量壓縮到很低,從而實(shí)現(xiàn)可處理超長視頻。mII28資訊網(wǎng)——每日最新資訊28at.com

很多傳統(tǒng)多模態(tài)大模型對于單張圖片編碼的 token 數(shù)量過多,導(dǎo)致了視頻時(shí)間加長后,所需 token 數(shù)量暴增,模型難以承受。mII28資訊網(wǎng)——每日最新資訊28at.com

為此研究團(tuán)隊(duì)重新設(shè)計(jì)了圖像的編碼方式,采用上下文編碼(Context Token)和圖像內(nèi)容編碼(Content Token)來對視頻中的單幀進(jìn)行編碼。mII28資訊網(wǎng)——每日最新資訊28at.com

從而實(shí)現(xiàn)了將每一幀用 2 個(gè) token 表示。mII28資訊網(wǎng)——每日最新資訊28at.com

具體來看 LLaMA-VID 的框架。mII28資訊網(wǎng)——每日最新資訊28at.com

只包含 3 個(gè)部分:mII28資訊網(wǎng)——每日最新資訊28at.com

采用編解碼器產(chǎn)生視覺嵌入和文本引導(dǎo)特征。mII28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)特定 token 生成策略轉(zhuǎn)換上下文 token 和圖像內(nèi)容 token。mII28資訊網(wǎng)——每日最新資訊28at.com

指令調(diào)優(yōu)進(jìn)一步優(yōu)化。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

根據(jù)指令,LLaMA-VID 選取單個(gè)圖像或視頻幀作為輸入,然后從大語言模型上生成回答。mII28資訊網(wǎng)——每日最新資訊28at.com

這個(gè)過程從一個(gè)可視編碼器開始,該編碼器將輸入幀轉(zhuǎn)換為可視幀嵌入。mII28資訊網(wǎng)——每日最新資訊28at.com

然后文本解碼器根據(jù)用戶輸入和圖像編碼器提取的特征,來生成與輸入指令相關(guān)的跨模態(tài)索引(Text Query)。mII28資訊網(wǎng)——每日最新資訊28at.com

然后利用注意力機(jī)制(Context Attention),將視覺嵌入中和文本相關(guān)的視覺線索聚合起來,也就是特征采樣和組合,從而生成高質(zhì)量的指令相關(guān)特征。mII28資訊網(wǎng)——每日最新資訊28at.com

為了提高效率,模型將可視化嵌入樣本壓縮到不同 token 大小,甚至是一個(gè) token。mII28資訊網(wǎng)——每日最新資訊28at.com

其中,上下文 token 根據(jù)用戶輸入的問題生成,盡可能保留和用戶問題相關(guān)的視覺特征。mII28資訊網(wǎng)——每日最新資訊28at.com

圖像內(nèi)容 token 則直接根據(jù)用戶指令對圖像特征進(jìn)行池化采樣,更關(guān)注圖像本身的內(nèi)容信息,對上下文 token 未關(guān)注到的部分進(jìn)行補(bǔ)充。mII28資訊網(wǎng)——每日最新資訊28at.com

文本引導(dǎo)上下文 token 和圖像 token 來一起表示每一幀。mII28資訊網(wǎng)——每日最新資訊28at.com

最后,大語言模型將用戶指令和所有視覺 token 作為輸入,生成回答。mII28資訊網(wǎng)——每日最新資訊28at.com

而且這種 token 的生成方法很簡單,僅需幾行代碼。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果方面,LLaMA-VID 在多個(gè)視頻問答和推理榜單上實(shí)現(xiàn) SOTA。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

僅需加入 1 個(gè)上下文 token 拓展,LLaMA-VID 在多個(gè)圖片問答指標(biāo)上也能獲得顯著提升。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

在 16 個(gè)視頻、圖片理解及推理數(shù)據(jù)集上,LLaMA-VID 實(shí)現(xiàn)了很好效果。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

在 GitHub 上,團(tuán)隊(duì)提供了不同階段的所有微調(diào)模型,以及第一階段的預(yù)訓(xùn)練權(quán)重。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

具體訓(xùn)練包括 3 個(gè)過程:特征對齊、指令微調(diào)、長視頻微調(diào)(相應(yīng)步驟可參考 GitHub)。mII28資訊網(wǎng)——每日最新資訊28at.com

此外,LLaMA-VID 還收集了 400 部電影并生成 9K 條長視頻問答語料,包含電影影評、人物成長及情節(jié)推理等。mII28資訊網(wǎng)——每日最新資訊28at.com

結(jié)合之前賈佳亞團(tuán)隊(duì)所發(fā)布的長文本數(shù)據(jù)集 LongAlpaca-12k(9k 條長文本問答語料對、3k 短文本問答語料對), 可輕松將現(xiàn)有多模態(tài)模型拓展來支持長視頻輸入。mII28資訊網(wǎng)——每日最新資訊28at.com

值得一提的是,今年 8 月開始賈佳亞團(tuán)隊(duì)就發(fā)布了主攻推理分割的 LISA 多模態(tài)大模型。mII28資訊網(wǎng)——每日最新資訊28at.com

10 月還發(fā)布了長文本開源大語言模型 LongAlpaca(70 億參數(shù))和超長文本擴(kuò)展方法 LongLoRA。mII28資訊網(wǎng)——每日最新資訊28at.com

LongLoRA 只需兩行代碼便可將 7B 模型的文本長度拓展到 100k tokens,70B 模型的文本長度拓展到 32k tokens。mII28資訊網(wǎng)——每日最新資訊28at.com

最后,團(tuán)隊(duì)也提供了 demo 地址,可自己上傳視頻和 LLaMA-VID 對話(部署在單塊 3090,需要的小伙伴可以參考 code 用更大的顯存部署,直接和整個(gè)電影對話)。mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

看來,以后看不懂諾蘭電影,可以請教 AI 試試mII28資訊網(wǎng)——每日最新資訊28at.com

mII28資訊網(wǎng)——每日最新資訊28at.com

~mII28資訊網(wǎng)——每日最新資訊28at.com

論文地址:mII28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2311.17043mII28資訊網(wǎng)——每日最新資訊28at.com

GitHub 地址:mII28資訊網(wǎng)——每日最新資訊28at.com

https://github.com/dvlab-research/LLaMA-VIDmII28資訊網(wǎng)——每日最新資訊28at.com

demo 地址:mII28資訊網(wǎng)——每日最新資訊28at.com

http://103.170.5.190:7864/mII28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色 明敏mII28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2892-0.htmlAI 變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長 3 小時(shí)視頻

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 谷歌 OpenAI 大模型巔峰對決!Gemini 激戰(zhàn) GPT-4,數(shù)學(xué)代碼卻慘遭碾壓

下一篇: 谷歌發(fā)言人承認(rèn):Gemini AI 演示視頻內(nèi)容和語音提示均非實(shí)時(shí)錄制

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 一份全面清單:Web3行業(yè)高薪酬的13種工作

    來源:區(qū)塊鏈騎士這可能會讓許多人感到震驚,但除了成為開發(fā)人員之外,Web3還有其他高薪工作。Web3可能是現(xiàn)代就業(yè)市場中跨學(xué)科最多的領(lǐng)域,換句話說,它由許多個(gè)在不同領(lǐng)域中具有不同
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時(shí)間6月6日凌晨,蘋果2023年全球開發(fā)者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 百度元宇宙希壤是什么?(附下載)

    百度元宇宙希壤是什么,最近很多人關(guān)注。還有很多人問希壤怎么下載、百度希壤怎么進(jìn)入?今天小編帶你來全面了解一下。“希壤”是百度于2021年12月27日于百度AI開
  • 2021年中國元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

    元宇宙網(wǎng)絡(luò)熱度高漲,中國網(wǎng)民對虛擬生態(tài)興趣濃厚。艾媒咨詢數(shù)據(jù)顯示,超六成的網(wǎng)民對“元宇宙”了解程度較高,在元宇宙較基礎(chǔ)的游戲領(lǐng)域,超九成的人對VR游戲更感興
  • 2022年去中心化交易所會崛起嗎?

    “在某個(gè)時(shí)候,去中心化衍生品的交易量可能會超過去中心化現(xiàn)貨交易所。”DEX 越來越多地轉(zhuǎn)向第二層解決方案。“數(shù)字化金融市場的概念以及如何沿著以用戶為中心
  • 就業(yè)年齡歧視如何解決?來Web3看看

    上周,我突然想到我的第一份工作實(shí)際上是在為一家失敗的航空公司制定破產(chǎn)退出計(jì)劃,那年我們的協(xié)議實(shí)習(xí)生剛出生。在一陣恐慌后,我又花了一點(diǎn)時(shí)間反思我這個(gè)擁有近1
  • NFT領(lǐng)域,我們是否應(yīng)該遵守版權(quán)法

    NFTs中最有爭議的因素之一是你是否真的 "擁有 "你所購買的藝術(shù)品。除此之外,圍繞著NFT行業(yè)內(nèi)的版權(quán)和知識產(chǎn)權(quán)盜竊的問題也同樣重要,因?yàn)槿藗兒苋菀渍`解這些事情
  • 虛擬鄧麗君后,數(shù)字人賽道開啟3.0時(shí)代

    “如果右腦時(shí)代來臨,虛擬世界將是對人類才華的無限放大。” 郭曉喆稱,開發(fā)數(shù)字人形象時(shí),自己的團(tuán)隊(duì)在內(nèi)部“卷”了一下:“當(dāng)我們翻閱大量歷史典籍的時(shí)候,蘇小妹找到
  • NFT行業(yè)周報(bào):NBA巨星勒布朗·詹姆斯申請NFT相關(guān)商標(biāo)

    1. “無聊猿”BAYC交易總額突破14億美元3月10日,據(jù)DappRader最新數(shù)據(jù)顯示,“無聊猿”Bored Ape Yacht Club(BAYC)交易總額已突破14億美元,創(chuàng)下歷史新高,本文撰寫時(shí)為
Top 主站蜘蛛池模板: 仙居县| 克什克腾旗| 墨玉县| 临清市| 科尔| 沧源| 堆龙德庆县| 丰台区| 康定县| 威信县| 邵武市| 阿坝| 驻马店市| 洪雅县| 平阴县| 门源| 宁远县| 丹凤县| 磐石市| 田林县| 晋中市| 定远县| 桃源县| 化州市| 都江堰市| 青龙| 泽普县| 定州市| 青浦区| 大连市| 阿尔山市| 土默特右旗| 科技| 乐山市| 衡东县| 四平市| 驻马店市| 班戈县| 泰安市| 巴楚县| 怀安县|