當(dāng)前位置：首頁 > 元宇宙 > AI

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

來源：責(zé)編：時(shí)間：2024-09-24 08:59:43 108觀看

導(dǎo)讀 9 月 21 日消息，科技媒體 marktechpost 昨日（9 月 20 日）發(fā)布博文，報(bào)道了英偉達(dá)（Nvidia）最新發(fā)布的論文，介紹了多模態(tài)大語言模型系列 NVLM 1.0。多模態(tài)大型語言模型（MLLM）多模態(tài)大型語言模型（MLLM）所創(chuàng)建的 AI 系統(tǒng)，能夠

9 月 21 日消息，科技媒體 marktechpost 昨日（9 月 20 日）發(fā)布博文，報(bào)道了英偉達(dá)（Nvidia）最新發(fā)布的論文，介紹了多模態(tài)大語言模型系列 NVLM 1.0。

多模態(tài)大型語言模型（MLLM）

多模態(tài)大型語言模型（MLLM）所創(chuàng)建的 AI 系統(tǒng)，能夠無縫解讀文本和視覺數(shù)據(jù)等，彌合自然語言理解和視覺理解之間的差距，讓機(jī)器能夠連貫地處理從文本文檔到圖像等各種形式的輸入。

多模態(tài)大型語言模型在圖像識(shí)別、自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域擁有廣闊應(yīng)用前景，改進(jìn)人工智能整合和處理不同數(shù)據(jù)源的方式，幫助 AI 朝著更復(fù)雜的應(yīng)用方向發(fā)展。

英偉達(dá) NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三種主要架構(gòu)。每個(gè)架構(gòu)都結(jié)合先進(jìn)的多模態(tài)推理功能與高效的文本處理功能，從而解決了以往方法的不足之處。

NVLM 1.0 的一個(gè)顯著特點(diǎn)是在訓(xùn)練過程中加入了高質(zhì)量純文本監(jiān)督微調(diào)（SFT）數(shù)據(jù)，這使得這些模型在視覺語言任務(wù)中表現(xiàn)出色的同時(shí)，還能保持甚至提高純文本性能。

研究團(tuán)隊(duì)強(qiáng)調(diào)，他們的方法旨在超越 GPT-4V 等現(xiàn)有專有模型和 InternVL 等開放式替代模型。

NVLM 1.0 模型采用混合架構(gòu)來平衡文本和圖像處理：

NVLM-D：純解碼器模型，以統(tǒng)一的方式處理兩種模式，因此特別擅長多模式推理任務(wù)。

NVLM-X：采用交叉注意機(jī)制，提高了處理高分辨率圖像時(shí)的計(jì)算效率

NVLM-H：混合了上述兩種架構(gòu)的優(yōu)勢，在保持文本推理所需的效率的同時(shí)，實(shí)現(xiàn)了更詳細(xì)的圖像理解。

這些模型結(jié)合了高分辨率照片的動(dòng)態(tài)平鋪技術(shù)，在不犧牲推理能力的情況下顯著提高了 OCR 相關(guān)任務(wù)的性能。

性能

在性能方面，NVLM 1.0 模型在多個(gè)基準(zhǔn)測試中取得了令人印象深刻的成績。

歸功于在訓(xùn)練過程中集成了高質(zhì)量的文本數(shù)據(jù)集，在 MATH 和 GSM8K 等純文本任務(wù)中，NVLM-D1.0 72B 模型比其純文本骨干提高了 4.3 分。

在視覺問題解答和推理任務(wù)中，這些模型還表現(xiàn)出了強(qiáng)大的視覺語言性能，在 VQAv2 數(shù)據(jù)集上的準(zhǔn)確率為 93.6%，在 AI2D 上的準(zhǔn)確率為 87.4%。

在 OCR 相關(guān)任務(wù)中，NVLM 模型的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng)，在 DocVQA 和 ChartQA 數(shù)據(jù)集上的準(zhǔn)確率分別為 87.4% 和 81.7%，突出顯示了其處理復(fù)雜視覺信息的能力。

NVLM-X 和 NVLM-H 模型也取得了這些成績，它們在處理高分辨率圖像和多模態(tài)數(shù)據(jù)方面表現(xiàn)出色。

研究的主要發(fā)現(xiàn)之一是，NVLM 模型不僅在視覺語言任務(wù)中表現(xiàn)出色，而且還保持或提高了純文本性能，這是其他多模態(tài)模型難以達(dá)到的。

例如，在基于文本的推理任務(wù)（如 MMLU）中，NVLM 模型保持了較高的準(zhǔn)確率，在某些情況下甚至超過了純文本模型。

想象一下在自動(dòng)駕駛汽車中的應(yīng)用場景。NVLM 1.0 可以通過攝像頭實(shí)時(shí)獲取道路信息，并與車輛導(dǎo)航系統(tǒng)進(jìn)行語言溝通。

它不僅能識(shí)別交通標(biāo)志，還能理解復(fù)雜路況下的人類指令，例如“如果前方有施工，請尋找替代路線”。這得益于其強(qiáng)大的視覺-語言處理能力以及出色的文本推理能力，使得自動(dòng)駕駛更加智能、安全、可靠。

小結(jié)

英偉達(dá)開發(fā)的 NVLM 1.0 模型代表了多模態(tài)大型語言模型的重大突破，該模型通過在多模態(tài)訓(xùn)練中集成高質(zhì)量文本數(shù)據(jù)集，并采用動(dòng)態(tài)平鋪和高分辨率圖像平鋪標(biāo)記等創(chuàng)新架構(gòu)設(shè)計(jì)，解決了在不犧牲性能的前提下平衡文本和圖像處理的關(guān)鍵難題。

NVLM 系列模型不僅在視覺語言任務(wù)方面超越了領(lǐng)先的專有系統(tǒng)，而且還保持了卓越的純文本推理能力，讓多模態(tài)人工智能系統(tǒng)的發(fā)展又向前邁進(jìn)一大步。

附上參考地址

This AI Paper by NVIDIA Introduces NVLM 1.0: A Family of Multimodal Large Language Models with Improved Text and Image Processing Capabilities

NVLM: Open Frontier-Class Multimodal LLMs

NVLM: Open Frontier-Class Multimodal LLMs Github

本文鏈接：http://www.www897cc.com/showinfo-45-7545-0.html英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： JetBrains聯(lián)手阿里云，AI Assistant助力中國開發(fā)者飛躍新世代！

下一篇： OpenAI 笑傲 AI 江湖：新 50-70 億美元融資將完成，估值有望破 1500 億美元

標(biāo)簽：

熱門焦點(diǎn)

搶先推出“元宇宙”飲料，可口可樂贏麻了

試圖傍上元宇宙的品牌千千萬，但像可口可樂玩得這么花的，屬實(shí)不多。01 可口可樂盯上元宇宙1886年，可口可樂誕生于美國喬治亞州亞特蘭大市，至今已擁有136年的悠久歷
元宇宙將會(huì)如何塑造未來的工作方式？

科幻小說家尼爾·斯蒂芬森 (Neal Stephenson) 在1992年就創(chuàng)造了“元宇宙”一詞，但事實(shí)上，在Facebook將其更名為Meta以反映其將這一科幻愿景變?yōu)楝F(xiàn)實(shí)的戰(zhàn)略重點(diǎn)之
字節(jié)、騰訊、網(wǎng)易鏖戰(zhàn)元宇宙背后，大廠究竟在爭奪什么？

正當(dāng)互聯(lián)網(wǎng)商業(yè)躊躇不前，互聯(lián)網(wǎng)大廠為了在存量中的增長擠破頭皮之時(shí)，元宇宙的概念被資本點(diǎn)燃。先是Facebook更名Meta正式進(jìn)軍元宇宙，然后字節(jié)跳動(dòng)收購了一家VR硬
萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎(chǔ)層

Vitalik Buterin 在 19 歲時(shí)撰寫了以太坊白皮書。他的目標(biāo)簡單而全面，即創(chuàng)建一個(gè)“世界計(jì)算機(jī)”，旨在成為所有在線應(yīng)用程序的靈活基礎(chǔ)層，無需任何第三方。自 2015
2021年中國元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

元宇宙網(wǎng)絡(luò)熱度高漲，中國網(wǎng)民對虛擬生態(tài)興趣濃厚。艾媒咨詢數(shù)據(jù)顯示，超六成的網(wǎng)民對“元宇宙”了解程度較高，在元宇宙較基礎(chǔ)的游戲領(lǐng)域，超九成的人對VR游戲更感興
Kitten Coup社區(qū)反轉(zhuǎn)Cool Kittens NFT騙局

當(dāng)狂熱的加密愛好者將金錢投入到NFT圖片時(shí)，渾水摸魚的騙局隨之而來，Cool Kittens NFT便是其中一個(gè)作惡者，該項(xiàng)目于去年11月在Sonala鏈上啟動(dòng)小貓形象的NFT鑄造及
扎克伯格演示了一種“造物主”式的元宇宙語音機(jī)器人工具

前身為Facebook的Meta公司今天展示了一個(gè)人工智能系統(tǒng)的Demo，該系統(tǒng)使人們能夠通過語音命令生成或?qū)胩摂M世界中的事物。該公司認(rèn)為這個(gè)被稱為 "Builder Bot "
對諷刺無動(dòng)于衷，Nori將碳市場放在區(qū)塊鏈上

當(dāng)我們聊氣候問題的解決方案時(shí)，以太坊區(qū)塊鏈應(yīng)該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個(gè)引擎，鼓勵(lì)農(nóng)民使用負(fù)碳耕作方法，將空氣中的碳抽出并放回地
元宇宙專題二：GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點(diǎn)為“Play to Earn”。通過技術(shù)與去中心化價(jià)值觀賦能，GameFi 游戲資產(chǎn)化身為NFT 和代幣上鏈，具備了可驗(yàn)證性和流通性；開

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革：媲美 GPT-4o，不犧牲性能平衡文本和圖像處理難題

搶先推出“元宇宙”飲料，可口可樂贏麻了

元宇宙將會(huì)如何塑造未來的工作方式？

字節(jié)、騰訊、網(wǎng)易鏖戰(zhàn)元宇宙背后，大廠究竟在爭奪什么？

萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎(chǔ)層

2021年中國元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

Kitten Coup社區(qū)反轉(zhuǎn)Cool Kittens NFT騙局

扎克伯格演示了一種“造物主”式的元宇宙語音機(jī)器人工具

對諷刺無動(dòng)于衷，Nori將碳市場放在區(qū)塊鏈上

元宇宙專題二：GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

最新推薦

“平均時(shí)代”：ChatGPT模仿秀的隱喻

元宇宙火熱的當(dāng)下，我們該如何“身臨其境”的體驗(yàn)元宇宙？

Meta、谷歌、微軟競相涌入元宇宙，小型企業(yè)該如何伺機(jī)而動(dòng)？

2030年的元宇宙產(chǎn)業(yè)將會(huì)如何發(fā)展？

小眾有趣NFT藝術(shù)作品欣賞（1）

NFT世界的藝術(shù)家名單

猜你喜歡

熱門推薦

相關(guān)資訊