日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

英偉達 NVLM 1.0 引領多模態(tài) AI 變革:媲美 GPT-4o,不犧牲性能平衡文本和圖像處理難題

來源: 責編: 時間:2024-09-24 08:59:43 78觀看
導讀 9 月 21 日消息,科技媒體 marktechpost 昨日(9 月 20 日)發(fā)布博文,報道了英偉達(Nvidia)最新發(fā)布的論文,介紹了多模態(tài)大語言模型系列 NVLM 1.0。多模態(tài)大型語言模型(MLLM)多模態(tài)大型語言模型(MLLM)所創(chuàng)建的 AI 系統(tǒng),能夠

9 月 21 日消息,科技媒體 marktechpost 昨日(9 月 20 日)發(fā)布博文,報道了英偉達(Nvidia)最新發(fā)布的論文,介紹了多模態(tài)大語言模型系列 NVLM 1.0。GTq28資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)大型語言模型(MLLM)

多模態(tài)大型語言模型(MLLM)所創(chuàng)建的 AI 系統(tǒng),能夠無縫解讀文本和視覺數(shù)據(jù)等,彌合自然語言理解和視覺理解之間的差距,讓機器能夠連貫地處理從文本文檔到圖像等各種形式的輸入。GTq28資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)大型語言模型在圖像識別、自然語言處理和計算機視覺等領域擁有廣闊應用前景,改進人工智能整合和處理不同數(shù)據(jù)源的方式,幫助 AI 朝著更復雜的應用方向發(fā)展。GTq28資訊網(wǎng)——每日最新資訊28at.com

英偉達 NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三種主要架構。每個架構都結合先進的多模態(tài)推理功能與高效的文本處理功能,從而解決了以往方法的不足之處。GTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM 1.0 的一個顯著特點是在訓練過程中加入了高質(zhì)量純文本監(jiān)督微調(diào)(SFT)數(shù)據(jù),這使得這些模型在視覺語言任務中表現(xiàn)出色的同時,還能保持甚至提高純文本性能。GTq28資訊網(wǎng)——每日最新資訊28at.com

研究團隊強調(diào),他們的方法旨在超越 GPT-4V 等現(xiàn)有專有模型和 InternVL 等開放式替代模型。GTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM 1.0 模型采用混合架構來平衡文本和圖像處理:GTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM-D:純解碼器模型,以統(tǒng)一的方式處理兩種模式,因此特別擅長多模式推理任務。GTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM-X:采用交叉注意機制,提高了處理高分辨率圖像時的計算效率GTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM-H:混合了上述兩種架構的優(yōu)勢,在保持文本推理所需的效率的同時,實現(xiàn)了更詳細的圖像理解。GTq28資訊網(wǎng)——每日最新資訊28at.com

GTq28資訊網(wǎng)——每日最新資訊28at.com

這些模型結合了高分辨率照片的動態(tài)平鋪技術,在不犧牲推理能力的情況下顯著提高了 OCR 相關任務的性能。GTq28資訊網(wǎng)——每日最新資訊28at.com

性能

在性能方面,NVLM 1.0 模型在多個基準測試中取得了令人印象深刻的成績。GTq28資訊網(wǎng)——每日最新資訊28at.com

GTq28資訊網(wǎng)——每日最新資訊28at.com

歸功于在訓練過程中集成了高質(zhì)量的文本數(shù)據(jù)集,在 MATH 和 GSM8K 等純文本任務中,NVLM-D1.0 72B 模型比其純文本骨干提高了 4.3 分。GTq28資訊網(wǎng)——每日最新資訊28at.com

在視覺問題解答和推理任務中,這些模型還表現(xiàn)出了強大的視覺語言性能,在 VQAv2 數(shù)據(jù)集上的準確率為 93.6%,在 AI2D 上的準確率為 87.4%。GTq28資訊網(wǎng)——每日最新資訊28at.com

在 OCR 相關任務中,NVLM 模型的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng),在 DocVQA 和 ChartQA 數(shù)據(jù)集上的準確率分別為 87.4% 和 81.7%,突出顯示了其處理復雜視覺信息的能力。GTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM-X 和 NVLM-H 模型也取得了這些成績,它們在處理高分辨率圖像和多模態(tài)數(shù)據(jù)方面表現(xiàn)出色。GTq28資訊網(wǎng)——每日最新資訊28at.com

研究的主要發(fā)現(xiàn)之一是,NVLM 模型不僅在視覺語言任務中表現(xiàn)出色,而且還保持或提高了純文本性能,這是其他多模態(tài)模型難以達到的。GTq28資訊網(wǎng)——每日最新資訊28at.com

GTq28資訊網(wǎng)——每日最新資訊28at.com

例如,在基于文本的推理任務(如 MMLU)中,NVLM 模型保持了較高的準確率,在某些情況下甚至超過了純文本模型。GTq28資訊網(wǎng)——每日最新資訊28at.com

GTq28資訊網(wǎng)——每日最新資訊28at.com

想象一下在自動駕駛汽車中的應用場景。NVLM 1.0 可以通過攝像頭實時獲取道路信息,并與車輛導航系統(tǒng)進行語言溝通。GTq28資訊網(wǎng)——每日最新資訊28at.com

它不僅能識別交通標志,還能理解復雜路況下的人類指令,例如“如果前方有施工,請尋找替代路線”。這得益于其強大的視覺-語言處理能力以及出色的文本推理能力,使得自動駕駛更加智能、安全、可靠。GTq28資訊網(wǎng)——每日最新資訊28at.com

小結

英偉達開發(fā)的 NVLM 1.0 模型代表了多模態(tài)大型語言模型的重大突破,該模型通過在多模態(tài)訓練中集成高質(zhì)量文本數(shù)據(jù)集,并采用動態(tài)平鋪和高分辨率圖像平鋪標記等創(chuàng)新架構設計,解決了在不犧牲性能的前提下平衡文本和圖像處理的關鍵難題。GTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM 系列模型不僅在視覺語言任務方面超越了領先的專有系統(tǒng),而且還保持了卓越的純文本推理能力,讓多模態(tài)人工智能系統(tǒng)的發(fā)展又向前邁進一大步。GTq28資訊網(wǎng)——每日最新資訊28at.com

附上參考地址GTq28資訊網(wǎng)——每日最新資訊28at.com

This AI Paper by NVIDIA Introduces NVLM 1.0: A Family of Multimodal Large Language Models with Improved Text and Image Processing CapabilitiesGTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM: Open Frontier-Class Multimodal LLMsGTq28資訊網(wǎng)——每日最新資訊28at.com

NVLM: Open Frontier-Class Multimodal LLMs GithubGTq28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-7545-0.html英偉達 NVLM 1.0 引領多模態(tài) AI 變革:媲美 GPT-4o,不犧牲性能平衡文本和圖像處理難題

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: JetBrains聯(lián)手阿里云,AI Assistant助力中國開發(fā)者飛躍新世代!

下一篇: OpenAI 笑傲 AI 江湖:新 50-70 億美元融資將完成,估值有望破 1500 億美元

標簽:
  • 熱門焦點
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發(fā)者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 沉寂3年,大模型激活小度天貓精靈?

    Tech星球(微信ID:tech618)文 | 何煦陽 沉寂了許久的智能音箱,在今年大模型橫空出世之后,又再次燃起了新的希望。 2月9日,小度宣布將融合文心一言,打造針對智能設備場景的AI模型&ldq
  • 中國虛擬數(shù)字人如何橫向拓展市場需求,探索發(fā)展場景?

    通過5G、AI等新技術更新?lián)Q代,虛擬數(shù)字人為諸多下游行業(yè)帶來新的發(fā)展機會。虛擬數(shù)字人技術以其簡化性和精品性持續(xù)拓展泛娛樂、金融、教育、政務、醫(yī)療、零售等
  • NFT的未來:傳統(tǒng)企業(yè)與去中心化機構之間的競賽

    傳統(tǒng)企業(yè)和去中心化機構一直存在分歧,但最近NFT的爆炸式增長讓他們產(chǎn)生了共同的興趣,雙方都在競相讓用戶更輕松、更方便地使用NFT。毫無疑問,NFT 市場正在增長。
  • 元宇宙是數(shù)字共識生態(tài)的集成邏輯表達

    作者: 李鳴元宇宙是數(shù)字共識生態(tài)的集成邏輯表達,是以區(qū)塊鏈技術為核心的可信數(shù)字化價值交互網(wǎng)絡,是基于Web3.0技術體系和運作機制支撐下的數(shù)字新生態(tài)。本體論是
  • 2022年去中心化交易所會崛起嗎?

    “在某個時候,去中心化衍生品的交易量可能會超過去中心化現(xiàn)貨交易所。”DEX 越來越多地轉向第二層解決方案。“數(shù)字化金融市場的概念以及如何沿著以用戶為中心
  • 花旗集團前高管加入Provenance區(qū)塊鏈,擔任CEO

    No.1 花旗集團前高管加入Provenance區(qū)塊鏈,擔任CEO3月1日消息,Provenance區(qū)塊鏈基金會已任命花旗集團前高管摩根·麥肯尼(Morgan McKenney)為新任首席執(zhí)行官。麥肯
  • 元宇宙+劇本殺:“在異世界里當演員”

    你玩過劇本殺嗎?體驗過“元宇宙+劇本殺”嗎?2月,恒信東方推出了一款次時代劇本殺原創(chuàng)作品——《失落的王朝》。其劇本和線索以數(shù)字化資產(chǎn)打造,通過VR技術塑造了與
  • Ceramic:為Web3.0社交應用打造的中間件

    大家關注老雅痞公眾號這么久,對Web3的概念不陌生吧?讓我們做一個簡短的回顧,Web3主要被描述為去中心化的網(wǎng)絡,旨在實現(xiàn)無服務器、去中心化的互聯(lián)網(wǎng),即用戶掌握自己
Top 主站蜘蛛池模板: 扶沟县| 栾城县| 北川| 高尔夫| 鄂尔多斯市| 法库县| 嘉禾县| 东乌| 鸡东县| 潼南县| 上栗县| 塔城市| 手机| 石楼县| 隆安县| 望奎县| 酉阳| 双流县| 拉孜县| 临漳县| 茶陵县| 台东市| 波密县| 安平县| 彝良县| 弥渡县| 白城市| 图木舒克市| 邵阳县| 德令哈市| 长沙市| 石楼县| 同德县| 苏州市| 云和县| 同心县| 昌乐县| 霸州市| 黑水县| 漯河市| 龙南县|