日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革:媲美 GPT-4o,不犧牲性能平衡文本和圖像處理難題

來源: 責(zé)編: 時(shí)間:2024-09-24 08:59:43 108觀看
導(dǎo)讀 9 月 21 日消息,科技媒體 marktechpost 昨日(9 月 20 日)發(fā)布博文,報(bào)道了英偉達(dá)(Nvidia)最新發(fā)布的論文,介紹了多模態(tài)大語言模型系列 NVLM 1.0。多模態(tài)大型語言模型(MLLM)多模態(tài)大型語言模型(MLLM)所創(chuàng)建的 AI 系統(tǒng),能夠

9 月 21 日消息,科技媒體 marktechpost 昨日(9 月 20 日)發(fā)布博文,報(bào)道了英偉達(dá)(Nvidia)最新發(fā)布的論文,介紹了多模態(tài)大語言模型系列 NVLM 1.0。wQi28資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)大型語言模型(MLLM)

多模態(tài)大型語言模型(MLLM)所創(chuàng)建的 AI 系統(tǒng),能夠無縫解讀文本和視覺數(shù)據(jù)等,彌合自然語言理解和視覺理解之間的差距,讓機(jī)器能夠連貫地處理從文本文檔到圖像等各種形式的輸入。wQi28資訊網(wǎng)——每日最新資訊28at.com

多模態(tài)大型語言模型在圖像識(shí)別、自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域擁有廣闊應(yīng)用前景,改進(jìn)人工智能整合和處理不同數(shù)據(jù)源的方式,幫助 AI 朝著更復(fù)雜的應(yīng)用方向發(fā)展。wQi28資訊網(wǎng)——每日最新資訊28at.com

英偉達(dá) NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三種主要架構(gòu)。每個(gè)架構(gòu)都結(jié)合先進(jìn)的多模態(tài)推理功能與高效的文本處理功能,從而解決了以往方法的不足之處。wQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM 1.0 的一個(gè)顯著特點(diǎn)是在訓(xùn)練過程中加入了高質(zhì)量純文本監(jiān)督微調(diào)(SFT)數(shù)據(jù),這使得這些模型在視覺語言任務(wù)中表現(xiàn)出色的同時(shí),還能保持甚至提高純文本性能。wQi28資訊網(wǎng)——每日最新資訊28at.com

研究團(tuán)隊(duì)強(qiáng)調(diào),他們的方法旨在超越 GPT-4V 等現(xiàn)有專有模型和 InternVL 等開放式替代模型。wQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM 1.0 模型采用混合架構(gòu)來平衡文本和圖像處理:wQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM-D:純解碼器模型,以統(tǒng)一的方式處理兩種模式,因此特別擅長多模式推理任務(wù)。wQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM-X:采用交叉注意機(jī)制,提高了處理高分辨率圖像時(shí)的計(jì)算效率wQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM-H:混合了上述兩種架構(gòu)的優(yōu)勢,在保持文本推理所需的效率的同時(shí),實(shí)現(xiàn)了更詳細(xì)的圖像理解。wQi28資訊網(wǎng)——每日最新資訊28at.com

wQi28資訊網(wǎng)——每日最新資訊28at.com

這些模型結(jié)合了高分辨率照片的動(dòng)態(tài)平鋪技術(shù),在不犧牲推理能力的情況下顯著提高了 OCR 相關(guān)任務(wù)的性能。wQi28資訊網(wǎng)——每日最新資訊28at.com

性能

在性能方面,NVLM 1.0 模型在多個(gè)基準(zhǔn)測試中取得了令人印象深刻的成績。wQi28資訊網(wǎng)——每日最新資訊28at.com

wQi28資訊網(wǎng)——每日最新資訊28at.com

歸功于在訓(xùn)練過程中集成了高質(zhì)量的文本數(shù)據(jù)集,在 MATH 和 GSM8K 等純文本任務(wù)中,NVLM-D1.0 72B 模型比其純文本骨干提高了 4.3 分。wQi28資訊網(wǎng)——每日最新資訊28at.com

在視覺問題解答和推理任務(wù)中,這些模型還表現(xiàn)出了強(qiáng)大的視覺語言性能,在 VQAv2 數(shù)據(jù)集上的準(zhǔn)確率為 93.6%,在 AI2D 上的準(zhǔn)確率為 87.4%。wQi28資訊網(wǎng)——每日最新資訊28at.com

在 OCR 相關(guān)任務(wù)中,NVLM 模型的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng),在 DocVQA 和 ChartQA 數(shù)據(jù)集上的準(zhǔn)確率分別為 87.4% 和 81.7%,突出顯示了其處理復(fù)雜視覺信息的能力。wQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM-X 和 NVLM-H 模型也取得了這些成績,它們在處理高分辨率圖像和多模態(tài)數(shù)據(jù)方面表現(xiàn)出色。wQi28資訊網(wǎng)——每日最新資訊28at.com

研究的主要發(fā)現(xiàn)之一是,NVLM 模型不僅在視覺語言任務(wù)中表現(xiàn)出色,而且還保持或提高了純文本性能,這是其他多模態(tài)模型難以達(dá)到的。wQi28資訊網(wǎng)——每日最新資訊28at.com

wQi28資訊網(wǎng)——每日最新資訊28at.com

例如,在基于文本的推理任務(wù)(如 MMLU)中,NVLM 模型保持了較高的準(zhǔn)確率,在某些情況下甚至超過了純文本模型。wQi28資訊網(wǎng)——每日最新資訊28at.com

wQi28資訊網(wǎng)——每日最新資訊28at.com

想象一下在自動(dòng)駕駛汽車中的應(yīng)用場景。NVLM 1.0 可以通過攝像頭實(shí)時(shí)獲取道路信息,并與車輛導(dǎo)航系統(tǒng)進(jìn)行語言溝通。wQi28資訊網(wǎng)——每日最新資訊28at.com

它不僅能識(shí)別交通標(biāo)志,還能理解復(fù)雜路況下的人類指令,例如“如果前方有施工,請尋找替代路線”。這得益于其強(qiáng)大的視覺-語言處理能力以及出色的文本推理能力,使得自動(dòng)駕駛更加智能、安全、可靠。wQi28資訊網(wǎng)——每日最新資訊28at.com

小結(jié)

英偉達(dá)開發(fā)的 NVLM 1.0 模型代表了多模態(tài)大型語言模型的重大突破,該模型通過在多模態(tài)訓(xùn)練中集成高質(zhì)量文本數(shù)據(jù)集,并采用動(dòng)態(tài)平鋪和高分辨率圖像平鋪標(biāo)記等創(chuàng)新架構(gòu)設(shè)計(jì),解決了在不犧牲性能的前提下平衡文本和圖像處理的關(guān)鍵難題。wQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM 系列模型不僅在視覺語言任務(wù)方面超越了領(lǐng)先的專有系統(tǒng),而且還保持了卓越的純文本推理能力,讓多模態(tài)人工智能系統(tǒng)的發(fā)展又向前邁進(jìn)一大步。wQi28資訊網(wǎng)——每日最新資訊28at.com

附上參考地址wQi28資訊網(wǎng)——每日最新資訊28at.com

This AI Paper by NVIDIA Introduces NVLM 1.0: A Family of Multimodal Large Language Models with Improved Text and Image Processing CapabilitieswQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM: Open Frontier-Class Multimodal LLMswQi28資訊網(wǎng)——每日最新資訊28at.com

NVLM: Open Frontier-Class Multimodal LLMs GithubwQi28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-7545-0.html英偉達(dá) NVLM 1.0 引領(lǐng)多模態(tài) AI 變革:媲美 GPT-4o,不犧牲性能平衡文本和圖像處理難題

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: JetBrains聯(lián)手阿里云,AI Assistant助力中國開發(fā)者飛躍新世代!

下一篇: OpenAI 笑傲 AI 江湖:新 50-70 億美元融資將完成,估值有望破 1500 億美元

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 平南县| 郎溪县| 桐庐县| 池州市| 双鸭山市| 垣曲县| 丽江市| 德昌县| 绍兴市| 凌源市| 三穗县| 灵山县| 修水县| 班戈县| 剑河县| 昆山市| 五家渠市| 新兴县| 池州市| 龙门县| 淳化县| 闽侯县| 辽宁省| 额济纳旗| 长白| 郸城县| 福州市| 山西省| 常德市| 房产| 章丘市| 永定县| 辰溪县| 麻城市| 香格里拉县| 宁远县| 连江县| 新丰县| 阜城县| 怀柔区| 吉水县|