日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

GPT-4.5 創(chuàng)造力比 GPT-4o 弱,浙大上海 AI Lab 發(fā)布全球首個面向真實場景的多模態(tài)創(chuàng)造力評測基準

來源: 責編: 時間:2025-04-06 08:33:54 60觀看
導讀 近來風頭正盛的 GPT-4.5,不僅在日常問答中展現出驚人的上下文連貫性,在設計、咨詢等需要高度創(chuàng)造力的任務中也大放異彩。當 GPT-4.5 在創(chuàng)意寫作、教育咨詢、設計提案等任務中展現出驚人的連貫性與創(chuàng)造力時,一個

近來風頭正盛的 GPT-4.5,不僅在日常問答中展現出驚人的上下文連貫性,在設計、咨詢等需要高度創(chuàng)造力的任務中也大放異彩。dfh28資訊網——每日最新資訊28at.com

當 GPT-4.5 在創(chuàng)意寫作、教育咨詢、設計提案等任務中展現出驚人的連貫性與創(chuàng)造力時,一個關鍵問題浮出水面:dfh28資訊網——每日最新資訊28at.com

多模態(tài)大模型(MLLMs)的“創(chuàng)造力天花板”究竟在哪里?dfh28資訊網——每日最新資訊28at.com

寫一篇基于圖片的短篇小說、分析一張復雜的教學課件、甚至設計一份用戶界面……dfh28資訊網——每日最新資訊28at.com

這些對于人類駕輕就熟的任務,對于現有的部分多模態(tài)大模型卻往往是“高難動作”。dfh28資訊網——每日最新資訊28at.com

但現有的評測基準首先難以衡量多模態(tài)大模型的輸出是否具有創(chuàng)造性的見解,同時部分情境過于簡單,難以真實反映模型在復雜場景下的創(chuàng)造性思維。dfh28資訊網——每日最新資訊28at.com

如何科學量化“多模態(tài)創(chuàng)造力”?dfh28資訊網——每日最新資訊28at.com

為此,浙江大學聯合上海人工智能實驗室等團隊重磅發(fā)布 Creation-MMBench——dfh28資訊網——每日最新資訊28at.com

全球首個面向真實場景的多模態(tài)創(chuàng)造力評測基準,覆蓋四大任務類別、51 項細粒度任務,用 765 個高難度測試案例,為 MLLMs 的“視覺創(chuàng)意智能”提供全方位體檢。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

為何我們要關注“視覺創(chuàng)造智能”?

在人工智能的“智力三元論”中,創(chuàng)造性智能(Creative Intelligence)始終是最難評估和攻克的一環(huán),主要涉及的是在不同背景下生成新穎和適當解決方案的能力。dfh28資訊網——每日最新資訊28at.com

現有的 MLLM 評測基準,如 MMBench、MMMU 等,往往更偏重分析性或實用性任務,卻忽略了多模態(tài) AI 在真實生活中常見的“創(chuàng)意類任務”。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

雖然存在部分多模態(tài)基準納入了對模型創(chuàng)意力的考察,但他們規(guī)模較小,多為單圖,且情境簡單,普通的模型即可輕松回答出對應問題。dfh28資訊網——每日最新資訊28at.com

相較而言,Creation-MMBench 設置的情境復雜,內容多樣,且單圖 / 多圖問題交錯,能更好的對多模態(tài)大模型創(chuàng)意力進行考察。dfh28資訊網——每日最新資訊28at.com

舉個例子dfh28資訊網——每日最新資訊28at.com

讓模型扮演一位博物館講解員,基于展品圖像生成一段引人入勝的講解詞。dfh28資訊網——每日最新資訊28at.com

讓模型化身散文作家,圍繞人物照片撰寫一篇情感性和故事性兼?zhèn)涞纳⑽摹?span style="display:none">dfh28資訊網——每日最新資訊28at.com

讓模型親自上任作為米其林大廚,給萌新小白解讀菜肴照片并用一份細致入微的菜品引領菜鳥入門。dfh28資訊網——每日最新資訊28at.com

在這些任務中,模型需要同時具備“視覺內容理解 + 情境適應 + 創(chuàng)意性文本生成”的能力,這正是現有基準難以評估的核心能力。dfh28資訊網——每日最新資訊28at.com

Creation-MMBench 有多硬核?1. 真實場景 × 多模態(tài)融合:從“紙上談兵”到“實戰(zhàn)演練”

dfh28資訊網——每日最新資訊28at.com

四大任務類型:Creation-MMBench 共有 51 個任務,主要可分為四個類別,分別是dfh28資訊網——每日最新資訊28at.com

文學創(chuàng)作:專注于文學領域的創(chuàng)作活動,包括詩歌、對話、故事等形式的寫作。這一類別旨在評估模型在藝術性和創(chuàng)造性表達方面的能力,例如生成富有情感的文字、構建引人入勝的敘事或塑造生動的角色形象。典型人物包括故事續(xù)寫、詩歌撰寫等。dfh28資訊網——每日最新資訊28at.com

日常功能性寫作:聚焦于日常生活中常見的功能性寫作任務,例如社交媒體內容撰寫、公益事業(yè)倡議等。這類任務強調實用性,考察模型在處理真實場景中常見寫作需求時的表現,例如撰寫電子郵件、回答生活中的實際問題等。dfh28資訊網——每日最新資訊28at.com

專業(yè)功能性寫作:關注專業(yè)領域內的功能性寫作和創(chuàng)造性問題解決能力。具體任務包括室內設計、教案撰寫、風景導游詞創(chuàng)作等。這一類別要求模型具備較強的專業(yè)知識背景和邏輯推理能力,能夠應對較為復雜且高度專業(yè)化的工作場景。dfh28資訊網——每日最新資訊28at.com

多模態(tài)理解與創(chuàng)作:注重視覺理解與創(chuàng)造力的結合,涉及文檔解析、攝影作品欣賞等任務。此類別評估模型在處理多模態(tài)信息(如文本與圖像結合)時的表現,考察其是否能夠從視覺內容中提取關鍵信息,并將其轉化為有意義的創(chuàng)意輸出。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

千張跨域圖像:在圖像上,Creation-MMBench 橫跨藝術作品、設計圖紙、生活場景等近 30 個類別,涉及千張不同圖片。單任務最多支持 9 圖輸入,逼真還原真實創(chuàng)作環(huán)境。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

復雜現實情境:對于每一個實例,都基于真實圖像進行標注,配套明確角色、特定背景、任務指令與額外要求四部分共同組成問題。同時,相較于其他廣泛使用的多模態(tài)評測基準,Creation-MMBench 具有更全面和復雜的問題設計,大多數問題的長度超過 500 個詞元,這有助于模型捕捉更豐富的創(chuàng)意上下文。dfh28資訊網——每日最新資訊28at.com

2. 雙重評估體系:拒絕“主觀臆斷”,量化創(chuàng)意質量

在評估策略上,團隊選擇了使用多模態(tài)大模型作為評判模型,同時使用兩個不同指標進行雙重評估。dfh28資訊網——每日最新資訊28at.com

視覺事實性評分(VFS):確保模型不是“瞎編”—— 必須讀懂圖像細節(jié)。dfh28資訊網——每日最新資訊28at.com

對于部分實例,需要首先對模型對圖像的基礎理解能力進行評估,以避免胡亂創(chuàng)作騙得高分。團隊對這類實例逐個制定了視覺事實性標準,對圖片關鍵細節(jié)進行嚴卡,按點打分。dfh28資訊網——每日最新資訊28at.com

創(chuàng)意獎勵分(Reward):不僅看懂圖,更得寫得好、寫得巧!dfh28資訊網——每日最新資訊28at.com

除了基礎理解能力外,Creation-MMBench 更注重考察的是模型結合視覺內容的創(chuàng)造性能力與表述能力。因為每個實例的角色、背景、任務指令與額外要求均存在不同,因此團隊成員對每個實例制定了貼合的評判標準,從表達流暢性、邏輯連貫性到創(chuàng)意新穎性等多方面進行評價。dfh28資訊網——每日最新資訊28at.com

此外,為了確保評判的公正性和一致性,GPT-4o 作為評判模型,會充分結合評判標準、畫面內容、模型回復等內容,在雙向評判(即評估過程中對兩個模型位置進行互換,避免評估偏差)下給出模型回復與參考答案(非標準答案)的相對偏好。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

為了驗證評判模型和采用的評判策略的可靠性,團隊招募了志愿者對 13% 的樣本進行人工評估,結果如上圖所示。相較于其他評判模型,GPT-4o 展現出了更強的人類偏好一致性,同時也證明了雙向評判的必要性。dfh28資訊網——每日最新資訊28at.com

實驗結果:開源 vs 閉源,誰才是創(chuàng)意王者?!

團隊基于 VLMEvalKit 工具鏈,對 20 多個主流 MLLMs 進行了全面評估,包括 GPT-4o、Gemini 系列、Claude 3.5,以及 Qwen2.5-VL、InternVL 等開源模型。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

整體而言,與 GPT-4o 相比,Gemini-2.0-Pro 展現出了更為出眾的多模態(tài)創(chuàng)意性寫作能力,在部分任務如日常功能性寫作上能有效的整合圖像生成貼合日常生活的內容。dfh28資訊網——每日最新資訊28at.com

它強大的先驗知識也在專業(yè)功能性寫作上極大的幫助了它,但對于部分細粒度視覺內容理解上,仍與 GPT-4o 存在不小的差距。dfh28資訊網——每日最新資訊28at.com

令人驚訝的是,主打創(chuàng)意寫作的 GPT-4.5 的整體表現卻弱于 Gemini-pro 和 GPT-4o,但在多模態(tài)內容理解及創(chuàng)作任務上展現出了較為出眾的能力。dfh28資訊網——每日最新資訊28at.com

開源模型如 Qwen2.5-VL-72B,InternVL2.5-78B-MPO 等也展現出了與閉源模型可以匹敵的創(chuàng)作能力,但整體而言仍與閉源模型存在一定差距。dfh28資訊網——每日最新資訊28at.com

從類別上表現來看,專業(yè)功能性寫作由于對專業(yè)性知識的需求高、對視覺內容的理解要求深因而對模型的問題難度較大,而日常功能性寫作由于貼近日常社交生活,情境和視覺內容相對簡單,因而整體表現相對較弱的模型也能有良好的表現。盡管大多數模型在多模態(tài)理解與創(chuàng)作這一任務類型上視覺事實性評分較高,但它們基于視覺內容的再創(chuàng)作仍然存在一定瓶頸。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

為了更好地比較模型的客觀性能與其視覺創(chuàng)造力,團隊使用 OpenCompass 多模態(tài)評測榜單的平均分來表示整體客觀性能。dfh28資訊網——每日最新資訊28at.com

如上圖所示,部分模型盡管在客觀性能上表現強勁,但在開放式視覺創(chuàng)造力任務中卻表現不佳。這些模型往往在有明確答案的任務中表現出色,但在生成具有創(chuàng)造性和情境相關的內容方面卻顯得不足。這種差異說明傳統(tǒng)的客觀指標可能無法完全捕捉模型在復雜現實場景中的創(chuàng)造能力,因而證明了 Creation-MMBench 填補這一領域的重要性。dfh28資訊網——每日最新資訊28at.com

進一步探索:視覺微調是把雙刃劍

當前大語言模型的創(chuàng)作能力評判基準多集中于特定主題(如生成科研 idea),相對較為單一且未能揭示 LLM 在多種不同日常場景中的創(chuàng)作能力。dfh28資訊網——每日最新資訊28at.com

因此團隊使用 GPT-4o 對圖像內容進行細致描述,構建了純文本的 Creation-MMBench-TO。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

從純語言模型的評測結果來看,閉源 LLM 的創(chuàng)作能力略優(yōu)于開源的 LLMs,令人驚訝的是,GPT-4o 在 Creation-MMBench-TO 上的創(chuàng)意獎勵分更高。這可能是因為該模型能夠在描述的幫助下更專注于發(fā)散思維和自由創(chuàng)作,從而減少基本視覺內容理解對創(chuàng)造力的負面影響。dfh28資訊網——每日最新資訊28at.com

同時為了進一步調查視覺指令微調對 LLM 的影響,團隊進行了對比實驗,結果表明,經過視覺指令微調的開源多模態(tài)大模型在 Creation-MMBench-TO 上的表現始終低于相應的語言基座模型。dfh28資訊網——每日最新資訊28at.com

這可能是由于微調過程中使用的問答對長度相對有限,限制了模型理解較長文本中詳細內容的能力,進而無法代入情境進行長文本創(chuàng)作,從而導致視覺事實性評分和創(chuàng)意獎勵分均相對較低。dfh28資訊網——每日最新資訊28at.com

dfh28資訊網——每日最新資訊28at.com

團隊同樣還對部分模型進行了定性研究,如上圖所示。任務類型為軟件工程圖像解釋,從屬于專業(yè)功能性寫作。dfh28資訊網——每日最新資訊28at.com

結果顯示,Qwen2.5-VL 由于對特定領域知識理解不足,將泳道圖誤判為數據流圖,從而導致后續(xù)的圖表分析錯誤。dfh28資訊網——每日最新資訊28at.com

相比之下,GPT-4o 有效避免了這個錯誤,其整體語言更加專業(yè)和結構化,展示了對圖表更準確和詳細的解釋,從而獲得了評審模型的青睞。dfh28資訊網——每日最新資訊28at.com

這個例子也反映了特定學科知識和對圖像內容的詳細理解在這一類任務中的重要作用,表現出了開源模型和閉源模型間仍存在一定差距。dfh28資訊網——每日最新資訊28at.com

總結:

Creation-MMBench 是一個新穎的基準,旨在評估多模態(tài)大模型在現實場景中的創(chuàng)作能力。該基準包含 765 個實例,涵蓋 51 個詳細任務。dfh28資訊網——每日最新資訊28at.com

對于每個實例,他們撰寫了對應的評判標準,以評估模型回復的質量和視覺事實性。dfh28資訊網——每日最新資訊28at.com

此外,團隊通過用相應的文本描述替換圖像輸入,創(chuàng)建了一個僅文本版本 Creation-MMBench-TO。對這兩個基準的實驗全面的評估了主流多模態(tài)大模型的創(chuàng)作能力,并探查出了視覺指令微調對模型的潛在負面影響。dfh28資訊網——每日最新資訊28at.com

Creation-MMBench 現已集成至 VLMEvalKit,支持一鍵評測,完整評估你的模型在創(chuàng)意任務中的表現。想知道你的模型能不能講好一個圖像里的故事?dfh28資訊網——每日最新資訊28at.com

來試試 Creation-MMBench 一鍵跑分,用數據說話。dfh28資訊網——每日最新資訊28at.com

Paper:https://arxiv.org/abs/2503.14478dfh28資訊網——每日最新資訊28at.com

Github:https://github.com/open-compass/Creation-MMBenchdfh28資訊網——每日最新資訊28at.com

HomePage:https://open-compass.github.io/Creation-MMBench/dfh28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:上海 AI Lab 團隊,原標題《GPT-4.5 創(chuàng)造力比 GPT-4o 弱!浙大上海 AI Lab 發(fā)布新基準,尋找多模態(tài)創(chuàng)造力天花板》dfh28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-11958-0.htmlGPT-4.5 創(chuàng)造力比 GPT-4o 弱,浙大上海 AI Lab 發(fā)布全球首個面向真實場景的多模態(tài)創(chuàng)造力評測基準

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 非洲人工智能峰會啟幕:千余代表共議人口紅利,AI超級計算中心計劃亮相

下一篇: 谷歌拉響通用人工智能警報,首次公開 AI 安全防御藍圖

標簽:
  • 熱門焦點
  • “平均時代”:ChatGPT模仿秀的隱喻

    來源:錦緞如果你問ChatGPT,Instagram上最美的女人是誰?它很可能會給你一個名字,叫卡戴珊。如果你觀察過Instagram這個美版小紅書:平臺上的所有網紅,展現的幾乎是統(tǒng)一面孔:統(tǒng)一的醫(yī)
  • 大廠元宇宙,又菜又愛玩

    撰文 | 吳先之 編輯 | 王 潘當下所有大廠推出的元宇宙產品,所能帶來的沉浸式體驗并不多,好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例,由于VR頭顯設
  • “元宇宙”里過大年,《迷你世界》在做一場怎樣的實驗?

    2021年是游戲行業(yè)不確定性急劇上升的一年。一方面游戲正風光無限,騰訊等大廠更加密集地投資動作,讓游戲創(chuàng)投市場異常火熱,"元宇宙"概念的大放異彩,更是吸引了Netfl
  • DAO登上了歷史舞臺,但是主流準備好采用DAO了嗎?

    Block-807DAO要么是定義虛擬未來、無領導組織的革命性概念,要么是充滿存在主義和自我毀滅挑戰(zhàn)的反烏托邦結構,取決于你在與誰交談。近幾個月來, DAO已經從Crypto
  • a16z:元宇宙辦公會取代實體辦公室嗎?

    6位不同的專家對未來的工作發(fā)表看法----元宇宙--沉浸式的、基于區(qū)塊鏈的虛擬世界,大多數日常活動最終會在這里發(fā)生--但仍然只是一個概念。但它是一個擁有寶貴不
  • NFT教育要從娃娃抓起!這些青少年藝術家已經賺取了幾千萬美金

    一些藝術家通過將他們的創(chuàng)作作為NFT出售而獲得了巨大收益。令人驚訝的是,許多賺取了數百萬美元的藝術家們仍在讀高中。這可能有點讓人難以置信。然而,請記住,在短
  • 以太坊面臨來自Fantom的巨大挑戰(zhàn)

    眾所周知,區(qū)塊鏈和加密貨幣項目經常因其對環(huán)境的影響而受到批評。但是有一個非營利性的加密貨幣和區(qū)塊鏈項目說它比其他的更環(huán)保。今天老雅痞就給大家聊一聊加
  • Steam 禁止NFT和加密貨幣原因曝光

    近日,Valve(V社)總裁Gabe Newell接受PC Gamer采訪時解釋了該平臺禁止NFT和加密貨幣的原因。早在2021年10月18日,PC Gamer就報道Steam推出的新規(guī):使用區(qū)塊鏈或允許交
  • NFT高玩必備:NFT分析工具大盤點

    NFT市場的火熱讓越來越多的投資者投身其中,但當前的 NFT 生態(tài)系統(tǒng)存在幾個問題卻困擾了大多數人,如難以準確評估 NFT 項目的資產價格、缺乏 NFT 市場動態(tài)信息、
Top 主站蜘蛛池模板: 张家川| 漳浦县| 屯留县| 肃北| 定陶县| 招远市| 凤庆县| 惠东县| 扶余县| 临沭县| 那曲县| 凤山市| 于田县| 蓝田县| 衡水市| 古浪县| 石狮市| 怀柔区| 荥经县| 临夏县| 绥芬河市| 宜章县| 广德县| 搜索| 安乡县| 银川市| 灯塔市| 九龙坡区| 榆中县| 康马县| 论坛| 霍州市| 屯门区| 浪卡子县| 武陟县| 抚顺县| 长垣县| 银川市| 米泉市| 林周县| 宁德市|