當前位置：首頁 > 元宇宙 > AI

GPT-4.5 創造力比 GPT-4o 弱，浙大上海 AI Lab 發布全球首個面向真實場景的多模態創造力評測基準

來源：責編：時間：2025-04-06 08:33:54 87觀看

導讀近來風頭正盛的 GPT-4.5，不僅在日常問答中展現出驚人的上下文連貫性，在設計、咨詢等需要高度創造力的任務中也大放異彩。當 GPT-4.5 在創意寫作、教育咨詢、設計提案等任務中展現出驚人的連貫性與創造力時，一個

近來風頭正盛的 GPT-4.5，不僅在日常問答中展現出驚人的上下文連貫性，在設計、咨詢等需要高度創造力的任務中也大放異彩。

當 GPT-4.5 在創意寫作、教育咨詢、設計提案等任務中展現出驚人的連貫性與創造力時，一個關鍵問題浮出水面：

多模態大模型（MLLMs）的“創造力天花板”究竟在哪里？

寫一篇基于圖片的短篇小說、分析一張復雜的教學課件、甚至設計一份用戶界面……

這些對于人類駕輕就熟的任務，對于現有的部分多模態大模型卻往往是“高難動作”。

但現有的評測基準首先難以衡量多模態大模型的輸出是否具有創造性的見解，同時部分情境過于簡單，難以真實反映模型在復雜場景下的創造性思維。

如何科學量化“多模態創造力”？

為此，浙江大學聯合上海人工智能實驗室等團隊重磅發布 Creation-MMBench——

全球首個面向真實場景的多模態創造力評測基準，覆蓋四大任務類別、51 項細粒度任務，用 765 個高難度測試案例，為 MLLMs 的“視覺創意智能”提供全方位體檢。

為何我們要關注“視覺創造智能”？

在人工智能的“智力三元論”中，創造性智能（Creative Intelligence）始終是最難評估和攻克的一環，主要涉及的是在不同背景下生成新穎和適當解決方案的能力。

現有的 MLLM 評測基準，如 MMBench、MMMU 等，往往更偏重分析性或實用性任務，卻忽略了多模態 AI 在真實生活中常見的“創意類任務”。

雖然存在部分多模態基準納入了對模型創意力的考察，但他們規模較小，多為單圖，且情境簡單，普通的模型即可輕松回答出對應問題。

相較而言，Creation-MMBench 設置的情境復雜，內容多樣，且單圖 / 多圖問題交錯，能更好的對多模態大模型創意力進行考察。

舉個例子

讓模型扮演一位博物館講解員，基于展品圖像生成一段引人入勝的講解詞。

讓模型化身散文作家，圍繞人物照片撰寫一篇情感性和故事性兼備的散文。

讓模型親自上任作為米其林大廚，給萌新小白解讀菜肴照片并用一份細致入微的菜品引領菜鳥入門。

在這些任務中，模型需要同時具備“視覺內容理解 + 情境適應 + 創意性文本生成”的能力，這正是現有基準難以評估的核心能力。

Creation-MMBench 有多硬核？1. 真實場景 × 多模態融合：從“紙上談兵”到“實戰演練”

四大任務類型：Creation-MMBench 共有 51 個任務，主要可分為四個類別，分別是

文學創作：專注于文學領域的創作活動，包括詩歌、對話、故事等形式的寫作。這一類別旨在評估模型在藝術性和創造性表達方面的能力，例如生成富有情感的文字、構建引人入勝的敘事或塑造生動的角色形象。典型人物包括故事續寫、詩歌撰寫等。

日常功能性寫作：聚焦于日常生活中常見的功能性寫作任務，例如社交媒體內容撰寫、公益事業倡議等。這類任務強調實用性，考察模型在處理真實場景中常見寫作需求時的表現，例如撰寫電子郵件、回答生活中的實際問題等。

專業功能性寫作：關注專業領域內的功能性寫作和創造性問題解決能力。具體任務包括室內設計、教案撰寫、風景導游詞創作等。這一類別要求模型具備較強的專業知識背景和邏輯推理能力，能夠應對較為復雜且高度專業化的工作場景。

多模態理解與創作：注重視覺理解與創造力的結合，涉及文檔解析、攝影作品欣賞等任務。此類別評估模型在處理多模態信息（如文本與圖像結合）時的表現，考察其是否能夠從視覺內容中提取關鍵信息，并將其轉化為有意義的創意輸出。

千張跨域圖像：在圖像上，Creation-MMBench 橫跨藝術作品、設計圖紙、生活場景等近 30 個類別，涉及千張不同圖片。單任務最多支持 9 圖輸入，逼真還原真實創作環境。

復雜現實情境：對于每一個實例，都基于真實圖像進行標注，配套明確角色、特定背景、任務指令與額外要求四部分共同組成問題。同時，相較于其他廣泛使用的多模態評測基準，Creation-MMBench 具有更全面和復雜的問題設計，大多數問題的長度超過 500 個詞元，這有助于模型捕捉更豐富的創意上下文。

2. 雙重評估體系：拒絕“主觀臆斷”，量化創意質量

在評估策略上，團隊選擇了使用多模態大模型作為評判模型，同時使用兩個不同指標進行雙重評估。

視覺事實性評分（VFS）：確保模型不是“瞎編”—— 必須讀懂圖像細節。

對于部分實例，需要首先對模型對圖像的基礎理解能力進行評估，以避免胡亂創作騙得高分。團隊對這類實例逐個制定了視覺事實性標準，對圖片關鍵細節進行嚴卡，按點打分。

創意獎勵分（Reward）：不僅看懂圖，更得寫得好、寫得巧！

除了基礎理解能力外，Creation-MMBench 更注重考察的是模型結合視覺內容的創造性能力與表述能力。因為每個實例的角色、背景、任務指令與額外要求均存在不同，因此團隊成員對每個實例制定了貼合的評判標準，從表達流暢性、邏輯連貫性到創意新穎性等多方面進行評價。

此外，為了確保評判的公正性和一致性，GPT-4o 作為評判模型，會充分結合評判標準、畫面內容、模型回復等內容，在雙向評判（即評估過程中對兩個模型位置進行互換，避免評估偏差）下給出模型回復與參考答案（非標準答案）的相對偏好。

為了驗證評判模型和采用的評判策略的可靠性，團隊招募了志愿者對 13% 的樣本進行人工評估，結果如上圖所示。相較于其他評判模型，GPT-4o 展現出了更強的人類偏好一致性，同時也證明了雙向評判的必要性。

實驗結果：開源 vs 閉源，誰才是創意王者？！

團隊基于 VLMEvalKit 工具鏈，對 20 多個主流 MLLMs 進行了全面評估，包括 GPT-4o、Gemini 系列、Claude 3.5，以及 Qwen2.5-VL、InternVL 等開源模型。

整體而言，與 GPT-4o 相比，Gemini-2.0-Pro 展現出了更為出眾的多模態創意性寫作能力，在部分任務如日常功能性寫作上能有效的整合圖像生成貼合日常生活的內容。

它強大的先驗知識也在專業功能性寫作上極大的幫助了它，但對于部分細粒度視覺內容理解上，仍與 GPT-4o 存在不小的差距。

令人驚訝的是，主打創意寫作的 GPT-4.5 的整體表現卻弱于 Gemini-pro 和 GPT-4o，但在多模態內容理解及創作任務上展現出了較為出眾的能力。

開源模型如 Qwen2.5-VL-72B，InternVL2.5-78B-MPO 等也展現出了與閉源模型可以匹敵的創作能力，但整體而言仍與閉源模型存在一定差距。

從類別上表現來看，專業功能性寫作由于對專業性知識的需求高、對視覺內容的理解要求深因而對模型的問題難度較大，而日常功能性寫作由于貼近日常社交生活，情境和視覺內容相對簡單，因而整體表現相對較弱的模型也能有良好的表現。盡管大多數模型在多模態理解與創作這一任務類型上視覺事實性評分較高，但它們基于視覺內容的再創作仍然存在一定瓶頸。

為了更好地比較模型的客觀性能與其視覺創造力，團隊使用 OpenCompass 多模態評測榜單的平均分來表示整體客觀性能。

如上圖所示，部分模型盡管在客觀性能上表現強勁，但在開放式視覺創造力任務中卻表現不佳。這些模型往往在有明確答案的任務中表現出色，但在生成具有創造性和情境相關的內容方面卻顯得不足。這種差異說明傳統的客觀指標可能無法完全捕捉模型在復雜現實場景中的創造能力，因而證明了 Creation-MMBench 填補這一領域的重要性。

進一步探索：視覺微調是把雙刃劍

當前大語言模型的創作能力評判基準多集中于特定主題（如生成科研 idea），相對較為單一且未能揭示 LLM 在多種不同日常場景中的創作能力。

因此團隊使用 GPT-4o 對圖像內容進行細致描述，構建了純文本的 Creation-MMBench-TO。

從純語言模型的評測結果來看，閉源 LLM 的創作能力略優于開源的 LLMs，令人驚訝的是，GPT-4o 在 Creation-MMBench-TO 上的創意獎勵分更高。這可能是因為該模型能夠在描述的幫助下更專注于發散思維和自由創作，從而減少基本視覺內容理解對創造力的負面影響。

同時為了進一步調查視覺指令微調對 LLM 的影響，團隊進行了對比實驗，結果表明，經過視覺指令微調的開源多模態大模型在 Creation-MMBench-TO 上的表現始終低于相應的語言基座模型。

這可能是由于微調過程中使用的問答對長度相對有限，限制了模型理解較長文本中詳細內容的能力，進而無法代入情境進行長文本創作，從而導致視覺事實性評分和創意獎勵分均相對較低。

團隊同樣還對部分模型進行了定性研究，如上圖所示。任務類型為軟件工程圖像解釋，從屬于專業功能性寫作。

結果顯示，Qwen2.5-VL 由于對特定領域知識理解不足，將泳道圖誤判為數據流圖，從而導致后續的圖表分析錯誤。

相比之下，GPT-4o 有效避免了這個錯誤，其整體語言更加專業和結構化，展示了對圖表更準確和詳細的解釋，從而獲得了評審模型的青睞。

這個例子也反映了特定學科知識和對圖像內容的詳細理解在這一類任務中的重要作用，表現出了開源模型和閉源模型間仍存在一定差距。

總結：

Creation-MMBench 是一個新穎的基準，旨在評估多模態大模型在現實場景中的創作能力。該基準包含 765 個實例，涵蓋 51 個詳細任務。

對于每個實例，他們撰寫了對應的評判標準，以評估模型回復的質量和視覺事實性。

此外，團隊通過用相應的文本描述替換圖像輸入，創建了一個僅文本版本 Creation-MMBench-TO。對這兩個基準的實驗全面的評估了主流多模態大模型的創作能力，并探查出了視覺指令微調對模型的潛在負面影響。

Creation-MMBench 現已集成至 VLMEvalKit，支持一鍵評測，完整評估你的模型在創意任務中的表現。想知道你的模型能不能講好一個圖像里的故事？

來試試 Creation-MMBench 一鍵跑分，用數據說話。

Paper：https://arxiv.org/abs/2503.14478

Github：https://github.com/open-compass/Creation-MMBench

HomePage：https://open-compass.github.io/Creation-MMBench/

本文來自微信公眾號：量子位（ID：QbitAI），作者：上海 AI Lab 團隊，原標題《GPT-4.5 創造力比 GPT-4o 弱！浙大上海 AI Lab 發布新基準，尋找多模態創造力天花板》

本文鏈接：http://www.www897cc.com/showinfo-45-11958-0.htmlGPT-4.5 創造力比 GPT-4o 弱，浙大上海 AI Lab 發布全球首個面向真實場景的多模態創造力評測基準

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：非洲人工智能峰會啟幕：千余代表共議人口紅利，AI超級計算中心計劃亮相

下一篇：谷歌拉響通用人工智能警報，首次公開 AI 安全防御藍圖

標簽：

熱門焦點

人間誠實周鴻祎：360 All in 大模型的六個解讀

主筆 / 村口有牛文章架構師 / 毛自聰出品 / 巨頭財經5月至今，人間躁動，各路大模型你方唱罷我登場，VC圈互聯網圈媒體圈已近癲狂。誰也沒想到，今日，360再度刷屏，老牌互聯網巨頭展現
FMIFAwards獎項即將揭曉！

來源：X增強現實FMIF Awards未來元宇宙創新獎是由未來元宇宙創新論壇、ARinChina以及多家投資機構、媒體、研究院聯合發起的一項評選活動。旨在推動新技術的融合與集成低成本
【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

大規模預訓GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大規模預訓練模型（大模型）漸漸成為了AI算法領域的熱點。AI產業鏈：從算力到應用工作流程視角?
2022年的Web3：定義概念并開創新范式

Web3 是關于加密和區塊鏈應該如何使用的概念，因為它是加密圈的一個離散子領域。社區機會將呈指數級增長，擴大這些子行業的人口統計范圍。追求 Web3 項目的組織仍
元宇宙是推動NFT發展的初始家園

現在大家都知道了什么是NFT，但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加，該如何將這些數字資產帶入我們的日常生活？NFT還是主流嗎？如果我們將“主流
Meta展示AI系統Builder Bot；《Pistol Whip》增加派對模式

今日熱點：Meta展示AI系統Builder Bot；招聘信息顯示Meta正在探索具有蜂窩連接功能的VR/AR頭顯；英國VR工作室Coatsink Games正在為PSVR 2開發新游戲；VR節奏射擊游戲
音樂家如何利用NFTs來提高歌迷參與度

"音樂是一種語言，不以特定的文字說話。它用情感說話，如果它在骨子里，它就在骨子里。" - Keith Richards音樂激勵著我們，使我們流淚，使我們充滿狂喜，并撫慰我們的靈魂
元宇宙+劇本殺：“在異世界里當演員”

你玩過劇本殺嗎？體驗過“元宇宙+劇本殺”嗎？2月，恒信東方推出了一款次時代劇本殺原創作品——《失落的王朝》。其劇本和線索以數字化資產打造，通過VR技術塑造了與
電影工業巨頭好萊塢計劃進軍元宇宙，將會對行業帶來什么影響？

元宇宙聽起來像不像是科幻小說中出現的術語？事實確實如此。小說家尼爾·斯蒂芬森在1992年的小說《雪崩》中首次用這個詞來定義了一個多連接的虛擬宇宙，它能夠模

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-4.5 創造力比 GPT-4o 弱，浙大上海 AI Lab 發布全球首個面向真實場景的多模態創造力評測基準

人間誠實周鴻祎：360 All in 大模型的六個解讀

FMIFAwards獎項即將揭曉！

【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

2022年的Web3：定義概念并開創新范式

元宇宙是推動NFT發展的初始家園

Meta展示AI系統Builder Bot；《Pistol Whip》增加派對模式

音樂家如何利用NFTs來提高歌迷參與度

元宇宙+劇本殺：“在異世界里當演員”

電影工業巨頭好萊塢計劃進軍元宇宙，將會對行業帶來什么影響？

最新推薦

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

元宇宙是投資中國的第五次重大機遇

字節跳動，剛剛投了一位虛擬女生

傳騰訊已推出全新XR業務；摩托羅拉正打造5GXR頸戴式計算組件

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

初探元宇宙

猜你喜歡

熱門推薦

相關資訊

GPT-4.5 創造力比 GPT-4o 弱，浙大上海 AI Lab 發布全球首個面向真實場景的多模態創造力評測基準

最新推薦

猜你喜歡

熱門推薦

相關資訊

GPT-4.5 創造力比 GPT-4o 弱，浙大上海 AI Lab 發布全球首個面向真實場景的多模態創造力評測基準