當前位置：首頁 > 元宇宙 > AI

融合 ChatGPT+DALL?E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

來源：責編：時間：2024-04-23 17:57:14 162觀看

導讀在開源社區中把 GPT-4+Dall?E 3 能?整合起來的模型該有多強？香港中文大學終身教授賈佳亞團隊提出多模態模型 Mini-Gemini：更高清圖像的精確理解、更高質量的訓練數據、更強的圖像解析推理能力，還能結合圖像推

在開源社區中把 GPT-4+Dall?E 3 能?整合起來的模型該有多強？

香港中文大學終身教授賈佳亞團隊提出多模態模型 Mini-Gemini：

更高清圖像的精確理解、更高質量的訓練數據、更強的圖像解析推理能力，還能結合圖像推理和生成，堪稱王炸。

Mini-Gemini 還提供了 2B 小杯到 34B 的超大杯，最強模型在多個指標上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多讓。

目前，Mini-Gemini 從代碼、模型到數據已全部開源，登上了 PaperWithCode 熱榜。

Mini-Gemini 線上 Demo 也已發布，超會玩梗，一起來體驗下！

接近商業閉源模型水平

Mini-Gemini Demo 放出后受到廣大網友關注，一番“品嘗”后，他們認為 Mini-Gemini 跟商業模型差不了多少。

目前，絕大多數多模態模型僅支持低分辨率圖像輸入和文字輸出，而在實際場景中，許多任務都需要對高清圖像進行解析，并用圖像的形式進行展現。

如下圖所示，Mini-Gemini 不僅能夠根據圖片對做面包的過程進行手把手教學，也能夠準確將不同電腦品種根據圖片中的各種參數進行對比。

有網友開玩笑說，這下媽媽不用擔心我獨自生活了。

更重要的是，Mini-Gemini 在保留超強的圖像理解和推理能力的同時，還解鎖了圖像的生成能力，就如同 ChatGPT 和生成模型的結合。

下面，讓我們通過幾個例子來更直觀地感受這種能力：

還記得 Google Gemini 的官方演示視頻么？當用戶給出兩個毛線團并問出能用它們做什么時，Gemini 可以識別出圖片內容并給出相應的建議。

當我們把相似的輸入給到 Mini-Gemini，它會怎么回答呢？

可以發現，Mini-Gemini 也可以識別出圖片中的元素，并且合理地建議，同時生成了一只對應的毛線小熊。

通過一些抽象的多模態指令來讓模型給出推理，并生成合適的圖片，這個操作就很像是 ChatGPT 和 DALL?E 3 的聯動了。

接下來讓 Mini-Gemini 做自己最擅長的推理和圖片理解，看看它表現：

比如理解圖片中的矛盾點并舉一反三 —— 輸入冰川中的仙人掌，它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片：

圖片呈現了仙人掌的典型棲息地與冰的存在之間的視覺矛盾，因為在沙漠環境中自然不會出現冰。這種矛盾的類似例子可能是一只北極熊出現在熱帶雨林中，因為北極熊適應于寒冷、覆蓋著冰的環境，在炎熱潮濕的氣候中無法生存。這種并置創造了一個引人注目且超現實的視覺效果，挑戰觀眾的期待，并可能引發人們對氣候變化、環境適應或不同生態系統融合的思考。

同時，正如 ChatGPT+DALL?E 3 的夢幻結合一樣，Mini-Gemini 的“推理生成”功能還可以在多輪對話中通過簡單指令生成連環小故事。

比方說，讓它根據用戶輸入講一個貴族小老鼠的故事，Mini-Gemini 會根據前文的文字生成結果和用戶輸入進行推理，在保持一致性的情況下對圖片進行修改，使其更符合用戶的要求。

當然，Mini-Gemini 對于多模態模型的傳統技能圖表理解也不在話下。比方讓模型理解輸入曲線圖的數學意義（高斯分布），并讓它使用代碼復現這張圖，通過運行生成的代碼，模型可以高質量地還原曲線圖，節省了復現的時間。

又或者讓 Mini-Gemini 理解梗圖，通過其強大的 OCR 和推理能力，也可以準確指出笑點。

在另一個案例中，Mini-Gemini 除了理解梗圖本身，甚至推測了制作者的深層意圖。

高清復雜的多圖表理解和歸納也是小菜一碟，Mini-Gemini 直接秒變打工人效率提升的超級外掛。

技術細節：

那么問題來了，Mini-Gemini 是怎樣做到這種驚艷的效果呢？

核心在于三點：

(1) 用于高清圖像的雙編碼器機制

(2) 更高質量的數據

(3) 訓練階段結合生成模型數據拓展

大道至簡，Mini-Gemini 的整體思路并不復雜。其中的 Gemini（雙子座) 表達的是使用視覺雙分支的信息挖掘（Mining-Info in Gemini）解決高清圖像理解問題。

詳細來說，Mini-Gemini 將傳統所使用的 ViT 當做低分辨率的 Query，而使用卷積網絡（ConvNet）將高分辨率的圖像編碼成 Key 和 Value。

使用 Transformer 中常用的 Attention 機制，來挖掘每個低分辨率 Query 所對應的高分辨率區域。從而在保持最終視覺 Token 數目不變的情況下去提升對高清圖像的響應，保證了在大語言模型（LLM）中對于高清圖像的高效編碼。

值得一提的是，由于高分辨率分支卷積網絡的使用，可以根據需要對圖像所需的分辨率自適應調整。對于圖像的生成部分，Mini-Gemini 借助了 SDXL，使用 LLM 推理后所生成的文本鏈接兩個模型，類似于 DALL?E 3 的流程。

對于數據，Mini-Gemini 進一步收集并優化了訓練數據的質量，并加入了跟生成模型結合的文本數據進行訓練。在僅使用 2-3M 數據的情況下，實現了對圖像理解、推理和生成的統一流程。

Mini-Gemini 在各種 Zero-shot 的榜單上毫不遜色于各種大廠用大量數據訓練出來的模型。

量化指標：

可以看出，Mini-Gemini 提供了多種普通和高清版本的模型，并且覆蓋了 2B 的小杯到 34B 的超大杯，各個版本都取得了相似參數量下領先的效果，在許多指標上甚至超越 Gemini Pro 和 GPT-4V。

在線可玩：

值得一提的是，Mini-Gemini 的圖像理解和生成能力已經出了 Demo，可以在線跟自定義圖像對話的那種。

操作也極其簡單，直接跟輸入圖像或文字進行對話即可，歡迎來撩！

參考

Github 地址：https://github.com/dvlab-research/MiniGemini

Demo 地址：http://103.170.5.190:7860/

論文地址：https://arxiv.org/pdf/2403.18814.pdf

模型地址：https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

數據地址：https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

本文來自微信公眾號：量子位（ID：QbitAI），作者：允中

本文鏈接：http://www.www897cc.com/showinfo-45-4061-0.html融合 ChatGPT+DALL?E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英國著手起草 AI 法規，確保其發展處于可控狀態

下一篇：大模型首次接入天文望遠鏡：“星語 3.0”發布，基于阿里通義千問

標簽：

熱門焦點

元宇宙時代NFT的價值衡量

有人認為NFT的高昂價格只是炒作的產物，并不具有其對等的價值，但其實NFT并不是空中樓閣，只是區塊鏈數字分類賬中的一種形式。誠然，目前的NFT仍處于灰色地帶，相關的法
智能人機交互技術的春晚大考

1月初的一個早晨，京東智能客戶服務產品部緊急開會，進行關于尚未對外公布的“X項目”的初討論。1月5日，這個神秘的X項目對外公布，京東成為央視2022年春晚獨家互動合
從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數
從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

自從 Facebook 更名為 Meta 后，關于元宇宙的討論愈發激烈，這一詞匯也越來越多的出現在我們的視野里。這是一個非常有趣的話題。伴隨著爭論，有些人認為是馬克·扎
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關注。許多人愿意為數字藝術支付數百萬美元，世界正在走向數字化。報告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

NFT Worlds 系列產品于 2021 年 10 月 5 日免費鑄造，該NFT系列是將傳統的中心化電子游戲minecraft 與去中心化資產相結合。傳統游戲Minecraft 對用戶定制非常開
Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產
虛擬鄧麗君后，數字人賽道開啟3.0時代

“如果右腦時代來臨，虛擬世界將是對人類才華的無限放大。” 郭曉喆稱，開發數字人形象時，自己的團隊在內部“卷”了一下：“當我們翻閱大量歷史典籍的時候，蘇小妹找到
淺聊DAO圖景和未來

DAO是什么？DAO (Decentralized Autonomous Organizations),去中心化自治組織，是基于區塊鏈技術，由社區通過透明的決策過程運行和管理的組織形態。DAO使得社區成為

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

融合 ChatGPT+DALL?E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

元宇宙時代NFT的價值衡量

智能人機交互技術的春晚大考

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

虛擬鄧麗君后，數字人賽道開啟3.0時代

淺聊DAO圖景和未來

最新推薦

大廠元宇宙，又菜又愛玩

元宇宙這一年：技術加速落地，助傳統行業走向新階段

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

虛擬數字人：元宇宙的主角破圈而來

百度虛擬人——AI手語主播首次亮相冬奧會！

猜你喜歡

熱門推薦

相關資訊