快科技8月5日消息,今天凌晨,阿里通義千問宣布開源Qwen-Image,一個20B的MMDiT模型。
這是通義千問系列中首個圖像生成基礎(chǔ)模型,其在復(fù)雜文本渲染和精確圖像編輯方面取得顯著進展。
據(jù)了解,該模型專注于提升AI在兩大核心場景的能力:復(fù)雜的文本渲染與精準的圖像編輯。
功能亮點:
強大的文字渲染能力(本次開源)
效果領(lǐng)先:在多個文本測評榜單中,文字渲染均獲得SOTA。
原生渲染:文字是圖像生成時直出的,而非后期添加,效果更真實。
功能全面:支持中英雙語,多變字體,超長段落,超小文字,并可實現(xiàn)復(fù)雜的多位置圖文布局。
基礎(chǔ)扎實:除了文字,模型在人物情緒、細節(jié)刻畫和多樣的風(fēng)格渲染上也同樣表現(xiàn)出色。
精準的圖像編輯能力(即將發(fā)布)
效果穩(wěn)定:多個圖像編輯測評榜單SOTA。
鏈式編輯:在多輪連續(xù)修改后,仍能保持主體ID的一致性。
文字編輯:可以編輯圖像中的文字。
復(fù)雜編輯:可編輯人物姿勢,提取圖像紋理等。
通義千問在多個公開基準上對Qwen-Image進行全面評估,包括用于通用圖像生成的GenEval、DPG和OneIG-Bench,以及用于圖像編輯的GEdit、ImgEdit和GSO。
Qwen-Image在所有基準測試中均取得了先進的性能,展現(xiàn)出其在圖像生成與圖像編輯方面的強大能力。
此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的結(jié)果表明,Qwen-Image在文本渲染方面表現(xiàn)尤為出色,特別是在中文文本渲染上,大幅領(lǐng)先現(xiàn)有的先進模型。
除了文本處理,Qwen-Image在通用圖像生成方面也表現(xiàn)出色,支持多種藝術(shù)風(fēng)格。
在圖像編輯方面,Qwen-Image支持風(fēng)格遷移、增刪改、細節(jié)增強、文字編輯,人物姿態(tài)調(diào)整等多種操作,讓普通用戶也能輕松實現(xiàn)專業(yè)級圖像編輯。
本文鏈接:http://www.www897cc.com/showinfo-17-175593-0.html首個圖像生成基礎(chǔ)模型 阿里通義千問深夜開源Qwen-Image 支持中英雙語
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 官方提醒警惕AI“數(shù)據(jù)投毒” 0.01%虛假訓(xùn)練文本可致有害內(nèi)容增加11.2%