在科技界的一次重要突破中,智譜公司于近日正式揭曉了其“智譜2025開(kāi)源年”計(jì)劃的首個(gè)核心成果——CogView4,這是一款前所未有的開(kāi)源文本生成圖像模型,尤其引人矚目的是其支持生成漢字的能力。
CogView4在DPG-Bench這一權(quán)威基準(zhǔn)測(cè)試中,憑借卓越的表現(xiàn)榮登榜首,標(biāo)志著它在開(kāi)源文本到圖像生成領(lǐng)域的領(lǐng)先地位。更為特別的是,CogView4遵循Apache 2.0協(xié)議,成為首個(gè)以此協(xié)議開(kāi)放的圖像生成模型,為開(kāi)發(fā)者提供了更靈活的使用空間。
目前,CogView4的最新版本——CogView4-0304已經(jīng)向公眾開(kāi)放源代碼,并將于3月13日正式登陸智譜清言平臺(tái)(chatglm.cn)。這一舉措無(wú)疑將激發(fā)更多創(chuàng)新應(yīng)用,推動(dòng)AI技術(shù)在圖像生成領(lǐng)域的深入發(fā)展。
在性能表現(xiàn)上,CogView4展現(xiàn)出了強(qiáng)大的復(fù)雜語(yǔ)義理解和指令執(zhí)行能力。它不僅能夠處理任意長(zhǎng)度的中英文輸入,還能根據(jù)給定的范圍生成任意分辨率的圖像。CogView4在文字生成方面也表現(xiàn)出色,進(jìn)一步拓寬了其應(yīng)用場(chǎng)景。
DPG-Bench基準(zhǔn)測(cè)試的結(jié)果充分證明了CogView4在復(fù)雜語(yǔ)義對(duì)齊和指令跟隨方面的卓越能力。這一測(cè)試專(zhuān)注于評(píng)估模型在這些關(guān)鍵領(lǐng)域的表現(xiàn),而CogView4以?xún)?yōu)異的成績(jī)脫穎而出。
對(duì)于中文用戶(hù)而言,CogView4無(wú)疑是一個(gè)重大利好。它不僅支持中英文雙語(yǔ)提示詞輸入,還特別擅長(zhǎng)理解和遵循中文提示詞。作為首個(gè)能夠在生成的圖像中包含漢字的開(kāi)源文本生成圖像模型,CogView4將極大地滿(mǎn)足廣告、短視頻等領(lǐng)域的創(chuàng)意需求,推動(dòng)中文內(nèi)容創(chuàng)作的多元化發(fā)展。
在技術(shù)層面,CogView4采用了創(chuàng)新的雙語(yǔ)能力GLM-4編碼器,替代了傳統(tǒng)的純英文T5編碼器。通過(guò)中英雙語(yǔ)圖文數(shù)據(jù)的訓(xùn)練,CogView4成功實(shí)現(xiàn)了雙語(yǔ)提示詞輸入的能力。這一技術(shù)革新不僅提升了模型的泛化能力,也為多語(yǔ)言用戶(hù)提供了更加便捷的使用體驗(yàn)。
CogView4還支持任意長(zhǎng)度的提示詞輸入,并能夠在給定范圍內(nèi)生成任意分辨率的圖像。這一特性不僅賦予了用戶(hù)更大的創(chuàng)作自由度,也顯著提高了模型的訓(xùn)練效率。CogView4通過(guò)混合訓(xùn)練范式,實(shí)現(xiàn)了文本描述和圖像生成的無(wú)縫對(duì)接。
展望未來(lái),智譜公司計(jì)劃繼續(xù)加強(qiáng)CogView4的生態(tài)支持,陸續(xù)推出ControlNet、ComfyUI等功能模塊,并為用戶(hù)提供全套的微調(diào)工具包。這些舉措將進(jìn)一步豐富CogView4的功能和應(yīng)用場(chǎng)景,推動(dòng)其在AI圖像生成領(lǐng)域的持續(xù)領(lǐng)先。
本文鏈接:http://www.www897cc.com/showinfo-26-135472-0.html智譜“2025開(kāi)源年”首發(fā):CogView4開(kāi)創(chuàng)漢字生成新紀(jì)元
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com