日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 知識百科

谷歌奪回AI畫語權,網友:DALL·E 2誕生一個月就過時了?

來源: 責編: 時間:2023-08-07 16:30:19 242觀看
導讀 本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。在讓AI搞創作這件事上,谷歌和OpenAI正面剛起來了。這不,震驚全網的DALL·E 2才新鮮出爐一個月,谷歌就派出

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。Jg028資訊網——每日最新資訊28at.com

在讓AI搞創作這件事上,谷歌和OpenAI正面剛起來了。Jg028資訊網——每日最新資訊28at.com

這不,震驚全網的DALL·E 2才新鮮出爐一個月,谷歌就派出名為Imagen的選手來打擂臺。Jg028資訊網——每日最新資訊28at.com

 Jg028資訊網——每日最新資訊28at.com

直接上圖對比,左邊是谷歌Imagen選手眼中的“貓貓絆倒人類雕像”,右邊則是DALL·E 2選手的同題創作。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

你覺得哪一位選手的作品更符合題意?Jg028資訊網——每日最新資訊28at.com

而讓網友們直呼“DALL·E 2這就過時了?”的,還不只是這種正面PK的刺激。Jg028資訊網——每日最新資訊28at.com

看到這么一張照片,如果不說是AI生成的,是不是要先感嘆一句兩腳獸的擺拍技術越來越高超了?Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

輸入“折紙作品:一只狐貍和一只獨角獸在飄雪的森林里”,Imagen創作出的畫面則是醬嬸的:Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

還可以試試把文字寫得長一點。Jg028資訊網——每日最新資訊28at.com

比如《一只非常快樂的毛茸熊貓打扮成了在廚房里做面團的廚師的高對比度畫像,他身后的墻上還有一幅畫了鮮花的畫》…(啊先讓我喘口氣)Jg028資訊網——每日最新資訊28at.com

Imagen也輕松拿下,要素齊全:Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

看到這,機器學習圈的網友反應是這樣的:Jg028資訊網——每日最新資訊28at.com

不是吧,這才一個月就又更新換代了?Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

求求別再震驚我了。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

這事兒熱度一起,很快就破了圈。Jg028資訊網——每日最新資訊28at.com

吃瓜群眾們立刻就想到一塊去了。Jg028資訊網——每日最新資訊28at.com

以后可能沒圖庫網站什么事兒了。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

那么這個來自谷歌的新AI,又掌握了什么獨家秘技?Jg028資訊網——每日最新資訊28at.com

具體詳情,我們一起接著往下看。Jg028資訊網——每日最新資訊28at.com

增強「理解」比優化「生成」更重要Jg028資訊網——每日最新資訊28at.com

文本到圖像生成我們之前介紹過不少,基本都是一個套路:Jg028資訊網——每日最新資訊28at.com

CLIP負責從文本特征映射到圖像特征,然后指導一個GAN或擴散模型生成圖像。Jg028資訊網——每日最新資訊28at.com

但谷歌Imagen這次有個顛覆性的改變——Jg028資訊網——每日最新資訊28at.com

使用純語言模型只負責編碼文本特征,把文本到圖像轉換的工作丟給了圖像生成模型。Jg028資訊網——每日最新資訊28at.com

語言模型部分使用的是谷歌自家的T5-XXL,訓練好后凍結住文本編碼器。Jg028資訊網——每日最新資訊28at.com

圖像生成部分則是一系列擴散模型,先生成低分辨率圖像,再逐級超采樣。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

這樣做最大的好處,是純文本訓練數據要比高質量圖文對數據容易獲取的多。Jg028資訊網——每日最新資訊28at.com

T5-XXL的C4訓練集包含800GB的純文本語料,在文本理解能力上會比用有限圖文對訓練的CLIP要強。Jg028資訊網——每日最新資訊28at.com

這一點也有著實驗數據做支撐,人類評估上,T5-XXL在保真度和語義對齊方面表現都比CLIP要好。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

在實驗中谷歌還發現,擴大語言模型的規模對最后效果影響更大,超過擴大圖像生成模型的影響。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

看到這有網友指出,谷歌最后采用的T5-XXL參數規模還不到最新PaLM語言模型5400億參數的1%,如果用上PaLM,又會是啥樣?Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

除了語言模型部分的發現,谷歌通過Imagen的研究對擴算模型作出不少優化。Jg028資訊網——每日最新資訊28at.com

首先,增加無分類器引導(classifier-free guidance)的權重可以改善圖文對齊,但會損害圖像保真度。Jg028資訊網——每日最新資訊28at.com

解決的辦法是每一步采樣時使用動態閾值,能夠防止過飽和。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

第二,使用高引導權重的同時在低分辨率圖像上增加噪聲,可以改善擴散模型多樣性不足的問題。Jg028資訊網——每日最新資訊28at.com

第三,對擴散模型的經典結構U-Net做了改進,新的Efficient U-Net改善了內存使用效率、收斂速度和推理時間。Jg028資訊網——每日最新資訊28at.com

對語言理解和圖像生成都做出改進之后,Imagen模型作為一個整體在評估中也取得了很好的成績。Jg028資訊網——每日最新資訊28at.com

比如在COCO基準測試上達到新SOTA,卻根本沒用COCO數據集訓練。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

在COCO測試的人類評估部分也發現了Imagen的一個缺點,不擅長生成人類圖像。Jg028資訊網——每日最新資訊28at.com

具體表現是,無人類圖像在寫實度上獲得更高的人類偏好度。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

同時,谷歌推出了比COCO更有挑戰性的測試基準DrawBench,包含各種刁鉆的提示詞。Jg028資訊網——每日最新資訊28at.com

實驗發現,DALL·E 2難以準確理解同時出現兩個顏色要求的情況,而Imagen就沒問題。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

反常識情況,比如“馬騎著宇航員”兩者表現都不佳,只能畫出“宇航員騎著馬”。Jg028資訊網——每日最新資訊28at.com

但是Imagen對“一只熊貓在做咖啡拉花”理解更準確,只錯了一次。DALL·E 2則全都把熊貓畫進了拉花圖案里。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

△大概“馬騎著宇航員”有點反常識(狗頭)Jg028資訊網——每日最新資訊28at.com

對于要求圖像中出現文字的,也是Imagen做得更好。Jg028資訊網——每日最新資訊28at.com

除了最基本的把文字寫對以外,還可以正確給文字加上煙花效果。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

AI畫畫越來越出圈Jg028資訊網——每日最新資訊28at.com

說起來,AI作畫這件事,最早便源起于谷歌。Jg028資訊網——每日最新資訊28at.com

2015年,谷歌推出DeepDream,開創了AI根據文本生成圖像的先河。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

△DeepDream作品Jg028資訊網——每日最新資訊28at.com

但要說相關技術真正開“卷”、出圈,標志性事件還得數2021年OpenAI的DALL·E橫空出世。Jg028資訊網——每日最新資訊28at.com

當時,吳恩達、Keras之父等一眾大佬都紛紛轉發、點贊,DALL·E甚至被稱為2021年第一個令人興奮的AI技術突破。Jg028資訊網——每日最新資訊28at.com

隨后,語言理解模型和圖像生成模型多年來的技術進展,便在“AI作畫”這件事上集中爆發,一系列CLIP+GAN、CLIP+擴散模型的研究和應用,頻頻在網絡上掀起熱潮。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

從此一發不可收拾,技術更新迭代越來越快。Jg028資訊網——每日最新資訊28at.com

DALL·E 2剛發布的時候就有網友發起一個投票,問多長時間會出現新的SOTA。Jg028資訊網——每日最新資訊28at.com

當時大多數人選了幾個月或1年以上。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

但現在,Imagen的出現只用了6周。Jg028資訊網——每日最新資訊28at.com

隨著AI畫畫效果越來越強大,受眾范圍也不斷擴大,突破技術圈進入大眾視野。Jg028資訊網——每日最新資訊28at.com

前一陣,就有AI畫畫應用登上蘋果App Store圖形與設計排行榜榜首。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

現在最新的潮流,是各路設計師排隊申請Midjourney、Tiamat等商業化產品的內測,刷爆社交網絡。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

如此出圈,也給OpenAI和谷歌這樣的大公司帶來很大壓力。Jg028資訊網——每日最新資訊28at.com

出于AI倫理、公平性等方面考慮,DALL·E 2和Imagen都沒有直接開源或開放API。Jg028資訊網——每日最新資訊28at.com

各自也都在論文里有大篇幅涉及風險、社會影響力的內容。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

OpenAI選擇了內測模式,而谷歌還在做進一步研究和規范,等到確保AI不被濫用之后再擇機公開。Jg028資訊網——每日最新資訊28at.com

現在想體驗Imagen的話,有一個在線Demo演示。Jg028資訊網——每日最新資訊28at.com

可以從給定的幾個提示詞中自由組合出不同場景。Jg028資訊網——每日最新資訊28at.com

Jg028資訊網——每日最新資訊28at.com

快來試試吧~Jg028資訊網——每日最新資訊28at.com

Demo地址:Jg028資訊網——每日最新資訊28at.com
https://gweb-research-imagen.appspot.comJg028資訊網——每日最新資訊28at.com

論文地址:Jg028資訊網——每日最新資訊28at.com
https://gweb-research-imagen.appspot.com/paper.pdfJg028資訊網——每日最新資訊28at.com

 Jg028資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2346-0.html谷歌奪回AI畫語權,網友:DALL·E 2誕生一個月就過時了?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 消息稱博通與云計算公司VMware洽談收購事宜 后者市值約400億美元

下一篇: DeepMind開源了MuJoCo!Meta竟用來讓「骷髏手」盤核桃

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 东莞市| 英德市| 安福县| 江北区| 沂源县| 清水县| 出国| 个旧市| 大同市| 武邑县| 阿拉善右旗| 永登县| 深州市| 曲靖市| 沐川县| 若羌县| 招远市| 拜泉县| 达州市| 堆龙德庆县| 丹棱县| 翁源县| 门源| 伊金霍洛旗| 古蔺县| 东乡族自治县| 政和县| 富顺县| 眉山市| 安丘市| 临江市| 奇台县| 怀集县| 芜湖市| 新昌县| 贵德县| 泰顺县| 浮山县| 靖远县| 栖霞市| 宾川县|