日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

AI 視覺字謎爆火!夢露轉 180° 秒變愛因斯坦,英偉達高級 AI 科學家:近期最酷的擴散模型

來源: 責編: 時間:2023-12-06 09:17:51 283觀看
導讀 AI 畫的瑪麗蓮?夢露,倒轉 180° 后,竟然變成了愛因斯坦?!這是最近在社交媒體上爆火的擴散模型視錯覺畫,隨便給 AI 兩組不同的提示詞,它都能給你畫出來!哪怕是截然不同的對象也可以,例如一位男子,經過反色處理,就神奇地

AI 畫的瑪麗蓮?夢露,倒轉 180° 后,竟然變成了愛因斯坦?!D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

這是最近在社交媒體上爆火的擴散模型視錯覺畫,隨便給 AI 兩組不同的提示詞,它都能給你畫出來!D8728資訊網——每日最新資訊28at.com

哪怕是截然不同的對象也可以,例如一位男子,經過反色處理,就神奇地轉變成一名女子:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

就連單詞也能被翻轉出新效果,happy 和 holiday 只在一旋轉間:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

原來,這是來自密歇根大學的一項“視覺字謎”新研究,論文一發(fā)出就在 Hacker News 上爆火,熱度飆至近 800。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

英偉達高級 AI 科學家 Jim Fan 贊嘆稱:D8728資訊網——每日最新資訊28at.com

這是我近期見到最酷的擴散模型!D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

還有網友感嘆稱:D8728資訊網——每日最新資訊28at.com

這讓我想到了從事分形壓縮工作的那段經歷。我一直認為它是純粹的藝術。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

要知道,創(chuàng)作一幅經過旋轉、反色或變形后呈現(xiàn)出新主題的繪畫作品,怎么也需要畫家對色彩、形狀、空間具備一定的理解能力。D8728資訊網——每日最新資訊28at.com

如今連 AI 也能畫出這樣的效果,究竟是如何實現(xiàn)的?實際效果是否有這么好?D8728資訊網——每日最新資訊28at.com

我們上手試玩了一番,也探究了一下背后的原理。D8728資訊網——每日最新資訊28at.com

Colab 就能直接試玩

我們用這個模型繪制了一組 Lowpoly 風格的畫,讓它正著看是一座山,反過來則是城市的天際線。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

同時,我們讓 ChatGPT(DALL?E-3)也試著畫了一下,結果除了清晰度高一些之外似乎就沒什么優(yōu)勢了。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

而作者自己展示的效果則更加豐富,也更為精彩。D8728資訊網——每日最新資訊28at.com

一座雪后的山峰,旋轉 90 度就變成了一匹馬;一張餐桌換個角度就成了瀑布……D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

最精彩的還要屬下面這張圖 —— 從上下左右四個角度看,每個方向的內容都不一樣。D8728資訊網——每日最新資訊28at.com

(這里先考驗一下各位讀者,你能看出這四種動物分別是什么嗎?)D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

以兔子為初始狀態(tài),每逆時針旋轉 90 度,看到的依次是鳥、長頸鹿和泰迪熊。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

而下面這兩張圖雖然沒做到四個方向每個都有“新內容”,但還是做出了三個不同的方向。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

除了旋轉,它還可以把圖像切割成拼圖,然后重組成新的內容,甚至是直接分解到像素級。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

風格也是千變萬化,水彩、油畫、水墨、線稿…… 應有盡有。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

那么這個模型去哪里能玩呢?D8728資訊網——每日最新資訊28at.com

為了能讓更多網友體驗到這個新玩具,作者準備了一份 Colab 筆記。D8728資訊網——每日最新資訊28at.com

不過免費版 Colab 的 T4 不太能帶動,V100 偶爾也會顯存超限,要用 A100 才能穩(wěn)定運行。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

甚至作者自己也說,如果誰發(fā)現(xiàn)免費版能帶動了,請馬上告訴他。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

言歸正傳,第一行代碼運行后會讓我們填寫 Hugging Face 的令牌,并給出了獲取地址。D8728資訊網——每日最新資訊28at.com

同時還需要到 DeepFloyd 的項目頁面中同意一個用戶協(xié)議,才能繼續(xù)后面的步驟。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

準備工作完成后,依次運行這三個部分的代碼完成環(huán)境部署。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

需要注意的是,作者目前還沒有給模型設計圖形界面,效果的選擇和提示詞的修改需要我們手動調整代碼。D8728資訊網——每日最新資訊28at.com

作者在筆記中放了三種效果,想用哪個就取消注釋(去掉那一行前面的井號),并把不用的刪除或注釋掉(加上井號)。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

這里列出的三種效果不是全部,如果想用其他效果可以手動替換代碼,具體支持的效果有這些:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

修改好后要運行這行代碼,然后提示詞也是如法炮制:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

修改好并運行后,就可以進入生成環(huán)節(jié)了,這里也可以對推理步數(shù)和指導強度進行修改。D8728資訊網——每日最新資訊28at.com

需要注意的是,這里一定要先運行 image_64 函數(shù)生成小圖,然后再用后面的 image 變成大圖,否則會報錯。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

做個總結的話,我們體驗后的一個感覺是,這個模型對提示詞的要求還是比較高的。D8728資訊網——每日最新資訊28at.com

作者也意識到了這一點,并給出了一些提示詞技巧:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

△ 機翻,僅供參考D8728資訊網——每日最新資訊28at.com

那么,研究團隊是如何實現(xiàn)這些效果的呢?D8728資訊網——每日最新資訊28at.com

“糅合”多視角圖像噪聲

首先來看看作者生成視錯覺圖像的關鍵原理。D8728資訊網——每日最新資訊28at.com

為了讓圖像在不同視角下,能根據(jù)不同的提示詞呈現(xiàn)出不同的畫面效果,作者特意采用了“噪聲平均”的方法,來進一步將兩個視角的圖像糅合在一起。D8728資訊網——每日最新資訊28at.com

簡單來說,擴散模型(DDPM)的核心,是通過訓練模型將圖像“打碎重組”,基于“噪點圖”來生成新圖像:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

所以,要想讓圖像在變換前后,能根據(jù)不同提示詞生成不同圖像,就需要對擴散模型的去噪過程進行改動。D8728資訊網——每日最新資訊28at.com

簡單來說,就是對原始圖像和變換后的圖像,同時用擴散模型進行“打碎”處理做成“噪點圖”,并在這個過程中將處理后的結果取平均,計算出一個新的“噪點圖”。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

隨后,基于這個新的“噪點圖”生成的圖像,就能在經過變換后呈現(xiàn)出想要的視覺效果。D8728資訊網——每日最新資訊28at.com

當然,這個變換的圖像處理過程,必須要是正交變換,也就是我們在展示效果中看到的旋轉、變形、打碎重組或反色等操作。D8728資訊網——每日最新資訊28at.com

具體到擴散模型的選擇上,也有要求。D8728資訊網——每日最新資訊28at.com

具體來說,這篇論文采用了 DeepFloyd IF 來實現(xiàn)視錯覺圖像生成。D8728資訊網——每日最新資訊28at.com

DeepFloyd IF 是一個基于像素的擴散模型,相比其他擴散模型,它能直接在像素空間(而非潛在空間或其他中間表示)上進行操作。D8728資訊網——每日最新資訊28at.com

這也讓它能更好地處理圖像的局部信息,尤其在生成低分辨率圖像上有所幫助。D8728資訊網——每日最新資訊28at.com

這樣一來,就能讓圖像最終呈現(xiàn)出視錯覺效果。D8728資訊網——每日最新資訊28at.com

為了評估這種方法的效果,作者們基于 GPT-3.5 自己編寫了一個 50 個圖像變換對的數(shù)據(jù)集。D8728資訊網——每日最新資訊28at.com

具體來說,他們讓 GPT-3.5 隨機生成一種圖像風格(例如油畫風、街頭藝術風),然后再隨機生成兩組提示詞(一個老人、一個雪山),并交給模型生成變換畫。D8728資訊網——每日最新資訊28at.com

這是一些隨機變換生成的結果:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

隨后,他們也拿 CIFAR-10 進行了一下不同模型間圖像生成的測試:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

隨后用 CLIP 評估了一下,結果顯示變換后的效果和變換之前的質量一樣好:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

作者們也測試了一下,這個 AI 能經得起多少個圖像塊的“打碎重組”。D8728資訊網——每日最新資訊28at.com

事實證明,從 8×8 到 64×64,打碎重組的圖像效果看起來都不錯:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

對于這一系列圖像變換,有網友感嘆“印象深刻”,尤其是男人轉變成女人的那個圖像變換:D8728資訊網——每日最新資訊28at.com

我看了大概有 10 遍左右。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

還有網友已經想把它做成藝術作品掛在墻上了,或是使用電子墨水屏:D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

但也有專業(yè)的攝影師認為,現(xiàn)階段 AI 生成的這些圖像仍然不行:D8728資訊網——每日最新資訊28at.com

仔細觀察的話,會發(fā)現(xiàn)細節(jié)經不起推敲。敏銳的眼睛總是能分辨出糟糕的地方,但大眾并不在意這些。D8728資訊網——每日最新資訊28at.com

D8728資訊網——每日最新資訊28at.com

那么,你覺得 AI 生成的這一系列視錯覺圖像效果如何?還能用在哪些地方?D8728資訊網——每日最新資訊28at.com

參考鏈接:D8728資訊網——每日最新資訊28at.com

[1]https://news.ycombinator.com/item?id=38477259D8728資訊網——每日最新資訊28at.com

[2]https://arxiv.org/pdf/2311.17919.pdfD8728資訊網——每日最新資訊28at.com

[3]https://twitter.com/DrJimFan/status/1730253638935920738D8728資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:克雷西 蕭簫D8728資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2781-0.htmlAI 視覺字謎爆火!夢露轉 180° 秒變愛因斯坦,英偉達高級 AI 科學家:近期最酷的擴散模型

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: GPT-4 沒通過圖靈測試!60 年前老 AI 擊敗了 ChatGPT,但人類勝率也僅有 63%

下一篇: 愛企查顯示:知網AI生成文本檢測新專利公布

標簽:
  • 熱門焦點
  • 新周期,誰在堅守窄門?

    來源:錦緞今日的投資者恐怕已經忘記了,在OpenAI創(chuàng)造出ChatGPT這一殺器的前夜,生成式AI也曾經是一道窄門,窄到連馬斯克都差點失去了信心。在當時的輿論眼中,AGI的道路不夠性感,不夠
  • 三院士三教授熱聊元宇宙&——AIGC,學術界怎么看?

    來源:清元宇宙在近日舉辦的中國江寧2023元宇宙產業(yè)·人才高峰論壇暨AIGC發(fā)展大會上,中國工程院院士譚建榮、劉韻潔、鄭緯民出席并發(fā)表了主旨演講。除了三大院士,還有清華
  • 數(shù)字人的新革命,BAT的“沖高”戰(zhàn)場

    來源:劉曠ChatGPT橫空出世,讓人們看到了數(shù)字人的另一種可能,將ChatGPT與虛擬數(shù)字人融合,研發(fā)出更加智能化、擬人化的虛擬數(shù)字人成為數(shù)字人廠商的新命題、新方向。2月份,嶺南股份
  • 元宇宙時代NFT的價值衡量

    有人認為NFT的高昂價格只是炒作的產物,并不具有其對等的價值,但其實NFT并不是空中樓閣,只是區(qū)塊鏈數(shù)字分類賬中的一種形式。誠然,目前的NFT仍處于灰色地帶,相關的法
  • 智能人機交互技術的春晚大考

    1月初的一個早晨,京東智能客戶服務產品部緊急開會,進行關于尚未對外公布的“X項目”的初討論。1月5日,這個神秘的X項目對外公布,京東成為央視2022年春晚獨家互動合
  • 冰墩墩的NFT暴漲千倍?真相則是價格暴跌、成交遇冷

    《區(qū)塊鏈日報》記者查證,近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑,而所謂的暴漲千倍更是有價無市的自嗨。昨日,北京冬奧會正式閉幕。在這屆冬奧會上,吉祥物“冰
  • 元宇宙是推動NFT發(fā)展的初始家園

    現(xiàn)在大家都知道了什么是NFT,但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加,該如何將這些數(shù)字資產帶入我們的日常生活?NFT還是主流嗎?如果我們將“主流
  • Meta 在衰落嗎?

    扎克伯格已經很久沒有出現(xiàn)在公眾視野里了,近日,他罕見的接受播客采訪,在兩個小時的時間里暢談了Meta、Facebook、Instagram、元宇宙的未來。正方觀點:是的阿倫·達
  • 藝術創(chuàng)作者能否永久收取版稅?

    NFTs正在改變我們理解互聯(lián)網所有權的方式,社區(qū)管理的所有權有很多好處,但如果創(chuàng)作者想為他/她的創(chuàng)作獲得永久的收益(版稅),會發(fā)生什么?這不是一個容易解決的問題,版稅
Top 主站蜘蛛池模板: 南部县| 蓬溪县| 嘉鱼县| 泊头市| 景宁| 武义县| 桃江县| 太仆寺旗| 晋中市| 枣强县| 沁源县| 林西县| 华宁县| 东源县| 吉林市| 宁陕县| 上杭县| 离岛区| 许昌县| 临夏县| 吉林市| 商都县| 保靖县| 武清区| 齐河县| 平南县| 朝阳区| 绥中县| 秦皇岛市| 泗洪县| 平阳县| 新乐市| 永福县| 奉贤区| 万荣县| 肃北| 兖州市| 余江县| 常山县| 罗平县| 保定市|