日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 知識百科

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you need

來源: 責(zé)編: 時(shí)間:2023-08-07 16:30:27 240觀看
導(dǎo)讀 許多內(nèi)容制作項(xiàng)目需要將簡單的草圖轉(zhuǎn)換為逼真的圖片,這就涉及圖像到圖像的轉(zhuǎn)換(image-to-image translation),它使用深度生成模型學(xué)習(xí)給定輸入的自然圖片的條件分布。圖像到圖像

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

許多內(nèi)容制作項(xiàng)目需要將簡單的草圖轉(zhuǎn)換為逼真的圖片,這就涉及圖像到圖像的轉(zhuǎn)換(image-to-image translation),它使用深度生成模型學(xué)習(xí)給定輸入的自然圖片的條件分布。KuS28資訊網(wǎng)——每日最新資訊28at.com

圖像到圖像轉(zhuǎn)換的基本概念是利用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來捕捉自然圖片流形(manifold)。圖像轉(zhuǎn)換類似于遍歷流形并定位可行的輸入語義點(diǎn)。系統(tǒng)使用許多圖片對合成網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,以從其潛在空間的任何采樣中提供可靠的輸出。通過預(yù)訓(xùn)練的合成網(wǎng)絡(luò),下游訓(xùn)練將用戶輸入調(diào)整為模型的潛在表征。KuS28資訊網(wǎng)——每日最新資訊28at.com

多年來,我們已經(jīng)看到許多特定于任務(wù)的方法達(dá)到了 SOTA 水平,但目前的解決方案還是難以創(chuàng)建用于實(shí)際使用的高保真圖片。KuS28資訊網(wǎng)——每日最新資訊28at.com

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

在最近的一篇論文中,香港科技大學(xué)和微軟亞洲研究院的研究者認(rèn)為,對于圖像到圖像的轉(zhuǎn)換,預(yù)訓(xùn)練才是 All you need。以往方法需要專門的架構(gòu)設(shè)計(jì),并從頭開始訓(xùn)練單個(gè)轉(zhuǎn)換模型,因而難以高質(zhì)量地生成復(fù)雜場景,尤其是在配對訓(xùn)練數(shù)據(jù)不充足的情況下。KuS28資訊網(wǎng)——每日最新資訊28at.com

因此,研究者將每個(gè)圖像到圖像的轉(zhuǎn)換問題視為下游任務(wù),并引入了一個(gè)簡單通用框架,該框架采用預(yù)訓(xùn)練的擴(kuò)散模型來適應(yīng)各種圖像到圖像的轉(zhuǎn)換。他們將提出的預(yù)訓(xùn)練圖像到圖像轉(zhuǎn)換模型稱為 PITI(pretraining-based image-to-image translation)。此外,研究者還提出用對抗訓(xùn)練來增強(qiáng)擴(kuò)散模型訓(xùn)練中的紋理合成,并與歸一化指導(dǎo)采樣結(jié)合以提升生成質(zhì)量。KuS28資訊網(wǎng)——每日最新資訊28at.com

最后,研究者在 ADE20K、COCO-Stuff 和 DIODE 等具有挑戰(zhàn)性的基準(zhǔn)上對各種任務(wù)進(jìn)行了廣泛的實(shí)證比較,表明 PITI 合成的圖像顯示出了前所未有的真實(shí)感和忠實(shí)度。KuS28資訊網(wǎng)——每日最新資訊28at.com

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

論文鏈接:https://arxiv.org/pdf/2205.12952.pdf項(xiàng)目主頁:https://tengfei-wang.github.io/PITI/index.htmlGAN 已死,擴(kuò)散模型永存KuS28資訊網(wǎng)——每日最新資訊28at.com

作者沒有使用在特定領(lǐng)域表現(xiàn)最佳的 GAN,而是使用了擴(kuò)散模型,合成了廣泛多樣的圖片。其次,它應(yīng)該從兩種類型的潛在代碼中生成圖片:一種描述視覺語義,另一種針對圖像波動(dòng)進(jìn)行調(diào)整。語義、低維潛在對于下游任務(wù)至關(guān)重要。否則,就不可能將模態(tài)輸入轉(zhuǎn)換為復(fù)雜的潛在空間。鑒于此,他們使用 GLIDE 作為預(yù)訓(xùn)練的生成先驗(yàn),這是一種可以生成不同圖片的數(shù)據(jù)驅(qū)動(dòng)模型。由于 GLIDE 使用了潛在的文本,它允許語義潛在空間。KuS28資訊網(wǎng)——每日最新資訊28at.com

擴(kuò)散和基于分?jǐn)?shù)的方法表現(xiàn)出跨基準(zhǔn)的生成質(zhì)量。在類條件 ImageNet 上,這些模型在視覺質(zhì)量和采樣多樣性方面與基于 GAN 的方法相媲美。最近,用大規(guī)模文本圖像配對訓(xùn)練的擴(kuò)散模型顯示出驚人的能力。訓(xùn)練有素的擴(kuò)散模型可以為合成提供通用的生成先驗(yàn)。KuS28資訊網(wǎng)——每日最新資訊28at.com

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

框架KuS28資訊網(wǎng)——每日最新資訊28at.com

作者可以使用前置(pretext)任務(wù)對大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并開發(fā)一個(gè)非常有意義的潛在空間來預(yù)測圖片統(tǒng)計(jì)。KuS28資訊網(wǎng)——每日最新資訊28at.com

對于下游任務(wù),他們有條件地微調(diào)語義空間以映射特定于任務(wù)的環(huán)境。該機(jī)器根據(jù)預(yù)先訓(xùn)練的信息創(chuàng)建可信的視覺效果。KuS28資訊網(wǎng)——每日最新資訊28at.com

作者建議使用語義輸入對擴(kuò)散模型進(jìn)行預(yù)訓(xùn)練。他們使用文本條件、圖像訓(xùn)練的 GLIDE 模型。Transformer 網(wǎng)絡(luò)對文本輸入進(jìn)行編碼,并為擴(kuò)散模型輸出 token。按照計(jì)劃,文本嵌入空間是有意義的。KuS28資訊網(wǎng)——每日最新資訊28at.com

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

上圖是作者的作品。與從頭開始的技術(shù)相比,預(yù)訓(xùn)練模型提高了圖片質(zhì)量和多樣性。由于 COCO 數(shù)據(jù)集具有眾多類別和組合,因此基本方法無法通過引人注目的架構(gòu)提供美觀的結(jié)果。他們的方法可以為困難的場景創(chuàng)建具有精確語義的豐富細(xì)節(jié)。圖片展示了他們方法的多功能性。KuS28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)及影響KuS28資訊網(wǎng)——每日最新資訊28at.com

表 1 顯示,該研究所提方法性能始終優(yōu)于其他模型。與較為領(lǐng)先的 OASIS 相比,在掩碼到圖像合成方面,PITI 在 FID 方面獲得了顯著的改進(jìn)。此外,該方法在草圖到圖像和幾何到圖像合成任務(wù)中也顯示出良好的性能。KuS28資訊網(wǎng)——每日最新資訊28at.com

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

圖 3 展示了該研究在不同任務(wù)上的可視化結(jié)果。實(shí)驗(yàn)可得,與從頭開始訓(xùn)練的方法相比,預(yù)訓(xùn)練模型顯著提高了生成圖像的質(zhì)量和多樣性。該研究所用方法可以產(chǎn)生生動(dòng)的細(xì)節(jié)和正確的語義,即使是具有挑戰(zhàn)性的生成任務(wù)。KuS28資訊網(wǎng)——每日最新資訊28at.com

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

該研究還在 Amazon Mechanical Turk 上的 COCO-Stuff 上進(jìn)行了一項(xiàng)關(guān)于掩碼到圖像合成的用戶研究,獲得了 20 名參與者的 3000 票。參與者一次會(huì)得到兩張圖片,并被要求選擇一張更真實(shí)的進(jìn)行投票。如表 2 所示,所建議的方法在很大程度上優(yōu)于從零開始的模型和其他基線。KuS28資訊網(wǎng)——每日最新資訊28at.com

港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you needKuS28資訊網(wǎng)——每日最新資訊28at.com

條件圖像合成可創(chuàng)建符合條件的高質(zhì)量圖片。計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域使用它來創(chuàng)建和操作信息。大規(guī)模預(yù)訓(xùn)練改進(jìn)了圖片分類、對象識別和語義分割。未知的是大規(guī)模預(yù)訓(xùn)練是否有利于一般生成任務(wù)。KuS28資訊網(wǎng)——每日最新資訊28at.com

能源使用和碳排放是圖片預(yù)訓(xùn)練的關(guān)鍵問題。預(yù)訓(xùn)練是耗能的,但只需要一次。條件微調(diào)讓下游任務(wù)可以使用相同的預(yù)訓(xùn)練模型。預(yù)訓(xùn)練允許用更少的訓(xùn)練數(shù)據(jù)訓(xùn)練生成模型,當(dāng)數(shù)據(jù)由于隱私問題或昂貴的注釋成本而受到限制時(shí),可以提升圖像合成效果。KuS28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2403-0.html港科大&MSRA研究:關(guān)于圖像到圖像轉(zhuǎn)換,F(xiàn)inetuning is all you need

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 用AI尋找大屠殺后失散的親人!谷歌工程師研發(fā)人臉識別程序,可識別超70萬張二戰(zhàn)時(shí)期老照片

下一篇: 云安全日報(bào)220705:紅帽PHP解釋器發(fā)現(xiàn)執(zhí)行任意代碼漏洞,需要盡快升級

標(biāo)簽:
  • 熱門焦點(diǎn)
  • MIX Fold3包裝盒泄露 新機(jī)本月登場

    小米的全新折疊屏旗艦MIX Fold3將于本月發(fā)布,近日該機(jī)的真機(jī)包裝盒在網(wǎng)上泄露。從圖上來看,新的MIX Fold3包裝盒在外觀設(shè)計(jì)方面延續(xù)了之前的方案,變化不大,這也是目前小米旗艦
  • 直屏旗艦來了 iQOO 12和K70 Pro同臺(tái)競技

    旗艦機(jī)基本上使用的都是雙曲面屏幕,這就讓很多喜歡直屏的愛好者在苦等一款直屏旗艦,這次,你們等到了。據(jù)博主數(shù)碼閑聊站帶來的最新爆料稱,Redmi下代旗艦K70 Pro和iQOO 12兩款手
  • 把LangChain跑起來的三個(gè)方法

    使用LangChain開發(fā)LLM應(yīng)用時(shí),需要機(jī)器進(jìn)行GLM部署,好多同學(xué)第一步就被勸退了,那么如何繞過這個(gè)步驟先學(xué)習(xí)LLM模型的應(yīng)用,對Langchain進(jìn)行快速上手?本片講解3個(gè)把LangChain跑起來
  • JavaScript學(xué)習(xí) -AES加密算法

    引言在當(dāng)今數(shù)字化時(shí)代,前端應(yīng)用程序扮演著重要角色,用戶的敏感數(shù)據(jù)經(jīng)常在前端進(jìn)行加密和解密操作。然而,這樣的操作在網(wǎng)絡(luò)傳輸和存儲(chǔ)中可能會(huì)受到惡意攻擊的威脅。為了確保數(shù)據(jù)
  • 拼多多APP上線本地生活入口,群雄逐鹿萬億市場

    Tech星球(微信ID:tech618)文 | 陳橋輝 Tech星球獨(dú)家獲悉,拼多多在其APP內(nèi)上線了“本地生活”入口,位置較深,位于首頁的“充值中心”內(nèi),目前主要售賣美食相關(guān)的
  • 攜眾多高端產(chǎn)品亮相ChinaJoy,小米帶來一場科技與人文的視聽盛宴

    7月28日,全球數(shù)字娛樂領(lǐng)域最具知名度與影響力的年度盛會(huì)中國國際數(shù)碼互動(dòng)娛樂展覽會(huì)(簡稱ChinaJoy)在上海新國際博覽中心盛大開幕。作為全球領(lǐng)先的科
  • 華為HarmonyOS 4.0將于8月4日發(fā)布 或搭載AI大模型技術(shù)

    華為宣布HarmonyOS4.0將于8月4日正式發(fā)布。此前,華為已經(jīng)針對開發(fā)者公布了HarmonyOS4.0,以便于開發(fā)者提前進(jìn)行適配,也因此被曝光出了一些新系統(tǒng)的特性
  • 三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

    2023年7月26日,三星電子正式發(fā)布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外,Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
  • 朋友圈可以修改可見范圍了 蘋果用戶可率先體驗(yàn)

    近日,iOS用戶迎來微信8.0.27正式版更新,除了可更換二維碼背景外,還新增了多項(xiàng)實(shí)用功能。在新版微信中,朋友圈終于可以修改可見范圍,簡單來說就是已發(fā)布的朋友圈
Top 主站蜘蛛池模板: 利津县| 师宗县| 荣成市| 西昌市| 康平县| 颍上县| 栖霞市| 大姚县| 陇南市| 信宜市| 无锡市| 汾阳市| 苗栗市| 灵宝市| 屯留县| 安西县| 浮梁县| 中西区| 高邮市| 临湘市| 竹北市| 洛川县| 木兰县| 政和县| 德保县| 冕宁县| 莱阳市| 井冈山市| 甘孜县| 石屏县| 晋江市| 兰西县| 莱阳市| 和田县| 旬阳县| 盐城市| 五台县| 南木林县| 平果县| 磐安县| 山丹县|