日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 知識百科

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you need

來源: 責編: 時間:2023-08-07 16:30:27 277觀看
導讀 許多內容制作項目需要將簡單的草圖轉換為逼真的圖片,這就涉及圖像到圖像的轉換(image-to-image translation),它使用深度生成模型學習給定輸入的自然圖片的條件分布。圖像到圖像

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

許多內容制作項目需要將簡單的草圖轉換為逼真的圖片,這就涉及圖像到圖像的轉換(image-to-image translation),它使用深度生成模型學習給定輸入的自然圖片的條件分布。KnN28資訊網——每日最新資訊28at.com

圖像到圖像轉換的基本概念是利用預訓練的神經網絡來捕捉自然圖片流形(manifold)。圖像轉換類似于遍歷流形并定位可行的輸入語義點。系統使用許多圖片對合成網絡進行預訓練,以從其潛在空間的任何采樣中提供可靠的輸出。通過預訓練的合成網絡,下游訓練將用戶輸入調整為模型的潛在表征。KnN28資訊網——每日最新資訊28at.com

多年來,我們已經看到許多特定于任務的方法達到了 SOTA 水平,但目前的解決方案還是難以創建用于實際使用的高保真圖片。KnN28資訊網——每日最新資訊28at.com

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

在最近的一篇論文中,香港科技大學和微軟亞洲研究院的研究者認為,對于圖像到圖像的轉換,預訓練才是 All you need。以往方法需要專門的架構設計,并從頭開始訓練單個轉換模型,因而難以高質量地生成復雜場景,尤其是在配對訓練數據不充足的情況下。KnN28資訊網——每日最新資訊28at.com

因此,研究者將每個圖像到圖像的轉換問題視為下游任務,并引入了一個簡單通用框架,該框架采用預訓練的擴散模型來適應各種圖像到圖像的轉換。他們將提出的預訓練圖像到圖像轉換模型稱為 PITI(pretraining-based image-to-image translation)。此外,研究者還提出用對抗訓練來增強擴散模型訓練中的紋理合成,并與歸一化指導采樣結合以提升生成質量。KnN28資訊網——每日最新資訊28at.com

最后,研究者在 ADE20K、COCO-Stuff 和 DIODE 等具有挑戰性的基準上對各種任務進行了廣泛的實證比較,表明 PITI 合成的圖像顯示出了前所未有的真實感和忠實度。KnN28資訊網——每日最新資訊28at.com

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

論文鏈接:https://arxiv.org/pdf/2205.12952.pdf項目主頁:https://tengfei-wang.github.io/PITI/index.htmlGAN 已死,擴散模型永存KnN28資訊網——每日最新資訊28at.com

作者沒有使用在特定領域表現最佳的 GAN,而是使用了擴散模型,合成了廣泛多樣的圖片。其次,它應該從兩種類型的潛在代碼中生成圖片:一種描述視覺語義,另一種針對圖像波動進行調整。語義、低維潛在對于下游任務至關重要。否則,就不可能將模態輸入轉換為復雜的潛在空間。鑒于此,他們使用 GLIDE 作為預訓練的生成先驗,這是一種可以生成不同圖片的數據驅動模型。由于 GLIDE 使用了潛在的文本,它允許語義潛在空間。KnN28資訊網——每日最新資訊28at.com

擴散和基于分數的方法表現出跨基準的生成質量。在類條件 ImageNet 上,這些模型在視覺質量和采樣多樣性方面與基于 GAN 的方法相媲美。最近,用大規模文本圖像配對訓練的擴散模型顯示出驚人的能力。訓練有素的擴散模型可以為合成提供通用的生成先驗。KnN28資訊網——每日最新資訊28at.com

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

框架KnN28資訊網——每日最新資訊28at.com

作者可以使用前置(pretext)任務對大量數據進行預訓練,并開發一個非常有意義的潛在空間來預測圖片統計。KnN28資訊網——每日最新資訊28at.com

對于下游任務,他們有條件地微調語義空間以映射特定于任務的環境。該機器根據預先訓練的信息創建可信的視覺效果。KnN28資訊網——每日最新資訊28at.com

作者建議使用語義輸入對擴散模型進行預訓練。他們使用文本條件、圖像訓練的 GLIDE 模型。Transformer 網絡對文本輸入進行編碼,并為擴散模型輸出 token。按照計劃,文本嵌入空間是有意義的。KnN28資訊網——每日最新資訊28at.com

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

上圖是作者的作品。與從頭開始的技術相比,預訓練模型提高了圖片質量和多樣性。由于 COCO 數據集具有眾多類別和組合,因此基本方法無法通過引人注目的架構提供美觀的結果。他們的方法可以為困難的場景創建具有精確語義的豐富細節。圖片展示了他們方法的多功能性。KnN28資訊網——每日最新資訊28at.com

實驗及影響KnN28資訊網——每日最新資訊28at.com

表 1 顯示,該研究所提方法性能始終優于其他模型。與較為領先的 OASIS 相比,在掩碼到圖像合成方面,PITI 在 FID 方面獲得了顯著的改進。此外,該方法在草圖到圖像和幾何到圖像合成任務中也顯示出良好的性能。KnN28資訊網——每日最新資訊28at.com

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

圖 3 展示了該研究在不同任務上的可視化結果。實驗可得,與從頭開始訓練的方法相比,預訓練模型顯著提高了生成圖像的質量和多樣性。該研究所用方法可以產生生動的細節和正確的語義,即使是具有挑戰性的生成任務。KnN28資訊網——每日最新資訊28at.com

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

該研究還在 Amazon Mechanical Turk 上的 COCO-Stuff 上進行了一項關于掩碼到圖像合成的用戶研究,獲得了 20 名參與者的 3000 票。參與者一次會得到兩張圖片,并被要求選擇一張更真實的進行投票。如表 2 所示,所建議的方法在很大程度上優于從零開始的模型和其他基線。KnN28資訊網——每日最新資訊28at.com

港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you needKnN28資訊網——每日最新資訊28at.com

條件圖像合成可創建符合條件的高質量圖片。計算機視覺和圖形學領域使用它來創建和操作信息。大規模預訓練改進了圖片分類、對象識別和語義分割。未知的是大規模預訓練是否有利于一般生成任務。KnN28資訊網——每日最新資訊28at.com

能源使用和碳排放是圖片預訓練的關鍵問題。預訓練是耗能的,但只需要一次。條件微調讓下游任務可以使用相同的預訓練模型。預訓練允許用更少的訓練數據訓練生成模型,當數據由于隱私問題或昂貴的注釋成本而受到限制時,可以提升圖像合成效果。KnN28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2403-0.html港科大&MSRA研究:關于圖像到圖像轉換,Finetuning is all you need

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 用AI尋找大屠殺后失散的親人!谷歌工程師研發人臉識別程序,可識別超70萬張二戰時期老照片

下一篇: 云安全日報220705:紅帽PHP解釋器發現執行任意代碼漏洞,需要盡快升級

標簽:
  • 熱門焦點
  • K60至尊版剛預熱 一加Ace2 Pro正面硬剛

    Redmi這邊剛如火如荼的宣傳了K60 Ultra的各種技術和硬件配置,作為競品的一加也坐不住了。一加中國區總裁李杰發布了兩條微博,表示在自家的一加Ace2上早就已經采用了和PixelWo
  • 小米降噪藍牙耳機Necklace分享:聽一首歌 讀懂一個故事

    在今天下午的小米Civi 2新品發布會上,小米還帶來了一款新的降噪藍牙耳機Necklace,我們也在發布結束的第一時間給大家帶來這款耳機的簡單分享。現在大家能見到最多的藍牙耳機
  • 之家push系統迭代之路

    前言在這個信息爆炸的互聯網時代,能夠及時準確獲取信息是當今社會要解決的關鍵問題之一。隨著之家用戶體量和內容規模的不斷增大,傳統的靠"主動拉"獲取信息的方式已不能滿足用
  • 一文掌握 Golang 模糊測試(Fuzz Testing)

    模糊測試(Fuzz Testing)模糊測試(Fuzz Testing)是通過向目標系統提供非預期的輸入并監視異常結果來發現軟件漏洞的方法。可以用來發現應用程序、操作系統和網絡協議等中的漏洞或
  • “又被陳思誠騙了”

    作者|張思齊 出品|眾面(ID:ZhongMian_ZM)如今的國產懸疑電影,成了陳思誠的天下。最近大爆電影《消失的她》票房突破30億斷層奪魁暑期檔,陳思誠再度風頭無兩。你可以說陳思誠的
  • 華為HarmonyOS 4.0將于8月4日發布 或搭載AI大模型技術

    華為宣布HarmonyOS4.0將于8月4日正式發布。此前,華為已經針對開發者公布了HarmonyOS4.0,以便于開發者提前進行適配,也因此被曝光出了一些新系統的特性
  • 國行版三星Galaxy Z Fold5/Z Flip5發布 售價7499元起

    2023年8月3日,三星電子舉行Galaxy新品中國發布會,正式在國內推出了新一代折疊屏智能手機三星Galaxy Z Fold5與Galaxy Z Flip5,以及三星Galaxy Tab S9
  • 三星Galaxy Z Fold5今日亮相:厚度縮減但仍略顯厚重

    據官方此前宣布,三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動,屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
  • 三星Galaxy Z Fold/Flip 5國行售價曝光 :最低7499元/12999元起

    據官方此前宣布,三星將于7月26日也就是明天在韓國首爾舉辦Unpacked活動,屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
Top 主站蜘蛛池模板: 临泽县| 荆门市| 奈曼旗| 隆回县| 苍山县| 卫辉市| 新丰县| 阿巴嘎旗| 岳阳市| 宁远县| 敦煌市| 会同县| 昌吉市| 荔波县| 永宁县| 玛纳斯县| 惠东县| 灵川县| 九寨沟县| 吴堡县| 黑水县| 青田县| 昌乐县| 额济纳旗| 万年县| 海阳市| 当涂县| 黄陵县| 全南县| 逊克县| 西乡县| 寻乌县| 泸定县| 凌源市| 舒兰市| 芦溪县| 博罗县| 会同县| 雷山县| 莆田市| 曲周县|