5 月 13 日消息,科技媒體 marktechpost 昨日(5 月 12 日)發(fā)布博文,報(bào)道稱英偉達(dá)攜手麻省理工學(xué)院(MIT),推出了 Audio-SDS,一種基于文本條件的音頻擴(kuò)散模型擴(kuò)展技術(shù)。
音頻擴(kuò)散模型近年來(lái)在生成高質(zhì)量音頻方面表現(xiàn)卓越,但其局限在于難以優(yōu)化明確且可解釋的參數(shù)。
英偉達(dá)和 MIT 的科研團(tuán)隊(duì)首次將 Score Distillation Sampling(SDS)方法應(yīng)用于音頻領(lǐng)域,結(jié)合預(yù)訓(xùn)練模型的生成能力與參數(shù)化音頻表示,無(wú)需大規(guī)模特定數(shù)據(jù)集,可應(yīng)用于 FM 合成器參數(shù)校準(zhǔn)、物理沖擊音合成和音源分離三大任務(wù)。
SDS 技術(shù)廣泛應(yīng)用于文本生成 3D 圖像和圖像編輯中,英偉達(dá)融合該技術(shù)推出 Audio-SDS,結(jié)合預(yù)訓(xùn)練模型的生成先驗(yàn)知識(shí),能夠直接根據(jù)高級(jí)文本提示調(diào)整 FM 合成參數(shù)、沖擊音模擬器或分離掩碼。
研究團(tuán)隊(duì)通過基于解碼器的 SDS、多步去噪和多尺度頻譜圖等方法,實(shí)驗(yàn)結(jié)果表明,Audio-SDS 在主觀聽覺測(cè)試和客觀指標(biāo)(如 CLAP 分?jǐn)?shù)、信號(hào)失真比 SDR)上均表現(xiàn)出色。
Audio-SDS 的創(chuàng)新在于,它用單一預(yù)訓(xùn)練模型支持多種音頻任務(wù),消除了對(duì)大規(guī)模領(lǐng)域特定數(shù)據(jù)集的依賴。盡管如此,研究團(tuán)隊(duì)也指出,模型覆蓋范圍、潛在編碼偽影和優(yōu)化敏感性等問題仍需解決。
附上參考地址
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
Audio-SDS Overview
本文鏈接:http://www.www897cc.com/showinfo-45-12844-0.htmlSDS 技術(shù)首次用于音頻:英偉達(dá)攜手 MIT 推 Audio-SDS,參數(shù)化控制 AI 音效生成
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com