5 月 13 日消息,科技媒體 marktechpost 昨日(5 月 12 日)發布博文,報道稱英偉達攜手麻省理工學院(MIT),推出了 Audio-SDS,一種基于文本條件的音頻擴散模型擴展技術。
音頻擴散模型近年來在生成高質量音頻方面表現卓越,但其局限在于難以優化明確且可解釋的參數。
英偉達和 MIT 的科研團隊首次將 Score Distillation Sampling(SDS)方法應用于音頻領域,結合預訓練模型的生成能力與參數化音頻表示,無需大規模特定數據集,可應用于 FM 合成器參數校準、物理沖擊音合成和音源分離三大任務。
SDS 技術廣泛應用于文本生成 3D 圖像和圖像編輯中,英偉達融合該技術推出 Audio-SDS,結合預訓練模型的生成先驗知識,能夠直接根據高級文本提示調整 FM 合成參數、沖擊音模擬器或分離掩碼。
研究團隊通過基于解碼器的 SDS、多步去噪和多尺度頻譜圖等方法,實驗結果表明,Audio-SDS 在主觀聽覺測試和客觀指標(如 CLAP 分數、信號失真比 SDR)上均表現出色。
Audio-SDS 的創新在于,它用單一預訓練模型支持多種音頻任務,消除了對大規模領域特定數據集的依賴。盡管如此,研究團隊也指出,模型覆蓋范圍、潛在編碼偽影和優化敏感性等問題仍需解決。
附上參考地址
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
Audio-SDS Overview
本文鏈接:http://www.www897cc.com/showinfo-45-12844-0.htmlSDS 技術首次用于音頻:英偉達攜手 MIT 推 Audio-SDS,參數化控制 AI 音效生成
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com