當(dāng)前位置：首頁(yè) > 元宇宙 > AI

SDS 技術(shù)首次用于音頻：英偉達(dá)攜手 MIT 推 Audio-SDS，參數(shù)化控制 AI 音效生成

來(lái)源：責(zé)編：時(shí)間：2025-05-15 09:50:57 69觀看

導(dǎo)讀 5 月 13 日消息，科技媒體 marktechpost 昨日（5 月 12 日）發(fā)布博文，報(bào)道稱英偉達(dá)攜手麻省理工學(xué)院（MIT），推出了 Audio-SDS，一種基于文本條件的音頻擴(kuò)散模型擴(kuò)展技術(shù)。音頻擴(kuò)散模型近年來(lái)在生成高質(zhì)量音頻方面表現(xiàn)卓越，

5 月 13 日消息，科技媒體 marktechpost 昨日（5 月 12 日）發(fā)布博文，報(bào)道稱英偉達(dá)攜手麻省理工學(xué)院（MIT），推出了 Audio-SDS，一種基于文本條件的音頻擴(kuò)散模型擴(kuò)展技術(shù)。

音頻擴(kuò)散模型近年來(lái)在生成高質(zhì)量音頻方面表現(xiàn)卓越，但其局限在于難以優(yōu)化明確且可解釋的參數(shù)。

英偉達(dá)和 MIT 的科研團(tuán)隊(duì)首次將 Score Distillation Sampling（SDS）方法應(yīng)用于音頻領(lǐng)域，結(jié)合預(yù)訓(xùn)練模型的生成能力與參數(shù)化音頻表示，無(wú)需大規(guī)模特定數(shù)據(jù)集，可應(yīng)用于 FM 合成器參數(shù)校準(zhǔn)、物理沖擊音合成和音源分離三大任務(wù)。

SDS 技術(shù)廣泛應(yīng)用于文本生成 3D 圖像和圖像編輯中，英偉達(dá)融合該技術(shù)推出 Audio-SDS，結(jié)合預(yù)訓(xùn)練模型的生成先驗(yàn)知識(shí)，能夠直接根據(jù)高級(jí)文本提示調(diào)整 FM 合成參數(shù)、沖擊音模擬器或分離掩碼。

研究團(tuán)隊(duì)通過基于解碼器的 SDS、多步去噪和多尺度頻譜圖等方法，實(shí)驗(yàn)結(jié)果表明，Audio-SDS 在主觀聽覺測(cè)試和客觀指標(biāo)（如 CLAP 分?jǐn)?shù)、信號(hào)失真比 SDR）上均表現(xiàn)出色。

Audio-SDS 的創(chuàng)新在于，它用單一預(yù)訓(xùn)練模型支持多種音頻任務(wù)，消除了對(duì)大規(guī)模領(lǐng)域特定數(shù)據(jù)集的依賴。盡管如此，研究團(tuán)隊(duì)也指出，模型覆蓋范圍、潛在編碼偽影和優(yōu)化敏感性等問題仍需解決。

附上參考地址

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

Audio-SDS Overview

本文鏈接：http://www.www897cc.com/showinfo-45-12844-0.htmlSDS 技術(shù)首次用于音頻：英偉達(dá)攜手 MIT 推 Audio-SDS，參數(shù)化控制 AI 音效生成

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：火山引擎發(fā)布豆包 1.5?視覺深度思考模型，新增 GUI Agent 能力

下一篇：蘋果發(fā)布 FastVLM 視覺語(yǔ)言模型，為新型智能眼鏡等穿戴設(shè)備鋪路

標(biāo)簽：

熱門焦點(diǎn)

沉寂3年，大模型激活小度天貓精靈？

Tech星球（微信ID：tech618）文 | 何煦陽(yáng) 沉寂了許久的智能音箱，在今年大模型橫空出世之后，又再次燃起了新的希望。 2月9日，小度宣布將融合文心一言，打造針對(duì)智能設(shè)備場(chǎng)景的AI模型&ldq
10億基金，李彥宏呼喚下一個(gè)AI獨(dú)角獸

©?深響原創(chuàng) · 作者｜何文 AI太熱了。在海外，OpenAI估值已超270億美元、英偉達(dá)市值破萬(wàn)億、微軟把GPT整合進(jìn)了全線產(chǎn)品。在國(guó)內(nèi)，百度、阿里、華為、商湯等大公司，以及
元宇宙帶來(lái)沉浸式智能登錄？你學(xué)會(huì)了嗎？

備受資本市場(chǎng)寵愛的元宇宙概念，正掀起一番番波瀾。元宇宙作為虛實(shí)相融的互聯(lián)網(wǎng)應(yīng)用和社會(huì)形態(tài)，與沉浸式體驗(yàn)緊密相關(guān)。多重路徑，打造無(wú)感知沉浸式智能登錄《設(shè)計(jì)
國(guó)內(nèi)涌現(xiàn)70余家數(shù)字藏品平臺(tái)：合規(guī)、流量與利潤(rùn)在博弈

作者：楊鄭君2月16日，迅雷鏈企業(yè)數(shù)字藏品服務(wù)平臺(tái)正式上線，繼阿里、騰訊、京東、百度、網(wǎng)易等之后，又一家互聯(lián)網(wǎng)企業(yè)正式加入到火熱的數(shù)字藏品平臺(tái)的競(jìng)爭(zhēng)中。除互聯(lián)
元宇宙社交時(shí)代，華麗歸來(lái)的超級(jí)QQ秀重構(gòu)虛擬社交場(chǎng)景

作者:狂人不知不覺間，QQ已經(jīng)迎來(lái)了第23個(gè)生日。作為國(guó)內(nèi)社交平臺(tái)的起點(diǎn)，QQ可謂是睥睨全網(wǎng)，不僅有龐大的用戶群體，還將虛擬形象及QQ整合成在線虛擬社區(qū)，開啟了時(shí)髦
Kitten Coup社區(qū)反轉(zhuǎn)Cool Kittens NFT騙局

當(dāng)狂熱的加密愛好者將金錢投入到NFT圖片時(shí)，渾水摸魚的騙局隨之而來(lái)，Cool Kittens NFT便是其中一個(gè)作惡者，該項(xiàng)目于去年11月在Sonala鏈上啟動(dòng)小貓形象的NFT鑄造及
元宇宙存在的意義和價(jià)值

科技公司目前都在猶豫，看誰(shuí)能在元宇宙上押下更大的賭注。然而，除了巨額的資金投入，到底要怎樣才能獲勝在很大程度上還沒有得到證實(shí)。它是否僅僅是對(duì)當(dāng)前數(shù)字景觀
頭像類NFTs的統(tǒng)治能持續(xù)多久？

在過去的一兩年里，NFTs在互聯(lián)網(wǎng)世界中掀起了一場(chǎng)風(fēng)暴。今天，當(dāng)我們想到NFTs時(shí)，我們主要想到的是那些充斥著我們的社交媒體屏幕的數(shù)字卡通--無(wú)聊猿、punks 和介于
多位全國(guó)政協(xié)委員提交元宇宙提案，國(guó)金證券稱元宇宙仍處初期投資階段

財(cái)聯(lián)社|區(qū)塊鏈日?qǐng)?bào)2日訊今日《元宇宙新鮮事》有：全國(guó)政協(xié)委員劉偉建議出臺(tái)“元宇宙中國(guó)”的頂層設(shè)計(jì)方案；國(guó)金證券稱元宇宙仍處初期投資龐大獲利不易階段；阿聯(lián)酋

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

SDS 技術(shù)首次用于音頻：英偉達(dá)攜手 MIT 推 Audio-SDS，參數(shù)化控制 AI 音效生成

沉寂3年，大模型激活小度天貓精靈？

10億基金，李彥宏呼喚下一個(gè)AI獨(dú)角獸

元宇宙帶來(lái)沉浸式智能登錄？你學(xué)會(huì)了嗎？

國(guó)內(nèi)涌現(xiàn)70余家數(shù)字藏品平臺(tái)：合規(guī)、流量與利潤(rùn)在博弈

元宇宙社交時(shí)代，華麗歸來(lái)的超級(jí)QQ秀重構(gòu)虛擬社交場(chǎng)景

Kitten Coup社區(qū)反轉(zhuǎn)Cool Kittens NFT騙局

元宇宙存在的意義和價(jià)值

頭像類NFTs的統(tǒng)治能持續(xù)多久？

多位全國(guó)政協(xié)委員提交元宇宙提案，國(guó)金證券稱元宇宙仍處初期投資階段

最新推薦

虛擬人再升級(jí)，企業(yè)可以解放雙手了？

VR/AR迷失元宇宙“硝煙”

「國(guó)產(chǎn)良心」NFT嘲諷了誰(shuí)？

趙長(zhǎng)鵬預(yù)測(cè)SoicalFi為今年主要驅(qū)動(dòng)力，新的機(jī)會(huì)在哪里？

MR——元宇宙平臺(tái)的下一代入口

TX加入的NFT數(shù)字收藏品，元宇宙的破圈之路?

猜你喜歡

熱門推薦

相關(guān)資訊