6 月 6 日消息,Stability AI 立足 Stable Diffusion 文生圖模型,進一步向音頻領域拓展,推出了 Stable Audio Open,可以基于用戶輸入的提示詞,生成高質量音頻樣本。
Stable Audio Open 最長可以創建 47 秒的音樂,非常適合鼓點、樂器旋律、環境音和擬聲音效,該開源模型基于 transforms 擴散模型(DiT),在自動編碼器的潛在空間中操作,提高生成音頻的質量和多樣性。
Stable Audio Open 目前已經開源,附上相關鏈接,感興趣的用戶可以在 HuggingFace 上試用。據說它使用了來自 FreeSound 和 Free Music Archive 等音樂庫的 486000 多種采樣進行訓練。
Stability AI 公司表示:“雖然它可以生成簡短的音樂片段,但并不適合完整的歌曲、旋律或人聲”。
Stable Audio Open 和 Stable Audio 2.0 不同是,前者為開源模型,專注于短音頻片段和音效,而后者能夠生成最長 3 分鐘的完整音頻。
相關閱讀:
《Stable Audio 2.0 發布:生成最長 3 分鐘音頻,能幫音樂家補全創意作品》
《Stability AI 推出 Stable Audio,基于文本生成最長 90 秒音頻》
本文鏈接:http://www.www897cc.com/showinfo-45-4537-0.htmlStable Audio Open 開源 AI 模型發布:48.6 萬個樣本訓練,可創建 47 秒短音頻 音效等
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 五糧液濃香酒:勞動節送禮的精致藝術