4 月 17 日消息,昆侖萬維今日宣布,天工 3.0 大模型性能提升顯著,旗下的天工 SkyMusic 音樂大模型也在今日面向全社會(huì)開放公測。
天工 3.0 擁有 4000 億參數(shù),超越了 3140 億參數(shù)的 Grok-1,是全球最大的開源 MoE 大模型。天工 3.0 在語義理解、邏輯推理、通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域性能提升顯著,數(shù)學(xué) / 推理 / 代碼 / 文創(chuàng)能力提升超過 30%。天工 3.0 新增了多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項(xiàng) AI 能力。
天工 3.0 旗下的天工 SkyMusic 音樂大模型也在今日面向全社會(huì)開放公測。昆侖萬維表示天工 SkyMusic 在人聲 & BGM 音質(zhì)、人聲自然度、發(fā)音可懂度等領(lǐng)域“顯著”領(lǐng)先對手,綜合性能超越 Suno V3,取得音樂大模型 SOTA(State of the art model,即在當(dāng)前研究中表現(xiàn)最好的模型)。
天工SkyMusic采用音樂音頻領(lǐng)域類Sora模型架構(gòu),Large-scale Transformer負(fù)責(zé)譜曲,來學(xué)習(xí)Music Patches的上下文依賴關(guān)系,同時(shí)完成音樂可控性,Diffusion Transformer負(fù)責(zé)演唱,通過LDM讓Music Patches被還原成高質(zhì)量音頻,使其能夠支持生成80秒44100Hz采樣率雙聲道立體聲歌曲。
據(jù)介紹,天工SkyMusic具備以下特點(diǎn):
高質(zhì)量AI音樂:生成80秒44100Hz采樣率雙聲道立體聲AI歌曲
人聲“以假亂真”:中文水平極為優(yōu)秀,發(fā)音清晰無異響
歌詞段落控制:生成的歌曲可以明確分辨出不同歌詞段落的情緒變化
多種音樂風(fēng)格:支持說唱/民謠/放克/古風(fēng)/電子等
音樂智能表達(dá):能夠?qū)W習(xí)如顫音、歌劇、吟唱、男女對唱,自動(dòng)和聲等多種歌唱技巧
參考音樂生成:用戶上傳自有參考音樂,生成風(fēng)格、唱腔類似的歌曲
方言歌曲生成:支持粵語、成都話、北京話等眾多方言
從公開資料獲悉,昆侖萬維是中國互聯(lián)網(wǎng)平臺(tái)出海企業(yè),深耕海外市場十余載,業(yè)務(wù)覆蓋包括信息分發(fā)、社交、娛樂、元宇宙、游戲及AIGC等多個(gè)領(lǐng)域,旗下包括AGI與AIGC、海外信息分發(fā)與元宇宙、投資等三大業(yè)務(wù)板塊,市場遍及中國、東南亞、非洲、中東、北美、南美、歐洲等地。截至目前,全球平均月活躍用戶近4億,海外收入占比達(dá)84%。
本文鏈接:http://www.www897cc.com/showinfo-45-4086-0.html昆侖萬維:中國首個(gè)音樂 SOTA 模型天工 SkyMusic 音樂大模型開啟公測
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: MiniMax 稀宇科技發(fā)布萬億參數(shù) MoE 模型 abab 6.5,核心能力接近 GPT-4