9 月 1 日消息,階躍星辰今日發(fā)布開源端到端語(yǔ)音大模型 Step-Audio 2 mini,該模型在多個(gè)國(guó)際基準(zhǔn)測(cè)試集上取得 SOTA 成績(jī)。Step-Audio 2 mini 現(xiàn)已上線階躍星辰開放平臺(tái)。
從官方介紹獲悉,它將語(yǔ)音理解、音頻推理與生成統(tǒng)一建模,并率先支持語(yǔ)音原生的 Tool Calling 能力,可實(shí)現(xiàn)聯(lián)網(wǎng)搜索等操作。
Step-Audio 2 mini 在多個(gè)關(guān)鍵基準(zhǔn)測(cè)試中取得 SOTA 成績(jī),在音頻理解、語(yǔ)音識(shí)別、翻譯和對(duì)話場(chǎng)景中表現(xiàn)突出,綜合性能超越 Qwen-Omni 、Kimi-Audio 在內(nèi)的所有開源端到端語(yǔ)音模型,并在大部分任務(wù)上超越 GPT-4o Audio。

在通用多模態(tài)音頻理解測(cè)試集 MMAU 上,Step-Audio 2 mini 以 73.2 的得分位列開源端到端語(yǔ)音模型榜首;
在衡量口語(yǔ)對(duì)話能力的 URO Bench 上,Step-Audio 2 mini 在基礎(chǔ)與專業(yè)賽道均拿下開源端到端語(yǔ)音模型最高分,展現(xiàn)出優(yōu)秀的對(duì)話理解與表達(dá)能力;
在中英互譯任務(wù)上,Step-Audio 2 mini 優(yōu)勢(shì)明顯,在 CoVoST 2 和 CVSS 評(píng)測(cè)集上分別取得 39.3 和 29.1 的分?jǐn)?shù),大幅領(lǐng)先 GPT-4o Audio 和其他開源語(yǔ)音模型;
在語(yǔ)音識(shí)別任務(wù)上,Step-Audio 2 mini 取得多語(yǔ)言和多方言第一。其中開源中文測(cè)試集平均 CER(字錯(cuò)誤率) 3.19,開源英語(yǔ)測(cè)試集平均 WER(詞錯(cuò)誤率) 3.50,領(lǐng)先其他開源模型 15% 以上。

過(guò)往的 AI 語(yǔ)音常被吐槽智商、情商雙低。一是“沒知識(shí)”,缺乏文本大模型一樣的知識(shí)儲(chǔ)備和推理能力;二是“冷冰冰”,聽不懂潛臺(tái)詞,語(yǔ)氣、情緒、笑聲這些“弦外之音”。Step-Audio 2 mini 通過(guò)創(chuàng)新架構(gòu)設(shè)計(jì),有效解決了此前語(yǔ)音模型存在的問(wèn)題。
真端到端多模態(tài)架構(gòu):Step-Audio 2 mini 突破傳統(tǒng) ASR+LLM+TTS 三級(jí)結(jié)構(gòu),實(shí)現(xiàn)原始音頻輸入到語(yǔ)音響應(yīng)輸出的直接轉(zhuǎn)換,架構(gòu)更簡(jiǎn)潔、時(shí)延更低,并能有效理解副語(yǔ)言信息與非人聲信號(hào)。

CoT 推理結(jié)合強(qiáng)化學(xué)習(xí):Step-Audio 2 mini 在端到端語(yǔ)音模型中首次引入鏈?zhǔn)剿季S推理(Chain-of-Thought,CoT)與強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化,能對(duì)情緒、語(yǔ)調(diào)、音樂等副語(yǔ)言和非語(yǔ)音信號(hào)進(jìn)行精細(xì)理解、推理并自然回應(yīng)。
音頻知識(shí)增強(qiáng):模型支持包括 web 檢索等外部工具,有助于模型解決幻覺問(wèn)題,并賦予模型在多場(chǎng)景擴(kuò)展上的能力。
GitHub:https://github.com/stepfun-ai/Step-Audio2
Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-mini
ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
本文鏈接:http://www.www897cc.com/showinfo-45-27228-0.html階躍星辰發(fā)布端到端語(yǔ)音大模型 Step-Audio 2 mini,多個(gè)基準(zhǔn)測(cè)試取得 SOTA 成績(jī)
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com