9 月 19 日消息,小米今天宣布開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio,首次在語音領域實現基于 ICL 的少樣本泛化。
據小米介紹,五年前 GPT-3 首次展示了通過自回歸語言模型 + 大規模無標注數據訓練,獲得 In-Context Learning(ICL,上下文學習)能力,而在語音領域,現有的大模型仍嚴重依賴大規模標注數據,難以適應新任務達到類人智能。
而 Xiaomi-MiMo-Audio 模型打破了這種瓶頸,它基于創新預訓練架構和上億小時訓練數據,在智商、情商、表現力與安全性在內的跨模態對齊能力均有提升,在自然度、情感表達和交互適配方面呈現出擬人化水準。
這款模型的具體創新點如下:
首次證明把語音無損壓縮預訓練 Scaling 至 1 億小時可以“涌現”出跨任務的泛化性,表現為 Few-Shot Learning 能力。

首個明確語音生成式預訓練的目標和定義,并開源一套完整的語音預訓練方案,包括無損壓縮的 Tokenizer、全新模型結構、訓練方法和評測體系。

目前小米已在 Huggingface 平臺開源了這款模型的預訓練、指令微調模型,同時在 Github 平臺開源了 Tokenizer 模型,其參數量達 1.2B,基于 Transformer 架構,支持音頻重建任務和音頻轉文本任務。
本文鏈接:http://www.www897cc.com/showinfo-45-27926-0.html小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio,對話自然度、交互適配達擬人化水準
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com