快科技2月18日消息,階躍星辰、吉利汽車集團聯合宣布,雙方合作的階躍兩款Step系列多模態大模型,正式向全球開發者開源,即日起可在躍問APP內體驗。
其中,階躍Step-Video-T2V是目前全球范圍內參數量大、性能好的開源視頻生成模型,階躍Step-Audio則是行業內首款產品級的開源語音交互大模型,堪稱懂中國話。
階躍星辰(StepFun)是吉利汽車集團的科技生態戰略合作伙伴,公司成立于2023年4月,總部位于上海,由微軟前全球副總裁姜大昕擔任CEO,致力于實現AGI(通用人工智能),2024年下半年其多模態API的調用量增長超45倍。
階躍Step-Video-T2V的參數量達到300億,可以直接生成204幀、540p分辨率的高質量視頻。
在復雜運動、美感人物、視覺想象力、基礎文字生成、原生中英雙語輸入、鏡頭語言等方面,它都具備強大的生成能力,而且語義理解和指令遵循能力突出。
網頁端體驗鏈接:https://yuewen.cn/videos
同時,階躍星辰還發布并開源了針對文生視頻質量評測的新基準數據集Step-Video-T2V-Eval,包含128條源于真實用戶的中文評測問題,可評估生成視頻在運動、風景、動物、組合概念、超現實、人物、3D動畫、電影攝影等11個內容類別上質量。
評測結果顯示,階躍Step-Video-T2V的模型性能在指令遵循、運動平滑性、物理合理性、美感度等方面的表現,均顯著超過市面上既有的效果佳的開源視頻模型。
階躍Step-Audio能夠根據不同的場景需求,生成情緒、方言、語種、歌聲和個性化風格的表達,能夠和用戶自然地高質量對話。
模型生成的語音具有超自然、高情商等特征,同時也能實現高質量的音色復刻并進行角色扮演,滿足影視娛樂、社交、游戲等行業場景下應用需求。
在LlaMA Question、Web Questions等五大主流公開測試集中,階躍Step-Audio的行均超過了行業內同類型開源模型,位列第一。
尤其是在HSK-6(漢語水平考試六級)評測中的表現尤為突出,堪稱懂中國話的開源語音交互大模型。
階躍星辰還自建并開源了多維度評估體系StepEval-Audio-360基準測試,從角色扮演、邏輯推理、生成控制、文字游戲、創作能力、指令控制等9項基礎能力的維度,對開源語音模型進行評測。
人工橫評結果顯示,階躍Step-Audio的模型能力十分均衡,且在各個維度上均超過了此前市面上效果佳的開源語音模型。
值得一提的是,Hugging Face聯合創始人、CEO Clement Delangue也對階躍星辰的大模型稱贊不已,認為他將是下一個DeepSeek。
本文鏈接:http://www.www897cc.com/showinfo-17-131192-0.html階躍星辰、吉利汽車聯合開源兩款大模型:一個參數大、一個懂中國話!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com