11 月 14 日消息,“訊飛開放平臺”公眾號今天傍晚宣布,訊飛星火多模態(tài)交互大模型正式上線,其實現(xiàn)從語音交互拓展到音視頻流實時多模交互,新增“多模態(tài)、超擬人和個性化”能力,實現(xiàn)語音、視覺、數(shù)字人交互三合一,支持一鍵調(diào)用。
據(jù)介紹,訊飛星火多模態(tài)交互大模型首發(fā)超擬人數(shù)字人技術(shù),數(shù)字人軀干和四肢動作能夠精準匹配語音內(nèi)容,快速生成表情和動作,令 AI“栩栩如生”。通過統(tǒng)一文本、語音和表情,能夠?qū)崿F(xiàn)跨模態(tài)的語義一致性,從而使大模型情感表達真實連貫。
其支持超擬人極速交互,采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)語音到語音的端到端建模,響應(yīng)更快速、流暢,可敏銳感知情緒變化,也可根據(jù)指令自由變換聲音的節(jié)奏、大小和人設(shè)。
其支持多模態(tài)視覺交互,能夠“聽懂世界”“認清萬物”,更全面感知具體背景場景、物流狀態(tài)等信息,對任務(wù)的理解更加精準,并通過語音、手勢、行為、情緒等進行綜合判斷,作出合適的回復(fù)。
據(jù)此前報道,用戶可與數(shù)字人進行語音、視頻通話,數(shù)字人可實現(xiàn)與用戶的自然語音對話,人物表情等也能夠匹配說話的語句。星火超擬人數(shù)字人還支持多模態(tài)交互,可讓數(shù)字人識別攝像頭中的內(nèi)容,比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。
本文鏈接:http://www.www897cc.com/showinfo-45-9442-0.html訊飛星火多模態(tài)交互大模型上線,數(shù)字人、語音、視覺支持一鍵調(diào)用
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com