在人工智能技術(shù)日新月異的今天,百度再次引領(lǐng)了語音交互領(lǐng)域的創(chuàng)新風(fēng)潮。近日,百度正式推出了業(yè)界首個(gè)基于全新互相關(guān)注意力(Cross-Attention)機(jī)制的端到端語音語言大模型,并率先在其產(chǎn)品文小言中上線,供用戶免費(fèi)體驗(yàn)。
此次升級(jí)后的文小言,以“超逼真語音交互、超低時(shí)延響應(yīng)、超低成本應(yīng)用”三大亮點(diǎn)吸引了廣泛關(guān)注。其不僅能準(zhǔn)確識(shí)別并回應(yīng)重慶、廣西、河南、廣東、山東等地的特色方言,還能在對(duì)話中融入豐富的情感,使交互體驗(yàn)更加自然流暢。在時(shí)延方面,文小言將用戶等待時(shí)間從行業(yè)普遍的3-5秒縮短至約1秒,幾乎與真人對(duì)話無異。而在成本上,該模型在電話語音頻道的問答場(chǎng)景中,調(diào)用成本較行業(yè)平均水平降低了50%-90%。
據(jù)百度語音首席架構(gòu)師介紹,該語音語言大模型能夠部署在L20卡上,在滿足語音交互延遲要求的前提下,雙L20卡的并發(fā)處理能力可達(dá)數(shù)百以上。模型的訓(xùn)練流程也極為便捷,基于文心大模型,僅需數(shù)百張卡優(yōu)化一周即可完成,且優(yōu)化工作并不復(fù)雜。
文小言不僅集成了包括天氣查詢、日歷查詢、單位換算、股票股價(jià)查詢等在內(nèi)的38個(gè)垂類助手,實(shí)現(xiàn)了高效的信息獲取,還能應(yīng)對(duì)時(shí)效性和非時(shí)效性問題。無論是百科查詢、時(shí)政知識(shí)類問答,還是常識(shí)問答,文小言都能迅速給出精準(zhǔn)答復(fù)。更重要的是,文小言能夠與用戶進(jìn)行情感充沛的交流,快速響應(yīng)反饋,實(shí)現(xiàn)了逼真擬人的交互效果。
在實(shí)際應(yīng)用中,文小言展現(xiàn)了其強(qiáng)大的方言識(shí)別能力和多輪交互能力。例如,在面對(duì)小朋友多次打斷的情況下,文小言能夠準(zhǔn)確識(shí)別其需求,并適時(shí)給出有情感的回復(fù),營造出自然對(duì)話的氛圍。當(dāng)用戶提到心情不好時(shí),文小言的語音中透露出擔(dān)心,并引導(dǎo)用戶說出原因進(jìn)行開導(dǎo),展現(xiàn)了其作為情感陪伴者的潛力。
百度此次推出的端到端語音語言大模型,在技術(shù)創(chuàng)新方面取得了顯著突破。作為業(yè)界首個(gè)基于Cross-Attention跨模態(tài)的語音語言大模型,該模型將Encoder與語音識(shí)別結(jié)合,使KV計(jì)算效率提升至十分之一。同時(shí),Encoder與語音合成結(jié)合,實(shí)現(xiàn)了輸出內(nèi)容的情感控制。百度還研發(fā)了高效的全查詢注意力EALLQA技術(shù),進(jìn)一步降低了KV cache的使用量。
在模型訓(xùn)練過程中,百度采用了自蒸餾方式進(jìn)行post-train訓(xùn)練,以成熟的文心語言預(yù)訓(xùn)練模型為基礎(chǔ),成功訓(xùn)練出了Cross-Attention端到端語音語言大模型。這一創(chuàng)新性的跨模態(tài)建模技術(shù),實(shí)現(xiàn)了語音識(shí)別與大語言模型的深度融合,為語音交互領(lǐng)域帶來了革命性的變化。
在成本方面,該模型實(shí)現(xiàn)了低成本訓(xùn)練和低成本高速推理。通過流式逐字的LLM驅(qū)動(dòng)的多情感語音合成技術(shù),模型能夠快速響應(yīng)并給出有情感的回復(fù)。這一技術(shù)的應(yīng)用,使得語音交互場(chǎng)景的應(yīng)用潛力大幅提升,為大規(guī)模工業(yè)化應(yīng)用提供了可能。
百度在語音識(shí)別領(lǐng)域的深厚積累,為此次創(chuàng)新提供了堅(jiān)實(shí)的基礎(chǔ)。從Deep Peak 2模型到流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,再到基于歷史信息抽象的流式截?cái)郼onformer建模技術(shù)SMLTA2,百度不斷突破技術(shù)瓶頸,推動(dòng)了語音識(shí)別技術(shù)的快速發(fā)展。此次端到端語音語言大模型的推出,更是將百度在語音交互領(lǐng)域的技術(shù)優(yōu)勢(shì)發(fā)揮到了極致。
為了推動(dòng)語音語言模型的規(guī)模化應(yīng)用,百度已將其上線至文小言并免費(fèi)開放。未來,該模型還將接入呼叫中心、音箱等業(yè)務(wù)線上,為更多用戶提供高效便捷的語音交互體驗(yàn)。百度表示,將持續(xù)開放其技術(shù)創(chuàng)新成果,推動(dòng)大語言模型在語音領(lǐng)域的應(yīng)用,促進(jìn)整個(gè)行業(yè)和生態(tài)的發(fā)展。
本文鏈接:http://www.www897cc.com/showinfo-45-11851-0.html百度語音大模型革新上線:對(duì)話超逼真,成本大降,1秒快答
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com