6 月 27 日消息,騰訊今日宣布,該公司主導的新一代實時語音編碼行業標準 AVS3P10 完成定稿,即將正式對外發布。
此次 AVS 音頻組 AVS3P10 標準采納了騰訊側方案,以騰訊會議首款自研神經網絡語音編解碼器 Penguins AI 語音引擎為原型,可提升弱網環境下的通話質量。
騰訊介紹稱,這是全球首個系統性引入人工智能并實現低碼率下高質量語音編碼標準,表現達到國際一流水準。僅需 1/3 的編碼碼率,就能實現和現有主流標準同等清晰的音質。“即使網絡卡如 2G,也能順暢開會”。
該標準由騰訊提議啟動、推進和維護,經過 AVS 音頻組多家成員單位共同貢獻。“今后在線上會議、語音通話等實時音頻場景,帶寬要求大幅降低。即使在電梯、地庫、隧道等網絡很差的環境,也能實現清晰流暢的語音通話?!?span style="display:none">OmK28資訊網——每日最新資訊28at.com
據介紹,在有限的帶寬條件下,想要將聲音高質量傳遞到接收方,壓縮原始數據、去除冗余信息的語音編碼技術是其中關鍵。然而,基于 EVS、OPUS 等現有主流音頻編解碼標準,當碼率降低到 10kbps 以下時,語音質量下降明顯,影響用戶體驗。
為應對該挑戰,騰訊會議天籟實驗室聯合騰訊 AI Lab 自研了騰訊首款神經網絡語音編解碼器 ——Penguins。
具體來說,Penguins 將 AI 與傳統技術融合,打破傳統香農定律的性能極限,引入大數據并在可控算力增量下提供了新的性能上界,從而對下一代通信系統,尤其是信源編碼器部分,提供了新的技術基礎和方法論。通過 AI 語音信號建模,提取最核心的特征參數編碼,再借助深度學習網絡,預測并重建語音中的細微結構,最終生成逼真的音頻波形。
多方測試表明,騰訊提交的 AVS3P10 標準實現了 6kbps 下的高質量語音通信,即使在“2G”網絡下也能實現清晰通話,且主觀質量非常接近原始參考信號,媲美國際主流的 OPUS 標準在 20kbps 的質量。同時,主觀質量對標傳統編碼的中高碼率情況下,編碼效率提升 200-300%。
2021 年起,Penguins 音頻編碼器就在騰訊會議的駕駛模式、弱網模式及 QQ 語音通話等場景中投入規模應用。
2023 年 3 月,騰訊團隊在 AVS 音頻組提議并參與標準制定,即 AVS3P10 實時語音編碼標準。隨后,騰訊提交基于 Penguins 的候選技術;經過 AVS 音頻組交叉驗證后采納。2024 年 6 月,AVS3P10 實時語音編碼標準正式完成標準化工作,進入公示階段。
IT酷哥注:從 2002 年 6 月我國成立 AVS 工作組開始,十多年來上千人的團隊努力,我國自主知識產權的 AVS 應運而生。AVS3 是全球首個已推出的面向 8K 及 5G 產業應用的視頻編碼標準。
AVS 國際組長鄭建鏵此前透露,AVS 已經啟動 AVS4 的標準制定,并呼吁 AVS 成員單位繼續支持 AVS 下一代標準開發工作,各個廠商聯合起來,一起實現技術標準共同出海,推動全球化部署。
本文鏈接:http://www.www897cc.com/showinfo-26-96832-0.html電梯、地庫里通話不卡頓,騰訊主導新一代實時語音編碼行業標準 AVS3P10 即將發布
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com