亞馬遜近日震撼發布了一款名為Nova Sonic的先進生成式AI語音模型,該模型能夠直接處理并生成自然流暢的語音,標志著亞馬遜在AI語音技術上的重大突破。
據悉,Nova Sonic在速度、語音識別及對話質量等核心指標測試中,展現出了與OpenAI和谷歌頂尖語音模型相抗衡的實力。這一成就不僅是亞馬遜對諸如ChatGPT語音模式等新興AI語音模型的有力回應,也預示著AI語音交互新時代的到來。
相較于亞馬遜早期的Alexa模型,Nova Sonic在語音交互上更加自然流暢,為用戶帶來了全新的體驗。通過亞馬遜的Bedrock開發者平臺,用戶可輕松接入Nova Sonic,該平臺專為構建企業級AI應用而設計。Nova Sonic采用了一個創新的雙向流式API,進一步提升了其應用靈活性和便捷性。
亞馬遜在新聞稿中自豪地宣稱,Nova Sonic是市場上“最具成本效益”的AI語音模型,其價格相比OpenAI的GPT-4o模型便宜了約80%。這一價格優勢無疑將吸引更多開發者選擇Nova Sonic作為他們的AI語音解決方案。
據亞馬遜高級副總裁兼人工通用智能(AGI)部門首席科學家羅希特·普拉薩德介紹,Nova Sonic的部分組件已經為亞馬遜升級版數字語音助手Alexa+提供了強大動力。普拉薩德還表示,與競爭對手的AI語音模型相比,Nova Sonic在路由用戶請求到不同API方面表現出色,能夠智能地判斷何時需要從互聯網獲取實時信息、解析專有數據源或在外部應用程序中采取行動。
在雙向對話場景中,Nova Sonic展現出了極高的智能性。它會等待“合適的時機”發言,充分考慮說話者的停頓和打斷等情況,使得對話更加自然流暢。Nova Sonic還能為用戶的語音生成文本記錄,這些文本記錄可被開發者用于各種應用場景,進一步拓展了其應用潛力。
在語音識別方面,Nova Sonic同樣表現出色。據普拉薩德介紹,Nova Sonic的語音識別錯誤率比其他AI語音模型更低,即使在用戶咕噥、說錯話或處于嘈雜環境中時,也能準確理解用戶的意圖。在一項跨語言和方言的語音識別基準測試——多語言LibriSpeech中,Nova Sonic在英語、法語、意大利語、德語和西班牙語上的平均單詞錯誤率(WER)僅為4.2%,這一成績令人矚目。
在衡量多人參與的高音量互動基準測試——增強多方互動中,Nova Sonic也展現出了卓越的性能。亞馬遜稱,Nova Sonic在單詞錯誤率方面比OpenAI的GPT-4o-transcribe模型準確率高出46.7%。同時,Nova Sonic還擁有行業領先的速度,其平均感知延遲為1.09秒,比OpenAI為實時API提供動力的GPT-4o模型更快。
Nova Sonic的發布是亞馬遜構建人工通用智能(AGI)這一更廣泛戰略的重要組成部分。普拉薩德表示,亞馬遜計劃推出更多能夠理解不同模態(包括圖像、視頻和語音)的AI模型,以及“其他在將事物引入物理世界時相關的感官數據”。這一戰略無疑將推動亞馬遜在AI領域的持續創新和領先。
本文鏈接:http://www.www897cc.com/showinfo-45-12089-0.html亞馬遜發布Nova Sonic語音模型,挑戰OpenAI與谷歌前沿技術
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com