亞馬遜公司(Amazon)在年度云科技盛會AWS re: Invent上宣布,其語音轉(zhuǎn)文字平臺Amazon Transcribe將支持100種口語語言,這一突破得益于生成式人工智能(Generative AI)技術(shù)的驅(qū)動。同時,AWS還推出了多項AI功能,包括通話轉(zhuǎn)錄(call transcription)等。
據(jù)The Verge報道,Amazon Transcribe是一種完全受管控的自動語音識別(ASR)服務(wù)。它基于生成式AI和數(shù)十億個參數(shù)的語音基礎(chǔ)模型(speech foundation model),可以提供超過100種語言的語音轉(zhuǎn)文字服務(wù),同時提供更準(zhǔn)確的標(biāo)點和大小寫格式,以提高可讀性。此外,對于電話語音轉(zhuǎn)文字的正確性提高了30-70%。
新的語音基礎(chǔ)模型是以數(shù)百萬小時、超過100種語言的無標(biāo)記語音數(shù)據(jù)為基礎(chǔ)進行訓(xùn)練的。這種模型通過自我監(jiān)督式演算法學(xué)習(xí)人們用不同語言和口音說話的普遍模式。此外,為了確保非常規(guī)語言和常規(guī)語言的語音轉(zhuǎn)文字都能達到高正確性,AWS通過智能數(shù)據(jù)采樣最佳化訓(xùn)練數(shù)據(jù)以平衡各種語言的代表性。
在2022年后期,Amazon Transcribe支持的語言數(shù)量已經(jīng)達到了79種,還具備自動語言識別、自動標(biāo)點、定制化詞匯等功能。同時,它能夠識別嘈雜環(huán)境以及音頻和視頻格式中的語音。根據(jù)AWS的統(tǒng)計,語音基礎(chǔ)模型讓多數(shù)語言在Amazon Transcribe進行語音轉(zhuǎn)文字的正確性顯著提升了20-50%。
此外,AWS還宣布了Amazon Personalization產(chǎn)品的兩項新功能,包括能夠根據(jù)用戶過去的觀看行為推薦新節(jié)目的Amazon Personalization以及能夠撰寫傳送到主題建議列表的標(biāo)題或電子郵件主旨的Content Generation。
在競爭激烈的市場中,Otter.ai主要面向普通消費者和企業(yè)用戶提供AI語音轉(zhuǎn)文字服務(wù),并于2023年6月推出了總結(jié)工具;而Meta Platforms也在開發(fā)一種基于生成式AI、能夠識別近100種口語語言的翻譯模型。
本文鏈接:http://www.www897cc.com/showinfo-27-35478-0.htmlAmazon Transcribe利用生成式AI支持100種語言
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: ispace新登月載具:月面運輸革新