快科技9月1日消息,OpenAI正式發布語音模型GPT-realtime。
據介紹,GPT-realtime是一款專注于語音AI Agent的多模態模型,能夠生成高度自然流暢的語音,精準還原人類語調、情感和語速的豐富變化。該模型支持圖像理解,并可結合語音或文本對話使用,非常適合應用于客服、教育、金融、醫療等領域,用于構建高質量的語音智能體。

官方表示,新模型在復雜指令遵循、工具精確調用以及生成更自然、更具表現力的語音方面表現卓越。尤其在重復字母與數字、逐字朗讀免責聲明、語句間無縫切換語言等場景中,GPT-realtime展現出優秀的適應能力。
該模型還具備出色的上下文理解能力,可準確捕捉非語言線索(如笑聲),并實時調整語音語氣,實現諸如“帶法國口音的友好語調”或“語速較快的專業語調”等多樣化表達。
此外,GPT-realtime新增了“Cedar”和“Marin”兩種語音風格,并對現有八種語音效果進行了全面優化。

本文鏈接:http://www.www897cc.com/showinfo-17-179524-0.htmlOpenAI發布語音模型GPT-realtim:具備情感感知能力 多語言無縫切換
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com