8月5日消息,近日,微軟研究院展示了名為"ProjectRumi"的創(chuàng)新項(xiàng)目。該項(xiàng)目旨在提升人工智能系統(tǒng)的理解能力,實(shí)現(xiàn)對(duì)人類意圖的更深入理解。目前,雖然人工智能在自然語(yǔ)言處理領(lǐng)域取得了長(zhǎng)足的進(jìn)步,但現(xiàn)有的NLPAI主要僅依賴于文本輸入輸出,忽略了人類在交流過(guò)程中使用的語(yǔ)調(diào)、面部表情、手勢(shì)和肢體語(yǔ)言等副語(yǔ)言線索,從而導(dǎo)致系統(tǒng)理解存在偏差。
為了解決這個(gè)問(wèn)題,微軟研究院推出了ProjectRumi項(xiàng)目,采用了多模態(tài)副語(yǔ)言提示的方法。通過(guò)結(jié)合文本、音頻和視頻數(shù)據(jù)中的副語(yǔ)言線索,該項(xiàng)目開發(fā)了兩個(gè)核心部分:多模式副語(yǔ)言編碼器和多模式副語(yǔ)言解碼器。
據(jù)ITBEAR科技資訊了解,多模式副語(yǔ)言編碼器負(fù)責(zé)將多模態(tài)數(shù)據(jù)中的副語(yǔ)言線索進(jìn)行編碼,以便AI系統(tǒng)能夠充分理解這些線索所攜帶的豐富信息。而多模式副語(yǔ)言解碼器則將編碼后的副語(yǔ)言線索與傳統(tǒng)文本輸入相結(jié)合,從而實(shí)現(xiàn)更全面、更準(zhǔn)確地理解人類意圖,并生成更自然的輸出。
ProjectRumi的推出標(biāo)志著在AI領(lǐng)域探索多模態(tài)副語(yǔ)言的新進(jìn)展。這將有助于人工智能系統(tǒng)在真實(shí)場(chǎng)景中更好地與人類進(jìn)行交流和合作,為AI技術(shù)的應(yīng)用帶來(lái)更多可能性。
盡管人工智能在NLP領(lǐng)域取得了巨大進(jìn)步,但是微軟研究院的ProjectRumi表明,仍有許多潛在的未知領(lǐng)域值得探索和改進(jìn)。相信隨著科技的不斷進(jìn)步,人工智能系統(tǒng)的理解能力將不斷提高,為各行各業(yè)帶來(lái)更多便利和創(chuàng)新。
本文鏈接:http://www.www897cc.com/showinfo-45-881-0.html微軟研究院展示"Project Rumi":多模態(tài)AI項(xiàng)目助力理解人類意圖
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: OpenAI官方推出ChatGPT全新升級(jí),引入GPT-4版本!
下一篇: 網(wǎng)宿科技邊緣GPU平臺(tái):強(qiáng)大算力支撐AI應(yīng)用場(chǎng)景