3 月 31 日消息,無論當(dāng)下 AI 聊天機(jī)器人有多么強(qiáng)大,都會(huì)或多或少存在一大飽受詬病的行為 —— 以看上去令人信服的方式,向用戶提供與事實(shí)不符的回答。簡單來說,AI 有時(shí)會(huì)在回答中“滿口跑火車”,甚至“造謠”。
防止 AI 大模型出現(xiàn)這種行為并非易事,且是一項(xiàng)技術(shù)性的挑戰(zhàn)。不過據(jù)外媒 Marktechpost 報(bào)道,谷歌 DeepMind 和斯坦福大學(xué)似乎找到了某種變通辦法。
研究人員推出了一種基于大語言模型的工具 —— 搜索增強(qiáng)事實(shí)評估器(注:原名為 Search-Augmented Factuality Evaluator,簡稱 SAFE),可對聊天機(jī)器人生成的長回復(fù)進(jìn)行事實(shí)核查。其研究結(jié)果與實(shí)驗(yàn)代碼、數(shù)據(jù)集現(xiàn)已公布,點(diǎn)此查看
該系統(tǒng)可通過四個(gè)步驟對聊天機(jī)器人生成的回復(fù)進(jìn)行分析、處理和評估,以驗(yàn)證準(zhǔn)確性和真實(shí)性:將答案分割成單個(gè)待核查內(nèi)容、對上述內(nèi)容進(jìn)行修正、再與谷歌搜索結(jié)果進(jìn)行比較。隨后,該系統(tǒng)還會(huì)檢查各個(gè)事實(shí)與原始問題的相關(guān)性。
為評估其性能,研究人員創(chuàng)建了包含約 16000 個(gè)事實(shí)的數(shù)據(jù)集 LongFact,并在來自 Claude、Gemini、GPT、PaLM-2 的 13 個(gè)大語言模型上測試了該系統(tǒng)。結(jié)果顯示,在對 100 個(gè)有爭議的事實(shí)進(jìn)行的重點(diǎn)分析中,SAFE 的判定在進(jìn)一步審查下正確率達(dá)到 76% 。與此同時(shí),該框架還具備經(jīng)濟(jì)性優(yōu)勢:成本比人工注釋便宜 20 多倍。
本文鏈接:http://www.www897cc.com/showinfo-45-3785-0.html防止聊天機(jī)器人“造謠”,谷歌 Deepmind、斯坦福大學(xué)研究人員推出 AI 事實(shí)核查工具
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 保時(shí)捷逐步淘汰燃油跑車,純電動(dòng)718呼之欲出
下一篇: Databricks 推出 1320 億參數(shù)大語言模型 DBRX,號稱“現(xiàn)階段最強(qiáng)開源 AI”