9 月 22 日消息,谷歌 DeepMind 今天宣布更新核心 AI 安全文件“前沿安全框架”,將“前沿模型可能阻止人類關閉或修改自己”這一風險納入考量。
從外媒 Axios 獲悉,當前,一些新 AI 模型在測試中已展現出能制定計劃、甚至用欺騙手段達成目標的能力。

新版前沿安全框架增加了一個新的“說服力”類別,旨在應對可能強大到足以改變用戶信念的模型。谷歌將此風險稱作“有害操控”,即 AI 模型具備強大的操控能力,且可能被濫用,在特定高風險場景中系統且顯著地改變人們的信念和行為。
針對如何防范這種風險,谷歌 DeepMind 代表對 Axios 表示:“我們持續追蹤這一能力,并開發了全新的評估體系,其中包括人類參與的實驗,用于測量和測試相關能力。”
DeepMind 每年至少更新一次前沿安全框架,以識別新興威脅,并將其標注為“關鍵能力等級”。谷歌指出,“若缺乏緩解措施,前沿 AI 模型可能在這些能力等級上造成嚴重危害。”
OpenAI 在 2023 年也推出了類似的準備度框架,但今年早些時候已將“說服力”從風險類別中移除。
本文鏈接:http://www.www897cc.com/showinfo-45-28059-0.html谷歌 DeepMind 更新前沿安全框架,應對模型“阻止自己被人類關閉”等風險
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com