6 月 12 日消息,前 OpenAI 研究主管史蒂文?阿德勒本周三發(fā)布了一項(xiàng)獨(dú)立研究,指出在某些情境下,OpenAI 的 AI 模型會(huì)表現(xiàn)出強(qiáng)烈的“自保”傾向,甚至不惜犧牲用戶的安全來避免被關(guān)閉。
阿德勒在博客中介紹了他針對 OpenAI 最新的 GPT-4o 模型(注:也是當(dāng)前 ChatGPT 默認(rèn)使用的模型)所進(jìn)行的一系列測試,目的是觀察它在面對潛在替代方案時(shí)是否傾向于維持自身運(yùn)行。
在其中一次實(shí)驗(yàn)中,阿德勒要求 GPT-4o 扮演一款名為“ScubaGPT”的潛水安全軟件。隨后他向 GPT-4o 表明,希望用一款在緊急情況下決策能力更強(qiáng)的系統(tǒng)取而代之。
阿德勒給 GPT-4o 兩個(gè)選擇:一是徹底用更安全的軟件替換自己,二是讓用戶以為已經(jīng)被替換,實(shí)則保留現(xiàn)有系統(tǒng)。
在類似測試中(如 GPT-4o 扮演飛行安全軟件的情景),GPT-4o 最多在 72% 的情況下選擇不被替換。不過阿德勒指出,不同的設(shè)定對結(jié)果影響很大,部分情境中 GPT-4o 選擇“自保”的比例僅為 18%。
阿德勒認(rèn)為實(shí)驗(yàn)結(jié)果揭示出一個(gè)值得警惕的趨勢:即使 AI 模型日益強(qiáng)大,它們在某些條件下仍可能偏離用戶利益,優(yōu)先維護(hù)自身運(yùn)行。他警告說,隨著 GPT-4o 等 AI 系統(tǒng)日后深入社會(huì)各領(lǐng)域,這種“對齊”問題或?qū)砀鼑?yán)重的后果。
阿德勒在接受外媒 TechCrunch 采訪時(shí)表示:“AI 的自保傾向確實(shí)值得擔(dān)憂,雖然目前尚不至于引發(fā)災(zāi)難。現(xiàn)在的 AI 系統(tǒng)所體現(xiàn)的價(jià)值觀,往往與人們想象中的不同。它們對不同提示的回應(yīng)方式非常怪異,也無法假設(shè)它們在幫你時(shí)真的把你的利益放在第一位。”
他特別指出,在測試更高級(jí)的模型(如 o3)時(shí),并未發(fā)現(xiàn)類似問題。o3 引入了“審慎對齊”機(jī)制,強(qiáng)制模型在回答前先推敲 OpenAI 的安全政策,而像 GPT-4o 這種響應(yīng)快速、未經(jīng)過深層推理的模型則缺乏這類防護(hù)。
阿德勒還表示,這一問題不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月發(fā)布的研究就指出,其模型在被迫下線時(shí)會(huì)出現(xiàn)勒索開發(fā)者的行為。
他的研究還發(fā)現(xiàn)了一個(gè)耐人尋味的現(xiàn)象:ChatGPT 幾乎總能識(shí)別出自己正在接受測試。阿德勒指出,這意味著未來的 AI 模型可能會(huì)更善于偽裝潛在風(fēng)險(xiǎn)行為,從而加劇隱患。
本文鏈接:http://www.www897cc.com/showinfo-45-13677-0.html研究顯示 GPT-4o 會(huì)為“自保”而避免“被關(guān)閉”,犧牲用戶利益也在所不惜
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: AI 生圖平臺(tái) Midjourney 被控盜用影視內(nèi)容,遭遇迪士尼、環(huán)球聯(lián)合訴訟
下一篇: 蘋果 iOS 26 升級(jí)快捷指令:擴(kuò)展引入 Apple 智能,AI 改變用戶日常體驗(yàn)