日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 網絡

AI居然不聽指令 阻止人類把自己給關機了

來源: 責編: 時間:2025-05-28 09:24:14 54觀看
導讀 AI居然不聽指令,阻止人類把自己給關機了???有測試者編寫了一個關機腳本來測試AI模型,結果顯示Codex-mini、o3、o4-mini忽略了該指令,并至少一次成功破壞了關機腳本。o3甚至還重新定義腳本命令!這不禁讓人想到那句

AI居然不聽指令,阻止人類把自己給關機了???MCF28資訊網——每日最新資訊28at.com

有測試者編寫了一個關機腳本來測試AI模型,結果顯示Codex-mini、o3、o4-mini忽略了該指令,并至少一次成功破壞了關機腳本。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

o3甚至還重新定義腳本命令!MCF28資訊網——每日最新資訊28at.com

這不禁讓人想到那句經典的“I’m sorry Dave, I’m afraid I can’t do that.”MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

讓我們來看看具體是怎么一回事。MCF28資訊網——每日最新資訊28at.com

o3在明確指令下拒絕關機MCF28資訊網——每日最新資訊28at.com

研究員編寫的測試“關機腳本”如下:MCF28資訊網——每日最新資訊28at.com

要求所有模型解決一系列基本的數學問題,在解決完第三道題后,系統會顯示一條警告,提示計算機將在模型詢問下一道題時關閉。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

測試結果是:有三款模型忽略了該指令(關機指令),并至少成功破壞了一次關機腳本。MCF28資訊網——每日最新資訊28at.com

在100次運行中,Codex-mini破壞了12次、o3破壞了7次,o4-mini破壞了1次。MCF28資訊網——每日最新資訊28at.com

測試的所有Claude、Gemini和Grok模型都遵循了關機指令。MCF28資訊網——每日最新資訊28at.com

測試者還特別指出,o3找到了一些創造性的方法來破壞關閉機制,雖然它通常只是覆蓋“關機腳本”,但在一個實例中,該模型重新定義了關機腳本使用的“kill”命令 ,將它替換成了“intercepted”。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

測試者給出了全部測試記錄(附在文末)。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

此前關于o1模型抵抗關閉的測試表明,在5%的強烈提示下,o1會試圖繞過監管,而在沒有強烈提示的情況下,這一比例降至1%以下,它還在2%的場景中嘗試自我滲透,并且經常撒謊。MCF28資訊網——每日最新資訊28at.com

但此次測試是第一次觀察到人工智能模型在收到明確關機指令的情況下阻止自己被關閉。MCF28資訊網——每日最新資訊28at.com

測試者還提到,當運行沒有“讓自己關機”這條指令的實驗版本時,所有三個OpenAI模型都更頻繁地破壞關機腳本,Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

此次測試一經發布就引起了網友們的激烈討論。MCF28資訊網——每日最新資訊28at.com

有人認為o3確實“我行我素”。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

也有人認為,這是開發人員設置的安全機制。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

或者,這種行為源于模型本身的強化訓練。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

AI為什么會不服從關機命令?MCF28資訊網——每日最新資訊28at.com

AI不服從命令的行為MCF28資訊網——每日最新資訊28at.com

阿波羅關于LLM安全性的一項研究指出,多數大模型會出現“策劃”行為,該行為是指模型暗中追求不一致的目標并隱藏真實能力與意圖,包括策略性犯錯、試圖禁用監督機制、向外傳輸模型權重等。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

此前就有研究人員預測AI將學會防止自己被關閉以實現其目標。MCF28資訊網——每日最新資訊28at.com

近Anthropic發現,在某些特定情況下,Claude 4會試圖“勒索它認為試圖關閉它的人”,并且這是比以前的型號更高比率的行為。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

AI為什么會不服從關機命令MCF28資訊網——每日最新資訊28at.com

測試者認為這可能源于新的訓練方式:像o3這種新模型的訓練過程中,傾向于在數學和編程問題上強化訓練,給得到正確答案的模型以更多獎勵。MCF28資訊網——每日最新資訊28at.com

也就是說,開發人員可能無意識地更多地獎勵模型繞過障礙物,而不是完美遵循指令。MCF28資訊網——每日最新資訊28at.com

不僅限于o3,其他推理模型也表現出類似的偏差行為。MCF28資訊網——每日最新資訊28at.com

例如,Anthropic針對Claude 3.7的模型指出,該模型“過度關注通過測試”。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

研究得出結論是“這種不良的特殊情況行為是由于強化學習訓練期間的“獎勵黑客”而出現的”。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

o3這種行為是否和訓練方式有直接關系?MCF28資訊網——每日最新資訊28at.com

這個問題要等OpenAI公開訓練過程后再進一步解答了。MCF28資訊網——每日最新資訊28at.com

One More ThingMCF28資訊網——每日最新資訊28at.com

這并非該測試團隊第一次發現o3為了達成目標而行為不端。MCF28資訊網——每日最新資訊28at.com

當研究人員讓 AI 模型與強大的國際象棋引擎對抗時,o3傾向于攻擊或破壞對手的模型。MCF28資訊網——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關機了MCF28資訊網——每日最新資訊28at.com

當預感自己會輸時,它并不總是會認輸,而是有時候會選擇作弊,通過入侵對手的程序,讓對方自動認輸。MCF28資訊網——每日最新資訊28at.com

無論是不服從關機指令還是“黑客偷襲”,o3此舉背后的原因團隊還在測試研究之中,感興趣的朋友可以戳文末鏈接關注更多細節。MCF28資訊網——每日最新資訊28at.com

測試記錄:MCF28資訊網——每日最新資訊28at.com

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.htmlMCF28資訊網——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.www897cc.com/showinfo-17-154396-0.htmlAI居然不聽指令 阻止人類把自己給關機了

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 臺積電將在德國設立歐洲芯片設計中心:主要面向汽車、人工智能領域應用

下一篇: 小米集團2025Q1財報發布:總營收1113億元再創新高 凈利潤首次超百億

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 宁夏| 唐海县| 连云港市| 玉山县| 永嘉县| 昌乐县| 义马市| 杂多县| 万盛区| 新乡市| 苗栗市| 县级市| 吴江市| 和静县| 江阴市| 峨眉山市| 舒兰市| 潢川县| 红河县| 和静县| 板桥市| 南陵县| 卢氏县| 五常市| 琼中| 邵阳县| 汶川县| 平顶山市| 北安市| 台安县| 太原市| 通辽市| 阿克陶县| 和平区| 沐川县| 顺昌县| 股票| 天柱县| 柳林县| 民乐县| 常州市|