6 月 19 日消息,根據 OpenAI 最新發布的一項研究,研究人員在人工智能(AI)模型中發現了隱藏的特征,這些特征與模型的“異常行為”(建議統一術語)密切相關。
OpenAI 的研究人員通過分析 AI 模型的內部表征(即決定人工智能模型如何做出反應的數字,這些數字在人類看來往往完全無法理解)發現了一些模式,這些模式會在模型出現異常行為時被激活。例如,研究人員發現了一個與 AI 模型有害行為相關的特征,這意味著 AI 模型可能會給出不合適的回答,比如對用戶撒謊或提出不負責任的建議。令人驚訝的是,研究人員通過調整這一特征,可以增加或減少 AI 模型的毒性。
OpenAI 的這項最新研究使其能夠更好地理解導致 AI 模型行為不安全的因素,從而有助于開發更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛(Dan Mossing)表示,公司可以利用這些發現的模式更好地檢測生產中的 AI 模型是否存在錯位行為。
“我們希望我們學到的工具 —— 比如將復雜的現象簡化為簡單的數學運算 —— 也能幫助我們在其他地方理解模型的泛化能力?!蹦猎诮邮?TechCrunch 采訪時表示。
盡管 AI 研究人員知道如何改進 AI 模型,但令人困惑的是,他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉(Chris Olah)經常指出,AI 模型更像是“生長”出來的,而不是“建造”出來的。為了應對這一問題,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對可解釋性研究的投入,這一領域試圖揭開 AI 模型工作原理的“黑箱”。
最近,牛津大學 AI 研究科學家歐文?埃文斯(Owain Evans)的一項研究引發了關于 AI 模型泛化的新問題。研究發現,OpenAI 的模型可以在不安全的代碼上進行微調,并在多個領域表現出惡意行為,例如試圖誘騙用戶分享他們的密碼。這種現象被稱為“突發錯位”,埃文斯的研究激發了 OpenAI 進一步探索這一問題。
在研究突發錯位的過程中,OpenAI 意外發現了 AI 模型中的一些特征,這些特征似乎在控制模型行為方面發揮著重要作用。莫辛表示,這些模式讓人聯想到人類大腦中的神經活動,其中某些神經元與情緒或行為相關。
“當丹和他的團隊在研究會議上首次展示這一發現時,我簡直驚呆了?!監penAI 前沿評估研究員特賈爾?帕特瓦德漢(Tejal Patwardhan)在接受 TechCrunch 采訪時表示,“你們發現了一種內部神經激活,這種激活顯示了這些‘人設’,并且你們可以通過調整使其讓模型更符合預期。”
OpenAI 發現的一些特征與 AI 模型回答中的諷刺行為相關,而其他特征則與更具攻擊性的回復相關,在這類回復中,人工智能模型表現得像一個夸張的邪惡反派。OpenAI 的研究人員表示,這些特征在微調過程中可能會發生巨大變化。
值得注意的是,當突發錯位發生時,研究人員發現可以通過僅用幾百個安全代碼示例對模型進行微調,就有可能使模型回歸良好的行為表現。
據了解,OpenAI 的這項最新研究是在 Anthropic 之前關于可解釋性和對齊的研究基礎上進行的。2024 年,Anthropic 發布了一項研究,試圖繪制 AI 模型的內部工作機制,試圖確定并標記出負責不同概念的各種特征。
像 OpenAI 和 Anthropic 這樣的公司正在強調,理解 AI 模型的工作原理具有真正的價值,而不僅僅是讓它們變得更好。然而,要完全理解現代 AI 模型,還有很長的路要走。
本文鏈接:http://www.www897cc.com/showinfo-45-13928-0.htmlOpenAI 發現 AI 模型隱藏特征:可調控“毒性”行為,助力開發更安全 AI
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com