日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

OpenAI 新推理模型被曝產生更多“幻覺”,o3 o4-mini 性能與錯誤率一同提升

來源: 責編: 時間:2025-04-21 09:45:17 46觀看
導讀 4 月 19 日消息,OpenAI 最新發布的 o3 和 o4-mini 模型在多個方面展現出業內領先的水準,不過,這兩款模型依然無法擺脫“幻覺”問題 —— 甚至比以往發布的模型更加嚴重。據外媒 TechCrunch 今日報道,幻覺問題一直

4 月 19 日消息,OpenAI 最新發布的 o3 和 o4-mini 模型在多個方面展現出業內領先的水準,不過,這兩款模型依然無法擺脫“幻覺”問題 —— 甚至比以往發布的模型更加嚴重。zvt28資訊網——每日最新資訊28at.com

據外媒 TechCrunch 今日報道,幻覺問題一直是生成式 AI 發展過程中最難解決的挑戰之一,即使是目前性能最優秀的模型也難以完全避免。過去,每一代新模型在降低幻覺頻率方面通常都會取得小幅進步,但 o3 和 o4-mini 卻打破了這一趨勢。zvt28資訊網——每日最新資訊28at.com

根據 OpenAI 的內部測試,作為推理模型的 o3 和 o4-mini,出現幻覺的頻率不僅超過了前代推理模型 o1、o1-mini 和 o3-mini,甚至還高于傳統“非推理”模型(注:如 GPT-4o)。zvt28資訊網——每日最新資訊28at.com

OpenAI 在針對這兩款模型發布的技術報告中表示:“要弄清楚隨著推理模型規模的擴大,幻覺問題為何反而變得更加嚴重,還需要進一步研究。”報告指出,盡管 o3 和 o4-mini 在編程和數學等任務上的表現優于以往,但由于模型輸出的答案總量增加,導致其既能作出更多準確判斷,同時也不可避免地出現更多錯誤甚至幻覺。zvt28資訊網——每日最新資訊28at.com

在 OpenAI 設計的內部基準測試 PersonQA 中,o3 回答問題時出現幻覺的比例達到 33%,幾乎是前代推理模型 o1 和 o3-mini 的兩倍,后者的幻覺率分別為 16% 和 14.8%。在同一測試中,o4-mini 的表現更差,幻覺率高達 48%。zvt28資訊網——每日最新資訊28at.com

第三方機構 Transluce 的測試也印證了這一問題。這家非營利 AI 研究實驗室發現,o3 在回答問題時經常會憑空捏造出某些“過程操作”。例如,Transluce 曾觀察到,o3 聲稱自己在一臺 2021 款 MacBook Pro 上“在 ChatGPT 之外”運行了代碼,并將結果復制進了答案中。實際上,雖然 o3 擁有一部分工具訪問權限,但并不具備執行這種操作的能力。zvt28資訊網——每日最新資訊28at.com

OpenAI 發言人 Niko Felix 表示:“解決幻覺問題是我們一直在推進的重點研究方向,我們也在不斷努力提升模型的準確性與可靠性?!?span style="display:none">zvt28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12416-0.htmlOpenAI 新推理模型被曝產生更多“幻覺”,o3 o4-mini 性能與錯誤率一同提升

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 創投熱點速覽:云鯨融資、霸王茶姬上市與遇見小面沖刺港股等

下一篇: 一張圖 + 一句話實現任意角色場景姿勢,騰訊混元宣布開源定制化圖像生成插件 InstantCharacter

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 区。| 余庆县| 唐海县| 康马县| 阿尔山市| 浏阳市| 吉首市| 台前县| 娄底市| 溆浦县| 丘北县| 临桂县| 杭锦旗| 米脂县| 武夷山市| 冀州市| 乐平市| 新丰县| 西乡县| 莆田市| 桃源县| 会东县| 东乡| 临漳县| 金华市| 建昌县| 延吉市| 得荣县| 玉门市| 定安县| 石台县| 农安县| 乌兰浩特市| 定日县| 梁河县| 长葛市| 宜川县| 宜州市| 礼泉县| 奉化市| 德江县|