當前位置：首頁 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的

來源：責編：時間：2025-02-05 15:44:00 82觀看

導讀 DeepSeek 和 o1 / o3 一類推理大模型持續帶來震撼之際，有人開始研究他們的弱點了。最新研究揭示：在遇到高難度問題時，推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路，卻因缺乏深入探索而失敗 —— 這種

DeepSeek 和 o1 / o3 一類推理大模型持續帶來震撼之際，有人開始研究他們的弱點了。

最新研究揭示：在遇到高難度問題時，推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路，卻因缺乏深入探索而失敗 —— 這種現象被研究者稱為 Underthinking（欠思考）。

研究團隊來自騰訊 AI 實驗室、蘇州大學和上海交通大學，主要研究對象是開源的 DeepSeek-R1 和 Qwen QwQ 系列模型。

通過分析 AI 的錯誤答案，他們發現當前的推理大模型經常在思考早期就走上了正確的路線，但傾向于“淺嘗輒止”，很快開始探索別的思路，導致后續生成的數千個 tokens 對解題毫無貢獻。

這種“無效努力”不僅浪費計算資源，還顯著降低了答案的正確率。

“三心二意”是罪魁禍首

這一現象在解決數學競賽題等更為復雜任務時尤為明顯。

為了系統分析，團隊在三個具有挑戰性的測試集 MATH500、GPQA Diamond 和 AIME2024 上，對類 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等進行了實驗。

下圖比較了正確和錯誤回答中的 token 使用量和思維切換次數。平均來看，類 o1 模型在錯誤回答中比正確回答多消耗了 225% 的 token，原因是思維切換頻率增加了 418%。

為了深入分析這一現象，研究團隊開發了一套評估框架，用于判斷被放棄的推理路徑是否實際上足以推導出正確答案。

結果觀察到，許多模型在回答開頭階段的思路是正確的，但并未繼續深入完成推理。

超過 70% 的錯誤回答中至少包含一個正確的思路。此外，在超過 50% 的錯誤回答中，有 10% 以上的思路是正確的。

如下圖所示的例子，例如，Thought 1 通過識別給定方程類似于以 (0,0) 和 (20,11) 為中心的橢圓方程，啟動了正確的解釋。將兩個表達式設為相等，是尋找滿足這兩個方程的公共點 (x, y) 的有效方法。

然而，模型并未專注于深入探索這一合理思路，使用進一步的代數操作和優化技術進行分析，而是頻繁切換思路，額外消耗了約 7270 個 token，卻依然未能得出正確答案。

最終，它得出一個缺乏擴展 COT 過程支持的猜測答案。

基于這些觀察，研究人員提出了一個用于量化 Underthinking 程度的指標（Underthinking Metric）。

這個指標通過測量錯誤答案中的 token 使用效率來評估推理效率，計算從回答開始到第一個正確思路出現所需的 token 數量與總 token 數量的比值。

實驗結果表明，所有測試的類 o1 模型都存在顯著的思維不足問題。模型的準確率與思維不足之間的關系在不同數據集上表現各異。

在 MATH500-Hard 和 GPQA Diamond 數據集上，性能更優的 DeepSeek-R1-671B 模型在取得更高準確率的同時，其 UT 得分也更高，表明錯誤回答中存在更多思維不足。

這意味著，盡管模型整體能力更強，但在不確定時可能生成更長但效率較低的推理過程，可能是因為模型探索了多個錯誤的推理路徑，卻未能有效收斂到正確解答。

相反，在 AIME2024 測試集中，DeepSeek-R1-671B 模型不僅取得了更高的準確率，還表現出較低的 UT 得分，反映出較少的思維不足和更高的 token 效率。

這表明模型在該任務中，即使未得出正確答案，其推理過程依然保持專注和高效，團隊表示這可能是因為模型與 AIME2024 所要求的問題類型和推理過程更好地對齊。

理解思維不足現象對于開發能夠提供正確答案并具備有效推理過程的模型至關重要。

如何讓 AI 學會“一心一意”

如何讓模型像優秀學生一樣“沉下心來鉆研”？

研究者借鑒了人類考試策略，提出了一種“思路切換懲罰機制”（Thought Switching Penalty，TIP）。其原理類似于考試時給自己定規矩：“先專注當前方法，至少嘗試 10 分鐘再換思路”。

技術細節上，TIP 會對觸發思路切換的關鍵詞施加懲罰，降低這些詞在解碼過程中的生成概率，迫使模型在當前路徑上探索更久。

例如，當模型開始寫“Alternatively, we can consider…”時，TIP 會通過調整參數（懲罰強度 α 和持續時間 β），抑制這種過早的切換傾向。

實驗結果顯示，加入 TIP 能讓模型在數學測試上的準確率上升，同時 UT Score 下降，說明既減少了無效切換，又提高了答案質量。

例如在 AIME2024 數學競賽測試上，加入 TIP 的 QwQ-32B-Preview 模型準確率從 41.7% 提升至 45.8%，同時 UT Score 從 72.4 降至 68.2。

并且這種“無痛升級”無需重新訓練模型，僅需調整解碼策略，展現了其實用價值。

One More Thing

UC Berkeley 教授 Alex Dimakis 幾乎同時分享了類似的觀察，

對于 DeepSeek-R1 和所有推理模型，錯誤的答案更長，而正確的答案要短得多。

基于此，他們提出一個簡單的解決辦法，稱為“簡潔解碼”（Laconic decoding）。

并行運行 5 次模型，從答案中選擇 tokens 最少的。

初步實驗結果表示，簡潔解碼在 AIME2024 測試上能提高 6%-7% 的準確率，比 Consensus Decoding 更好也更快。

論文地址：https://arxiv.org/ abs / 2501.18585

參考鏈接：

[1]https://x.com/tuzhaopeng/status/1885179412163027406

[2]https://x.com/AlexGDimakis/status/1885447830120362099

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨西風

本文鏈接：http://www.www897cc.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： DeepSeek 威脅下，OpenAI 稱考慮開源舊 AI 模型

下一篇：小鵬汽車放大招！5年0息0首付購車，最高貼息5.7萬引關注

標簽：

熱門焦點

SQL Error: select * from ***_ecms_news13 where id in(193,27,190,168,250,104,167,150,) limit 9

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

新研究揭示 DeepSeek o3 弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的

最新推薦

從科幻走進現實，元宇宙概念逐漸清晰

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

大廠打造元宇宙平臺的業務重心是什么？

我們為什么需要Web3，距離Web3的實現還有多遠？

猜你喜歡

熱門推薦

相關資訊