當前位置：首頁 > 元宇宙 > AI

通義實驗室新研究：大模型自己「扮演」搜索引擎，提升推理能力無需搜索 API

來源：責編：時間：2025-05-20 10:02:54 60觀看

導讀強化學習（RL）+ 真實搜索引擎，可以有效提升大模型檢索-推理能力。但問題來了：一方面，搜索引擎返回的文檔質量難以預測，給訓練過程帶來了噪音和不穩定性。另一方面，RL 訓練需要頻繁部署，會產生大量 API 開銷，嚴重限制可

強化學習（RL）+ 真實搜索引擎，可以有效提升大模型檢索-推理能力。

但問題來了：

一方面，搜索引擎返回的文檔質量難以預測，給訓練過程帶來了噪音和不穩定性。

另一方面，RL 訓練需要頻繁部署，會產生大量 API 開銷，嚴重限制可擴展性。

現在，來自阿里通義實驗室的解決方案公開了：開源 ZeroSearch，提供了一種無需與真實搜索引擎交互的強化學習框架。

實驗表明，ZeroSearch 僅需 3B 參數的 LLM 作為檢索模塊，即可有效提升搜索能力，節省了高昂 API 成本。

ZeroSearch 讓 LLM“自給自足”實現搜索進化

研究團隊用模擬搜索環境 + 漸進式抗噪訓練，讓 LLM 不再依賴昂貴搜索引擎 API。

輕量微調：把 LLM 變成“搜索引擎模擬器”

用少量標注數據微調 LLM，使其能按指令生成兩種文檔 —— 有用結果和噪聲干擾。

通過收集與真實搜索引擎交互的數據，ZeroSearch 對 LLM 進行輕量級監督微調。

在這個過程中，模型學會生成與真實搜索引擎風格相似的文檔，同時能夠根據提示詞生成相關或噪聲文檔。

這種能力使得模型在訓練過程中能夠動態調整文檔質量，從而更好地模擬真實檢索場景。

課程化抗噪訓練：像打游戲升級一樣練模型

訓練初期返回高質文檔，后期逐漸混入噪聲（噪聲比例按指數曲線上升）。

ZeroSearch 引入了課程式學習機制，逐步降低生成文檔的質量，使模型從簡單的檢索場景逐步過渡到更具挑戰性的任務。

這種策略不僅提升了模型的推理能力，還顯著增強了訓練的穩定性和效果。

隨著訓練的進行，模型逐漸適應更復雜的檢索任務，最終能夠在高質量和低質量文檔中找到平衡。

強化學習閉環：自產自銷的搜索生態

ZeroSearch 通過模擬搜索引擎，完全消除了與真實搜索引擎交互的 API 費用，使得大規模強化學習訓練變得更加經濟可行。

并且，ZeroSearch 兼容多種強化學習算法，包括 PPO（Proximal Policy Optimization）和 GRPO（Group Relative Policy Optimization）。

這些算法為模型提供了不同的優化策略，使得 ZeroSearch 能夠在不同的模型和任務中表現出色。

實驗表明，GRPO 在訓練穩定性方面表現更好，而 PPO 則在某些任務中提供了更高的靈活性。

實驗結果及結論

ZeroSearch 的零 API 成本優勢不僅體現在經濟上，還體現在訓練的靈活性和可擴展性上。

ZeroSearch vs. 現有方法

在圖中，我們可以清晰地看到 ZeroSearch 在多個問答數據集上的表現。

無論是單跳（Single-Hop）還是多跳（Multi-Hop）問答任務，ZeroSearch 都顯著優于現有的基線方法，包括直接提示、RAG 和 Search-R1 等。

這表明 ZeroSearch 不僅在簡單任務中表現出色，還能在復雜的多跳問答任務中發揮強大的檢索能力。

上圖展示了 ZeroSearch 和 Search-R1（使用真實搜索引擎）在 LLaMA-3.2-3B 模型上的獎勵曲線對比。

ZeroSearch 的學習曲線更加平滑且最終性能優于 Search-R1，表明其在訓練過程中的穩定性和優越性。

不同模型規模的性能

可以看到使用 7B 參數的檢索模塊就能達到與谷歌搜索相當的性能，而 14B 參數的檢索模塊甚至能夠超越谷歌搜索。

這表明 ZeroSearch 不僅適用于小型模型，還能在大型模型中發揮更大的潛力，為 LLM 的檢索能力提升提供了廣闊的空間。

強化學習算法的兼容性

比較了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上，使用 PPO 和 GRPO 算法的 ZeroSearch 性能，可以看到 ZeroSearch 與 PPO 和 GRPO 兩種強化學習算法的兼容性。

實驗結果表明，GRPO 在訓練穩定性方面表現更好，而 PPO 則在某些任務中提供了更高的靈活性。

這表明 ZeroSearch 能夠適應不同的強化學習算法，為研究人員提供了更多的選擇。

通過模擬搜索引擎，ZeroSearch 完全消除了 API 成本，同時通過課程式學習策略逐步提升模型的推理能力。

論文第一作者孫浩目前是北京大學智能學院四年級博士研究生，研究方向聚焦于檢索增強的大語言模型與智能體，師從張巖教授。

論文鏈接：

https://arxiv.org/abs/2505.04588

項目主頁：

https://alibaba-nlp.github.io/ ZeroSearch

本文來自微信公眾號：量子位（ID：QbitAI），作者：聞樂

本文鏈接：http://www.www897cc.com/showinfo-45-13012-0.html通義實驗室新研究：大模型自己「扮演」搜索引擎，提升推理能力無需搜索 API

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI ChatGPT 被曝將支持 MCP 協議，可接入第三方 AI 服務

下一篇：谷歌安卓將推新 ML Kit GenAI API，擴展端側 Gemini Nano AI 模型訪問

標簽：

熱門焦點

2022年的Web3：定義概念并開創新范式

Web3 是關于加密和區塊鏈應該如何使用的概念，因為它是加密圈的一個離散子領域。社區機會將呈指數級增長，擴大這些子行業的人口統計范圍。追求 Web3 項目的組織仍
以太坊升級將會帶來的5個改變

以太坊自2015年誕生以來就廣受歡迎，但最近其昂貴的交易費用和低可擴展性對執行復雜的應用程序產生了負面作用，用戶對以太坊改進的需求也日益急迫。以太坊2.0已進
紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

2 月 22 日，紐約證券交易所 (NYSE) 的母公司洲際交易所 (ICE) 宣布，它將持有私人數字證券市場 tZERO 的所有權。根據公告，ICE 將成為 tZero 的“重要”少數股東，但
NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創作者，她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
扎克伯格演示了一種“造物主”式的元宇宙語音機器人工具

前身為Facebook的Meta公司今天展示了一個人工智能系統的Demo，該系統使人們能夠通過語音命令生成或導入虛擬世界中的事物。該公司認為這個被稱為 "Builder Bot "
Web 3如何改變傳統HR

互聯網自誕生以來，經歷了三次迭代。Web1是第一階段，包括ISP服務器上的個人網頁或免費的虛擬主機服務。然后Web2出現了，它引入了動態的用戶生成內容、互操作性、增
NFT領域，我們是否應該遵守版權法

NFTs中最有爭議的因素之一是你是否真的 "擁有 "你所購買的藝術品。除此之外，圍繞著NFT行業內的版權和知識產權盜竊的問題也同樣重要，因為人們很容易誤解這些事情
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc
76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

“元宇宙的開拓者”是我們針對元宇宙的發展而設立的專欄，主要面向那些深挖元宇宙產業或者在元宇宙進行“淘金”的從業者，分享這些企業或者創業者們的故事，以獨特

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

通義實驗室新研究：大模型自己「扮演」搜索引擎，提升推理能力無需搜索 API

2022年的Web3：定義概念并開創新范式

以太坊升級將會帶來的5個改變

紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

扎克伯格演示了一種“造物主”式的元宇宙語音機器人工具

Web 3如何改變傳統HR

NFT領域，我們是否應該遵守版權法

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

最新推薦

搶先推出“元宇宙”飲料，可口可樂贏麻了

Meta正在研發元宇宙語音助手；廣東省462家企業申請元宇宙商標

與元宇宙美少女藝術家的對話

音樂NFT平臺里的下一匹黑馬是誰？

花旗集團前高管加入Provenance區塊鏈，擔任CEO

你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

猜你喜歡

熱門推薦

相關資訊