日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

通義實驗室新研究:大模型自己「扮演」搜索引擎,提升推理能力無需搜索 API

來源: 責編: 時間:2025-05-20 10:02:54 23觀看
導讀 強化學習(RL)+ 真實搜索引擎,可以有效提升大模型檢索-推理能力。但問題來了:一方面,搜索引擎返回的文檔質量難以預測,給訓練過程帶來了噪音和不穩定性。另一方面,RL 訓練需要頻繁部署,會產生大量 API 開銷,嚴重限制可

強化學習(RL)+ 真實搜索引擎,可以有效提升大模型檢索-推理能力。FEr28資訊網——每日最新資訊28at.com

但問題來了:FEr28資訊網——每日最新資訊28at.com

一方面,搜索引擎返回的文檔質量難以預測,給訓練過程帶來了噪音和不穩定性。FEr28資訊網——每日最新資訊28at.com

另一方面,RL 訓練需要頻繁部署,會產生大量 API 開銷,嚴重限制可擴展性。FEr28資訊網——每日最新資訊28at.com

現在,來自阿里通義實驗室的解決方案公開了:開源 ZeroSearch,提供了一種無需與真實搜索引擎交互的強化學習框架。FEr28資訊網——每日最新資訊28at.com

實驗表明,ZeroSearch 僅需 3B 參數的 LLM 作為檢索模塊,即可有效提升搜索能力,節省了高昂 API 成本。FEr28資訊網——每日最新資訊28at.com

FEr28資訊網——每日最新資訊28at.com

ZeroSearch 讓 LLM“自給自足”實現搜索進化

研究團隊用模擬搜索環境 + 漸進式抗噪訓練,讓 LLM 不再依賴昂貴搜索引擎 API。FEr28資訊網——每日最新資訊28at.com

FEr28資訊網——每日最新資訊28at.com

輕量微調:把 LLM 變成“搜索引擎模擬器”

用少量標注數據微調 LLM,使其能按指令生成兩種文檔 —— 有用結果和噪聲干擾。FEr28資訊網——每日最新資訊28at.com

FEr28資訊網——每日最新資訊28at.com

通過收集與真實搜索引擎交互的數據,ZeroSearch 對 LLM 進行輕量級監督微調。FEr28資訊網——每日最新資訊28at.com

在這個過程中,模型學會生成與真實搜索引擎風格相似的文檔,同時能夠根據提示詞生成相關或噪聲文檔。FEr28資訊網——每日最新資訊28at.com

這種能力使得模型在訓練過程中能夠動態調整文檔質量,從而更好地模擬真實檢索場景。FEr28資訊網——每日最新資訊28at.com

課程化抗噪訓練:像打游戲升級一樣練模型

訓練初期返回高質文檔,后期逐漸混入噪聲(噪聲比例按指數曲線上升)。FEr28資訊網——每日最新資訊28at.com

ZeroSearch 引入了課程式學習機制,逐步降低生成文檔的質量,使模型從簡單的檢索場景逐步過渡到更具挑戰性的任務。FEr28資訊網——每日最新資訊28at.com

這種策略不僅提升了模型的推理能力,還顯著增強了訓練的穩定性和效果。FEr28資訊網——每日最新資訊28at.com

FEr28資訊網——每日最新資訊28at.com

FEr28資訊網——每日最新資訊28at.com

隨著訓練的進行,模型逐漸適應更復雜的檢索任務,最終能夠在高質量和低質量文檔中找到平衡。FEr28資訊網——每日最新資訊28at.com

強化學習閉環:自產自銷的搜索生態

ZeroSearch 通過模擬搜索引擎,完全消除了與真實搜索引擎交互的 API 費用,使得大規模強化學習訓練變得更加經濟可行。FEr28資訊網——每日最新資訊28at.com

并且,ZeroSearch 兼容多種強化學習算法,包括 PPO(Proximal Policy Optimization)和 GRPO(Group Relative Policy Optimization)。FEr28資訊網——每日最新資訊28at.com

這些算法為模型提供了不同的優化策略,使得 ZeroSearch 能夠在不同的模型和任務中表現出色。FEr28資訊網——每日最新資訊28at.com

實驗表明,GRPO 在訓練穩定性方面表現更好,而 PPO 則在某些任務中提供了更高的靈活性。FEr28資訊網——每日最新資訊28at.com

實驗結果及結論

ZeroSearch 的零 API 成本優勢不僅體現在經濟上,還體現在訓練的靈活性和可擴展性上。FEr28資訊網——每日最新資訊28at.com

ZeroSearch vs. 現有方法

FEr28資訊網——每日最新資訊28at.com

在圖中,我們可以清晰地看到 ZeroSearch 在多個問答數據集上的表現。FEr28資訊網——每日最新資訊28at.com

無論是單跳(Single-Hop)還是多跳(Multi-Hop)問答任務,ZeroSearch 都顯著優于現有的基線方法,包括直接提示、RAG 和 Search-R1 等。FEr28資訊網——每日最新資訊28at.com

這表明 ZeroSearch 不僅在簡單任務中表現出色,還能在復雜的多跳問答任務中發揮強大的檢索能力。FEr28資訊網——每日最新資訊28at.com

FEr28資訊網——每日最新資訊28at.com

上圖展示了 ZeroSearch 和 Search-R1(使用真實搜索引擎)在 LLaMA-3.2-3B 模型上的獎勵曲線對比。FEr28資訊網——每日最新資訊28at.com

ZeroSearch 的學習曲線更加平滑且最終性能優于 Search-R1,表明其在訓練過程中的穩定性和優越性。FEr28資訊網——每日最新資訊28at.com

不同模型規模的性能

FEr28資訊網——每日最新資訊28at.com

可以看到使用 7B 參數的檢索模塊就能達到與谷歌搜索相當的性能,而 14B 參數的檢索模塊甚至能夠超越谷歌搜索。FEr28資訊網——每日最新資訊28at.com

這表明 ZeroSearch 不僅適用于小型模型,還能在大型模型中發揮更大的潛力,為 LLM 的檢索能力提升提供了廣闊的空間。FEr28資訊網——每日最新資訊28at.com

強化學習算法的兼容性

FEr28資訊網——每日最新資訊28at.com

比較了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上,使用 PPO 和 GRPO 算法的 ZeroSearch 性能,可以看到 ZeroSearch 與 PPO 和 GRPO 兩種強化學習算法的兼容性。FEr28資訊網——每日最新資訊28at.com

實驗結果表明,GRPO 在訓練穩定性方面表現更好,而 PPO 則在某些任務中提供了更高的靈活性。FEr28資訊網——每日最新資訊28at.com

這表明 ZeroSearch 能夠適應不同的強化學習算法,為研究人員提供了更多的選擇。FEr28資訊網——每日最新資訊28at.com

通過模擬搜索引擎,ZeroSearch 完全消除了 API 成本,同時通過課程式學習策略逐步提升模型的推理能力。FEr28資訊網——每日最新資訊28at.com

論文第一作者孫浩目前是北京大學智能學院四年級博士研究生,研究方向聚焦于檢索增強的大語言模型與智能體,師從張巖教授。FEr28資訊網——每日最新資訊28at.com

論文鏈接:FEr28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2505.04588FEr28資訊網——每日最新資訊28at.com

項目主頁:FEr28資訊網——每日最新資訊28at.com

https://alibaba-nlp.github.io/ ZeroSearchFEr28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:聞樂FEr28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-13012-0.html通義實驗室新研究:大模型自己「扮演」搜索引擎,提升推理能力無需搜索 API

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI ChatGPT 被曝將支持 MCP 協議,可接入第三方 AI 服務

下一篇: 谷歌安卓將推新 ML Kit GenAI API,擴展端側 Gemini Nano AI 模型訪問

標簽:
  • 熱門焦點
  • 數字人的新革命,BAT的“沖高”戰場

    來源:劉曠ChatGPT橫空出世,讓人們看到了數字人的另一種可能,將ChatGPT與虛擬數字人融合,研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份,嶺南股份
  • 在數字世界再造世界杯,元宇宙體育正變得越來越豐滿

    撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆,卻絕對是看點十足的一屆:后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
  • 關于年度熱詞NFT,除了錢,我們還可以聊點啥?

    每到年底,社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞,你會想到什么?柯林斯詞典將年度熱詞頒給了“NFT”,而其理由是:一個縮寫詞的
  • 游戲玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼爾·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一個脫胎于現實世界,又與現實世界平行、相互影響,并且始終在線的虛擬世
  • “我沒搞懂元宇宙,但一天能賺9w塊”

    作者:鄭宇軒最近幾個月,“元宇宙”爆火,除了 Facebook 改名為 Meta 高調進軍元宇宙外, BAT 為代表的大廠紛紛著手“元宇宙”新業務。剎那之間,元宇宙成為新風口,除了
  • 以太坊面臨來自Fantom的巨大挑戰

    眾所周知,區塊鏈和加密貨幣項目經常因其對環境的影響而受到批評。但是有一個非營利性的加密貨幣和區塊鏈項目說它比其他的更環保。今天老雅痞就給大家聊一聊加
  • 如何在元宇宙中建立品牌忠誠度

    Snoop Dogg、耐克、蘇富比和普華永道都有什么共同點?他們都投資于元宇宙的房地產。除了我們在屏幕上看到的二維世界--手機、筆記本電腦、臺式機或iPad--他們決
  • 元宇宙平臺會是上世紀末的互聯網嗎?

    “元宇宙”火了好幾個月,互聯網大廠忙于布局,資本市場熱烈追捧。然而很多人還是看不明白,更多的人覺得這是一場泡沫,一場騙局。一開始接觸這個怪里怪氣的名詞,感覺
  • 虛擬鄧麗君后,數字人賽道開啟3.0時代

    “如果右腦時代來臨,虛擬世界將是對人類才華的無限放大。” 郭曉喆稱,開發數字人形象時,自己的團隊在內部“卷”了一下:“當我們翻閱大量歷史典籍的時候,蘇小妹找到
Top 主站蜘蛛池模板: 巧家县| 富顺县| 厦门市| 汉中市| 涿鹿县| 平和县| 泸溪县| 湘潭县| 鸡西市| 南丰县| 焉耆| 吉首市| 江陵县| 海南省| 华蓥市| 什邡市| 广西| 大安市| 合阳县| 江源县| 蓝山县| 瑞金市| 大港区| 南乐县| 沾化县| 义乌市| 翁源县| 日照市| 大洼县| 湖口县| 洪湖市| 巴东县| 余庆县| 双城市| 牡丹江市| 临海市| 黄浦区| 唐山市| 云安县| 西华县| 静安区|