6 月 16 日消息,近日,人工智能公司 Anthropic 披露其王牌產(chǎn)品 Claude 的一項(xiàng)重大升級(jí):通過構(gòu)建一個(gè)由多個(gè) AI 智能體組成的“研究團(tuán)隊(duì)”,其在復(fù)雜研究任務(wù)上的表現(xiàn)較單智能體系統(tǒng)實(shí)現(xiàn)了 90.2% 的驚人提升。這標(biāo)志著 AI 正從“單兵作戰(zhàn)”邁向“協(xié)同智能”的新階段。
這項(xiàng)名為“Research”(研究)的新功能,其核心是一個(gè)多智能體系統(tǒng)。在該架構(gòu)下,一個(gè)“主導(dǎo)智能體”扮演項(xiàng)目經(jīng)理的角色,負(fù)責(zé)規(guī)劃和拆解任務(wù),隨后并行創(chuàng)建多個(gè)“子智能體”分頭執(zhí)行信息檢索與分析。這種模式模仿了人類專家團(tuán)隊(duì)的高效協(xié)作,通過并行處理和關(guān)注點(diǎn)分離,有效攻克了傳統(tǒng) AI 難以勝任的開放性難題。
本文由 Anthropic 核心開發(fā)團(tuán)隊(duì)撰寫,深入剖析了這一前沿系統(tǒng)的構(gòu)建全貌。
以下是全文翻譯:
【多智能體研究系統(tǒng)的構(gòu)建歷程】
我們的 Research 功能采用多個(gè) Claude 智能體,協(xié)同探索復(fù)雜主題,以提升研究效果。本文將分享在該系統(tǒng)開發(fā)過程中遇到的工程挑戰(zhàn),以及我們總結(jié)的經(jīng)驗(yàn)教訓(xùn)。
Claude 現(xiàn)已具備“Research”(研究)能力,能夠跨互聯(lián)網(wǎng)、Google Workspace 及各類集成工具檢索信息,從而完成復(fù)雜任務(wù)。
這一多智能體系統(tǒng)(multi-agent system)從原型到正式上線的過程,讓我們?cè)谙到y(tǒng)架構(gòu)、工具設(shè)計(jì)和提示詞工程(prompt engineering)等方面積累了重要經(jīng)驗(yàn)。多智能體系統(tǒng)由多個(gè)智能體(即 LLMs 在循環(huán)中自主調(diào)用工具)協(xié)作完成任務(wù)。我們的 Research 功能包含一個(gè)智能體,根據(jù)用戶查詢規(guī)劃調(diào)研流程,并利用工具并行創(chuàng)建多個(gè)子智能體,協(xié)同檢索信息。多智能體系統(tǒng)在智能體協(xié)同、評(píng)測(cè)與可靠性等方面帶來了全新挑戰(zhàn)。
本文將詳細(xì)解析我們總結(jié)出的有效原則,希望能為你自行構(gòu)建多智能體系統(tǒng)提供參考。
多智能體系統(tǒng)的優(yōu)勢(shì)
研究工作本身充滿開放性,難以預(yù)先確定所需步驟。你無(wú)法為探索復(fù)雜主題預(yù)設(shè)一條固定路徑,因?yàn)檎麄€(gè)過程本質(zhì)上充滿變數(shù)且路徑依賴明顯。在實(shí)際調(diào)研中,人們會(huì)根據(jù)新的發(fā)現(xiàn)不斷調(diào)整方法,跟隨線索進(jìn)一步深入。
這種不可預(yù)測(cè)性恰恰讓 AI 智能體非常適合承擔(dān)研究類任務(wù)。研究需要在調(diào)查過程中靈活轉(zhuǎn)向,探索相關(guān)或邊緣線索。模型必須能夠在多輪自主管理下,根據(jù)中間結(jié)果動(dòng)態(tài)決策進(jìn)一步探索方向。線性、一次性流程無(wú)法勝任這一需求。
搜索的本質(zhì)在于“壓縮”—— 即從龐大語(yǔ)料中提煉洞見。子智能體通過各自獨(dú)立的上下文窗口并行運(yùn)行,同時(shí)探索問題的不同方面,隨后將最重要的信息壓縮匯總給主導(dǎo)智能體。這種機(jī)制還實(shí)現(xiàn)了關(guān)注點(diǎn)分離 —— 不同的工具、提示詞和探索路徑彼此獨(dú)立,既降低了路徑依賴,又保證了調(diào)研的全面性和獨(dú)立性。
一旦智能體能力達(dá)到一定門檻,多智能體系統(tǒng)就成為擴(kuò)展性能的關(guān)鍵方式。例如,盡管人類個(gè)體在過去十萬(wàn)年間變得更為聰明,但進(jìn)入信息時(shí)代后,人類社會(huì)之所以指數(shù)級(jí)提升能力,正是因?yàn)榧w智慧和高效協(xié)作。同樣,即使是具備通用智能的單體智能體,其能力也有上限;而智能體群體協(xié)同作業(yè)則遠(yuǎn)遠(yuǎn)超越個(gè)體能力。
我們的內(nèi)部評(píng)測(cè)顯示,多智能體研究系統(tǒng)尤其擅長(zhǎng)“廣度優(yōu)先型”查詢,能夠同時(shí)追蹤多個(gè)獨(dú)立方向。我們發(fā)現(xiàn),以 Claude Opus 4 作為主導(dǎo)智能體、Claude Sonnet 4 作為子智能體的多智能體系統(tǒng),在內(nèi)部研究評(píng)測(cè)中較單智能體 Claude Opus 4 提升了 90.2%。例如,當(dāng)系統(tǒng)被要求列舉信息技術(shù) S&P 500 指數(shù)成分企業(yè)全部董事會(huì)成員時(shí),多智能體系統(tǒng)能夠?qū)⑷蝿?wù)拆解分配給各子智能體,從而找到正確答案,而單智能體系統(tǒng)因采用緩慢、串行的檢索流程,未能給出答案。
多智能體系統(tǒng)之所以有效,主要在于它們能投入足夠多的 tokens 來解決問題。我們的分析顯示,在 BrowseComp 評(píng)測(cè)(用于測(cè)試智能體檢索難以獲取信息的能力)中,有三項(xiàng)因素解釋了 95% 的性能差異。其中,token 使用量單獨(dú)就能解釋 80% 的差異,工具調(diào)用次數(shù)和模型選擇則是另外兩個(gè)主要影響因素。這一結(jié)果印證了我們的架構(gòu)思路:通過不同上下文窗口分配任務(wù),實(shí)現(xiàn)并行推理,提升系統(tǒng)容量。最新的 Claude 模型也極大提升了 token 使用效率,例如,升級(jí)至 Claude Sonnet 4 帶來的性能提升,甚至超過在 Claude Sonnet 3.7 上將 token 配額翻倍。多智能體架構(gòu)能有效擴(kuò)展 token 使用,適配超出單一智能體處理能力的任務(wù)。
但這也帶來了問題:在實(shí)際應(yīng)用中,該架構(gòu) token 消耗極快。數(shù)據(jù)顯示,單一智能體通常比聊天場(chǎng)景多用約 4 倍 tokens,多智能體系統(tǒng)則比聊天多用約 15 倍。要實(shí)現(xiàn)經(jīng)濟(jì)可行性,多智能體系統(tǒng)需專注于任務(wù)價(jià)值足以覆蓋高性能消耗的應(yīng)用場(chǎng)景。此外,部分領(lǐng)域要求所有智能體共享完全一致的上下文,或智能體間依賴關(guān)系極多,這類任務(wù)目前并不適合多智能體系統(tǒng)。例如,大多數(shù)編程任務(wù)真正可并行化的環(huán)節(jié)不如研究型任務(wù)多,且現(xiàn)階段 LLM 智能體尚不擅長(zhǎng)實(shí)時(shí)協(xié)調(diào)和分工。我們發(fā)現(xiàn),多智能體系統(tǒng)在高并行度、信息量超出單一上下文窗口、需對(duì)接大量復(fù)雜工具的任務(wù)中表現(xiàn)最為突出。
Research 系統(tǒng)架構(gòu)概覽
我們的 Research(研究)系統(tǒng)采用多智能體架構(gòu),具體為“協(xié)調(diào)者-執(zhí)行者”模式。主導(dǎo)智能體負(fù)責(zé)整體流程的協(xié)調(diào),并將任務(wù)分派給并行運(yùn)行的專業(yè)子智能體。
圖/多智能體架構(gòu)實(shí)操示意: 用戶的查詢首先進(jìn)入主導(dǎo)智能體,由其創(chuàng)建多個(gè)專業(yè)子智能體,分別并行檢索不同方面的信息。
當(dāng)用戶提交查詢后,主導(dǎo)智能體會(huì)對(duì)查詢進(jìn)行分析,制定策略,并同時(shí)生成多個(gè)子智能體,分別探索不同方面。如上文所示,子智能體通過反復(fù)調(diào)用檢索工具,充當(dāng)智能過濾器。例如,在檢索 2025 年 AI 智能體公司時(shí),子智能體會(huì)收集相關(guān)信息,并將公司名單返回主導(dǎo)智能體,由其匯總形成最終答案。
傳統(tǒng)的檢索增強(qiáng)生成(Retrieval Augmented Generation,RAG)方法采用的是靜態(tài)檢索:即根據(jù)輸入查詢檢索出最相似的信息片段,并用這些片段生成回復(fù)。相比之下,我們的架構(gòu)采用多步搜索,能夠動(dòng)態(tài)發(fā)現(xiàn)相關(guān)信息,及時(shí)調(diào)整策略,并對(duì)結(jié)果進(jìn)行分析,從而給出高質(zhì)量答案。
圖/流程圖展示了我們多智能體 Research 系統(tǒng)的完整工作流程。當(dāng)用戶提交查詢后,系統(tǒng)會(huì)創(chuàng)建一個(gè) LeadResearcher(主研究者)智能體,進(jìn)入迭代式研究流程。LeadResearcher 首先思考研究路徑,并將研究計(jì)劃保存至 Memory(記憶)以保證上下文持久存儲(chǔ)。因?yàn)橐坏┥舷挛拇翱诔^ 200,000 tokens,超出部分將被截?cái)啵虼擞?jì)劃的保存尤為關(guān)鍵。隨后,LeadResearcher 會(huì)根據(jù)不同研究任務(wù)創(chuàng)建專業(yè)化的 Subagent(子智能體)(此處僅示例兩個(gè),實(shí)際可為任意數(shù)量)。每個(gè)子智能體獨(dú)立進(jìn)行網(wǎng)絡(luò)檢索,通過穿插思考(interleaved thinking)評(píng)估工具結(jié)果,并將發(fā)現(xiàn)返回至 LeadResearcher。LeadResearcher 對(duì)這些結(jié)果進(jìn)行綜合判斷,如需進(jìn)一步研究,可繼續(xù)創(chuàng)建新的子智能體或優(yōu)化研究策略。當(dāng)信息收集充分后,系統(tǒng)將退出研究循環(huán),并將所有研究結(jié)果交由 CitationAgent(引文智能體)處理。CitationAgent 會(huì)對(duì)文檔和研究報(bào)告進(jìn)行分析,標(biāo)注具體引用位置,確保所有論斷均有明確信息源支撐。最終,帶有完整引文的研究結(jié)果返回給用戶。
研究智能體的提示詞工程與評(píng)估
多智能體系統(tǒng)與單智能體系統(tǒng)有本質(zhì)區(qū)別,尤其在協(xié)調(diào)復(fù)雜度上增長(zhǎng)迅速。早期的智能體經(jīng)常犯錯(cuò),比如為簡(jiǎn)單查詢生成 50 個(gè)子智能體,無(wú)休止地全網(wǎng)搜索并不存在的信息源,或因頻繁更新而彼此干擾。由于每個(gè)智能體都由提示詞驅(qū)動(dòng),因此提示詞工程成為我們優(yōu)化行為的主要手段。以下是我們?cè)谥悄荏w提示詞設(shè)計(jì)中的一些經(jīng)驗(yàn)原則:
站在智能體的角度思考。 要持續(xù)優(yōu)化提示詞,必須理解其實(shí)際效果。為此,我們?cè)?Console 中用系統(tǒng)實(shí)際用到的提示詞和工具構(gòu)建了模擬,逐步觀察智能體的行為。這很快揭示了常見失敗模式:如明明已獲得足夠結(jié)果卻繼續(xù)執(zhí)行,搜索指令冗長(zhǎng)繁復(fù),或工具選擇錯(cuò)誤。有效的提示詞設(shè)計(jì)需要建立對(duì)智能體工作的準(zhǔn)確心智模型,這樣關(guān)鍵的改進(jìn)點(diǎn)會(huì)變得一目了然。
指導(dǎo)協(xié)調(diào)者如何分工。 我們的系統(tǒng)中,主導(dǎo)智能體需要將查詢拆分為具體子任務(wù),并清晰地描述給子智能體。每個(gè)子智能體都需明確目標(biāo)、輸出格式、應(yīng)使用的工具和信息源,以及清晰的任務(wù)邊界。如果任務(wù)描述不夠詳盡,智能體之間容易重復(fù)勞動(dòng)、出現(xiàn)遺漏,或找不到必要信息。我們最初允許主導(dǎo)智能體給出簡(jiǎn)短指令,例如“調(diào)研半導(dǎo)體短缺”,但發(fā)現(xiàn)這樣的指令往往太過模糊,導(dǎo)致子智能體誤解任務(wù),甚至重復(fù)執(zhí)行同一檢索。例如,一個(gè)子智能體調(diào)查了 2021 年汽車芯片危機(jī),另外兩個(gè)則重復(fù)研究 2025 年供應(yīng)鏈,卻缺乏有效分工。
根據(jù)查詢復(fù)雜度動(dòng)態(tài)分配資源。 智能體難以自行判斷不同任務(wù)應(yīng)投入多少精力,因此我們?cè)谔崾驹~中嵌入了分級(jí)規(guī)則。簡(jiǎn)單的事實(shí)檢索只需 1 個(gè)智能體、3-10 次工具調(diào)用;直接比較可能需要 2-4 個(gè)子智能體,每個(gè)調(diào)用 10-15 次工具;復(fù)雜研究則可能用到 10 個(gè)以上子智能體,并有明確分工。這些明確的指導(dǎo)方針幫助主導(dǎo)智能體高效分配資源,避免在簡(jiǎn)單查詢上投入過多,這是早期版本的常見問題。
工具的設(shè)計(jì)與選擇至關(guān)重要。 智能體-工具接口和人機(jī)接口同樣關(guān)鍵。選對(duì)工具不僅高效,很多時(shí)候更是完成任務(wù)的必要條件。例如,若智能體在網(wǎng)上搜索一條只存在于 Slack 的信息,必然無(wú)果。MCP 服務(wù)器為模型接入各種外部工具,但工具描述質(zhì)量參差不齊,這一挑戰(zhàn)更為突出。我們?yōu)橹悄荏w制定了明確的啟發(fā)式規(guī)則:如先檢查所有可用工具,將工具使用與用戶意圖相匹配,廣泛探索時(shí)優(yōu)先用網(wǎng)絡(luò)搜索,專業(yè)任務(wù)優(yōu)選專用工具而非通用工具。不恰當(dāng)?shù)墓ぞ呙枋隹赡軐?dǎo)致智能體完全走錯(cuò)方向,因此每個(gè)工具都需有明確的功能和清晰的描述。
讓智能體自我改進(jìn)。 我們發(fā)現(xiàn) Claude 4 模型本身就是出色的提示詞工程師。當(dāng)給定失敗案例和原始提示詞時(shí),它能診斷智能體失敗原因并提出改進(jìn)建議。我們甚至開發(fā)了專門的工具測(cè)試智能體:當(dāng)遇到描述不佳的 MCP 工具,它會(huì)試用該工具,并重寫工具描述以避免失敗。通過反復(fù)測(cè)試,這一智能體發(fā)現(xiàn)了諸多細(xì)節(jié)和漏洞。改進(jìn)工具易用性的流程,使得未來智能體在使用新描述時(shí),任務(wù)完成時(shí)間縮短了 40%,因?yàn)榇蠖鄶?shù)錯(cuò)誤被有效規(guī)避。
先廣后深。 搜索策略應(yīng)當(dāng)類似人類專家:先全面了解,再聚焦細(xì)節(jié)。智能體往往傾向于一開始就用冗長(zhǎng)且具體的查詢,結(jié)果反而收效甚微。我們通過提示詞引導(dǎo)智能體先用簡(jiǎn)短、寬泛的檢索語(yǔ)句,評(píng)估可用信息后再逐步聚焦。
引導(dǎo)思考過程。 擴(kuò)展思考模式(extended thinking mode)可讓 Claude 在輸出時(shí)展示可見的思考過程,作為可控的草稿板。主導(dǎo)智能體借助思考環(huán)節(jié)規(guī)劃行動(dòng),評(píng)估任務(wù)所需工具、查詢復(fù)雜度及子智能體數(shù)量,并明確各自職責(zé)。測(cè)試表明,這一模式能提升指令執(zhí)行力、推理能力和效率。子智能體同樣先制定計(jì)劃,獲取工具結(jié)果后再穿插思考,評(píng)估信息質(zhì)量、發(fā)現(xiàn)遺漏并優(yōu)化后續(xù)檢索。這讓子智能體能夠更好地適應(yīng)各種任務(wù)。
并行工具調(diào)用極大提升速度和表現(xiàn)。 復(fù)雜調(diào)研任務(wù)往往涉及多信息源的同步探索。早期智能體采用串行搜索,效率極低。為提升速度,我們引入了兩種并行機(jī)制:(1) 主導(dǎo)智能體能并行生成 3-5 個(gè)子智能體,而非順序創(chuàng)建;(2) 子智能體能并行調(diào)用 3 個(gè)以上工具。這些優(yōu)化使復(fù)雜查詢的研究時(shí)間最多縮短 90%,讓 Research 系統(tǒng)能在幾分鐘內(nèi)完成本需數(shù)小時(shí)的任務(wù),且覆蓋信息量遠(yuǎn)超其他系統(tǒng)。
我們的提示詞策略注重培育良好的啟發(fā)式,而不是僵化規(guī)則。 我們研究了熟練人類研究者的工作方式,并在提示詞中融入這些策略 —— 如將難題拆解為小任務(wù)、細(xì)致評(píng)估信息源質(zhì)量、根據(jù)新發(fā)現(xiàn)靈活調(diào)整檢索方式、區(qū)分何時(shí)需深挖單一主題、何時(shí)需廣泛并行探索。我們還通過設(shè)定明確的安全邊界,主動(dòng)規(guī)避智能體行為失控等副作用。最后,我們專注于構(gòu)建可觀測(cè)、可測(cè)試的快速迭代流程。
智能體的有效評(píng)估
良好的評(píng)估對(duì)于構(gòu)建可靠的 AI 應(yīng)用至關(guān)重要,智能體系統(tǒng)同樣如此。然而,多智能體系統(tǒng)的評(píng)估面臨獨(dú)特挑戰(zhàn)。傳統(tǒng)評(píng)估通常假設(shè) AI 每次都遵循相同步驟:輸入 X,系統(tǒng)應(yīng)按照路徑 Y 產(chǎn)生輸出 Z。但多智能體系統(tǒng)并非如此。即使初始條件完全相同,智能體也可能通過完全不同但同樣有效的路徑達(dá)成目標(biāo)。有的智能體可能檢索三種信息源,有的則檢索十種,或采用不同工具得出相同答案。由于我們往往無(wú)法預(yù)知“正確”的具體步驟,因此也就無(wú)法簡(jiǎn)單核查智能體是否嚴(yán)格按預(yù)設(shè)流程執(zhí)行。我們需要靈活的評(píng)估方法,既判斷智能體是否達(dá)成預(yù)期結(jié)果,也關(guān)注其過程是否合理。
從小樣本立刻開始評(píng)估。 在智能體開發(fā)早期,細(xì)微的改動(dòng)往往帶來顯著影響,因?yàn)榇藭r(shí)存在大量“低垂的果實(shí)”。一次提示詞微調(diào),成功率可能由 30% 提升至 80%。如此大的效果差異,只需少量測(cè)試用例即可觀察到變化。我們最初用約 20 條代表真實(shí)使用場(chǎng)景的查詢進(jìn)行測(cè)試。這些測(cè)試經(jīng)常能清楚反映改動(dòng)的成效。我們常聽說 AI 開發(fā)團(tuán)隊(duì)因認(rèn)為只有包含數(shù)百個(gè)用例的大型評(píng)測(cè)才有意義而延遲開展評(píng)估。實(shí)際上,最佳做法是從少量樣例的小規(guī)模測(cè)試立即著手,而不是等到有能力構(gòu)建更全面評(píng)測(cè)時(shí)再開始。
以大語(yǔ)言模型(LLM)為判官的評(píng)估方法具有可擴(kuò)展性。 研究型輸出很難用程序化手段評(píng)估,因?yàn)槠涠酁樽杂晌谋荆阴r有唯一正確答案。LLM 非常適合用于結(jié)果評(píng)分。我們使用 LLM 判官(LLM-as-judge),基于評(píng)分細(xì)則對(duì)每個(gè)輸出進(jìn)行評(píng)估,包括事實(shí)準(zhǔn)確性(結(jié)論是否與信息源一致)、引用準(zhǔn)確性(所引信息源是否與陳述相符)、全面性(是否覆蓋所有要求的方面)、信息源質(zhì)量(是否優(yōu)先使用高質(zhì)量的一手來源而非低質(zhì)量的二手來源)、工具效率(是否合理選擇并調(diào)用工具)。我們?cè)鴩L試用多個(gè)判官評(píng)估不同維度,但最終發(fā)現(xiàn),單次 LLM 調(diào)用、以單一提示詞輸出 0.0-1.0 分?jǐn)?shù)并給出通過 / 未通過判定,效果最為一致且與人工判斷高度吻合。這種方法在測(cè)試用例答案明確時(shí)尤其有效,LLM 判官只需判斷答案是否正確(例如是否準(zhǔn)確列出研發(fā)投入最高的三家制藥公司)。利用 LLM 判官,我們可以大規(guī)模評(píng)估數(shù)百個(gè)輸出。
人工評(píng)估能發(fā)現(xiàn)自動(dòng)化遺漏的問題。 人工測(cè)試智能體時(shí),常能發(fā)現(xiàn)評(píng)測(cè)遺漏的邊緣案例,如在特殊查詢下出現(xiàn)幻覺答案、系統(tǒng)性故障,或信息源選擇中的細(xì)微偏差。以我們的經(jīng)驗(yàn)為例,測(cè)試人員發(fā)現(xiàn)早期智能體經(jīng)常偏好 SEO 優(yōu)化內(nèi)容農(nóng)場(chǎng),而忽視了權(quán)威但排名較低的信息源,如學(xué)術(shù) PDF 或個(gè)人博客。為此,我們?cè)谔崾驹~中加入信息源質(zhì)量的啟發(fā)式規(guī)則,有效改善了這一問題。即便自動(dòng)化評(píng)估日趨完善,人工測(cè)試依然不可或缺。
多智能體系統(tǒng)會(huì)出現(xiàn)“涌現(xiàn)行為”,即未經(jīng)過明確編程而自然產(chǎn)生的新模式。 例如,對(duì)主導(dǎo)智能體的微小調(diào)整,可能以不可預(yù)測(cè)的方式改變子智能體行為。要取得成功,必須理解智能體之間的互動(dòng)模式,而不僅僅是個(gè)體行為。因此,最佳提示詞不僅僅是嚴(yán)格的指令,更應(yīng)是協(xié)作框架,明確分工、解決問題的方法及資源投入的上限。要做到這一點(diǎn),需要精心的提示詞設(shè)計(jì)與工具配置、扎實(shí)的啟發(fā)式規(guī)則、良好的可觀測(cè)性以及高效反饋循環(huán)。具體可參考我們 Cookbook 中開源的系統(tǒng)提示詞示例。
生產(chǎn)環(huán)境下的可靠性與工程挑戰(zhàn)
在傳統(tǒng)軟件中,漏洞可能導(dǎo)致功能失效、性能下降或服務(wù)中斷。而在智能體系統(tǒng)中,微小的改動(dòng)可能引發(fā)大范圍的行為變化,使得持續(xù)運(yùn)行、需保持狀態(tài)的復(fù)雜智能體代碼極難維護(hù)。
智能體具備狀態(tài),且錯(cuò)誤會(huì)累積。 智能體往往需要長(zhǎng)時(shí)間運(yùn)行,期間跨越多次工具調(diào)用并持續(xù)維護(hù)自身狀態(tài)。這要求我們的系統(tǒng)必須具備持久化執(zhí)行能力,并能妥善處理運(yùn)行過程中的各類錯(cuò)誤。若缺乏有效應(yīng)對(duì)機(jī)制,哪怕極小的系統(tǒng)故障也可能對(duì)智能體造成災(zāi)難性影響。出錯(cuò)時(shí),系統(tǒng)無(wú)法簡(jiǎn)單地從頭重啟 —— 重啟代價(jià)高昂且令用戶沮喪。因此,我們?cè)O(shè)計(jì)了可在出錯(cuò)點(diǎn)恢復(fù)的系統(tǒng)。同時(shí),借助模型智能優(yōu)雅處理異常問題,例如在工具失效時(shí)向智能體發(fā)出提示,讓其主動(dòng)調(diào)整,這一策略效果出奇地好。我們將基于 Claude 的 AI 智能體適應(yīng)能力,與如重試邏輯、定期檢查點(diǎn)等確定性防護(hù)措施相結(jié)合。
調(diào)試需采用新方法。 智能體的決策過程高度動(dòng)態(tài),即便提示詞完全一致,不同運(yùn)行結(jié)果也可能不同,給調(diào)試帶來極大難度。例如,用戶報(bào)告智能體“未能找到顯而易見的信息”,但我們無(wú)法直接看出原因 —— 是檢索指令設(shè)置不佳,還是信息源選擇錯(cuò)誤,亦或工具本身出錯(cuò)?我們通過引入全量生產(chǎn)追蹤,系統(tǒng)性定位智能體失敗原因并加以修復(fù)。除常規(guī)可觀測(cè)性外,我們還監(jiān)控智能體的決策模式與互動(dòng)結(jié)構(gòu),但不監(jiān)控具體對(duì)話內(nèi)容,以保障用戶隱私。這種高層級(jí)可觀測(cè)性有助于發(fā)現(xiàn)根本原因、意外行為及常見故障。
部署需精心協(xié)調(diào)。 智能體系統(tǒng)由提示詞、工具和執(zhí)行邏輯組成,具備高度狀態(tài)性,且?guī)缀醭掷m(xù)運(yùn)行。因此,系統(tǒng)每次更新時(shí),智能體可能正處于任意執(zhí)行階段。我們必須防止善意的代碼更新破壞現(xiàn)有智能體的運(yùn)行。無(wú)法讓所有智能體同時(shí)切換至新版本,因此采用“彩虹部署”(rainbow deployments),即逐步將流量從舊版本切換到新版本,確保兩者并行運(yùn)行,避免對(duì)現(xiàn)有智能體造成干擾。
同步執(zhí)行會(huì)造成瓶頸。 目前,主導(dǎo)智能體按同步方式執(zhí)行子智能體,即需等待一批子智能-體全部完成后才能繼續(xù)。這雖簡(jiǎn)化了協(xié)調(diào),但也造成智能體之間信息流的瓶頸。例如,主導(dǎo)智能體無(wú)法動(dòng)態(tài)引導(dǎo)子智能體,子智能體之間無(wú)法協(xié)作,整個(gè)系統(tǒng)可能因等待某個(gè)子智能體完成檢索而被阻塞。異步執(zhí)行則可實(shí)現(xiàn)更高并行度:智能體能并發(fā)工作,并在需要時(shí)動(dòng)態(tài)生成新的子智能體。但異步同時(shí)帶來結(jié)果協(xié)調(diào)、狀態(tài)一致性和錯(cuò)誤傳播等新挑戰(zhàn)。隨著模型處理更長(zhǎng)、更復(fù)雜研究任務(wù)的能力提升,我們預(yù)計(jì)性能提升將抵消由此帶來的復(fù)雜性。
結(jié)論
在構(gòu)建 AI 智能體的過程中,最后一公里往往成為最為艱難的階段。開發(fā)者本地能夠運(yùn)行的代碼,距離成為可靠的生產(chǎn)系統(tǒng)還需要大量工程化努力。在智能體系統(tǒng)中,錯(cuò)誤具有復(fù)合特性,這意味著對(duì)于傳統(tǒng)軟件而言的輕微問題,可能會(huì)導(dǎo)致智能體完全崩潰。只要某一步失敗,智能體就可能走向完全不同的路徑,進(jìn)而產(chǎn)生不可預(yù)測(cè)的結(jié)果。正如本文所述,從原型到生產(chǎn)環(huán)境之間的鴻溝,往往比人們預(yù)期的更為寬廣。
盡管存在這些挑戰(zhàn),多智能體系統(tǒng)在開放性研究任務(wù)中依然展現(xiàn)出巨大價(jià)值。用戶反饋稱,Claude 幫助他們發(fā)現(xiàn)了未曾考慮過的商業(yè)機(jī)會(huì),理清了復(fù)雜的醫(yī)療方案,解決了棘手的技術(shù)難題,還能通過揭示原本難以獨(dú)立發(fā)現(xiàn)的研究關(guān)聯(lián),節(jié)省數(shù)天工作時(shí)間。只要注重工程細(xì)節(jié)、全面測(cè)試、精心設(shè)計(jì)提示詞和工具、完善運(yùn)維實(shí)踐,并確保研究、產(chǎn)品與工程團(tuán)隊(duì)之間緊密協(xié)作,對(duì)當(dāng)前智能體能力有深刻理解,多智能體研究系統(tǒng)完全可以在規(guī)?;瘧?yīng)用中保持可靠運(yùn)行。我們已經(jīng)看到,這些系統(tǒng)正在改變?nèi)藗兘鉀Q復(fù)雜問題的方式。
圖/Clio 嵌入圖展示了當(dāng)前用戶對(duì) Research 功能的主要使用方式。最常見的五大使用場(chǎng)景為:在專業(yè)領(lǐng)域開發(fā)軟件系統(tǒng)(10%)、撰寫與優(yōu)化專業(yè)及技術(shù)內(nèi)容(8%)、制定企業(yè)增長(zhǎng)與營(yíng)收策略(8%)、輔助學(xué)術(shù)研究與教學(xué)資料開發(fā)(7%)、以及查詢與核實(shí)人物、地點(diǎn)或組織等相關(guān)信息(5%)。
作者:Jeremy Hadfield、Barry Zhang、Kenneth Lien、Florian Scholz、Jeremy Fox 與 Daniel Ford。本項(xiàng)目凝聚了 Anthropic 多個(gè)團(tuán)隊(duì)的共同努力,使 Research 功能成為可能。特別感謝 Anthropic 應(yīng)用工程團(tuán)隊(duì),正是他們的專注與奉獻(xiàn),將這一復(fù)雜的多智能體系統(tǒng)推向了生產(chǎn)環(huán)境。我們也感謝早期用戶們提供的寶貴反饋。
附錄
以下是關(guān)于多智能體系統(tǒng)的一些補(bǔ)充建議。
評(píng)估跨多輪對(duì)話持續(xù)變更狀態(tài)的智能體終態(tài)。 對(duì)于在多輪對(duì)話中持續(xù)修改持久狀態(tài)的智能體,其評(píng)估面臨獨(dú)特挑戰(zhàn)。與只讀型研究任務(wù)不同,每一步操作都會(huì)影響后續(xù)環(huán)境,形成步驟間的依賴關(guān)系,傳統(tǒng)評(píng)估方法難以應(yīng)對(duì)。我們的做法是關(guān)注終態(tài)評(píng)估(end-state evaluation),而非每一步的細(xì)致分析。與其考察智能體是否遵循了特定流程,不如評(píng)估其最終是否達(dá)到了正確的目標(biāo)狀態(tài)。這種方法認(rèn)可了智能體實(shí)現(xiàn)目標(biāo)的多樣路徑,同時(shí)確保結(jié)果符合預(yù)期。對(duì)于復(fù)雜流程,可將評(píng)估拆分為若干關(guān)鍵檢查點(diǎn),考察每個(gè)階段是否發(fā)生了應(yīng)有的狀態(tài)變更,而無(wú)需驗(yàn)證每一步細(xì)節(jié)。
長(zhǎng)周期對(duì)話管理。 生產(chǎn)環(huán)境下的智能體常需應(yīng)對(duì)長(zhǎng)達(dá)數(shù)百輪的對(duì)話,這對(duì)上下文管理提出了更高要求。隨著對(duì)話延長(zhǎng),常規(guī)的上下文窗口已不夠用,必須依靠智能壓縮與記憶機(jī)制。我們的做法是讓智能體在完成某一階段任務(wù)后,總結(jié)關(guān)鍵信息并存儲(chǔ)于外部記憶系統(tǒng),然后再進(jìn)入新任務(wù)。當(dāng)接近上下文限制時(shí),智能體可創(chuàng)建新的子智能體,以干凈的上下文繼續(xù)任務(wù),并通過精心設(shè)計(jì)的交接流程保持連貫性。此外,智能體可隨時(shí)從記憶中調(diào)取如研究計(jì)劃等已存信息,而非因窗口溢出丟失工作進(jìn)展。這種分布式方法可有效防止上下文溢出,同時(shí)保持長(zhǎng)對(duì)話的一致性和連貫性。
子智能體直接輸出至文件系統(tǒng),減少“傳話游戲”信息損失。 對(duì)于某些類型的結(jié)果,允許子智能體繞過主協(xié)調(diào)者(coordinator)直接輸出,可提升結(jié)果的保真度和系統(tǒng)性能。與其讓子智能體一切信息都經(jīng)主智能體轉(zhuǎn)述,不如引入工件系統(tǒng)(artifact systems),讓專業(yè)化子智能體可獨(dú)立生成、存儲(chǔ)持久化輸出。子智能體通過工具將工作成果存入外部系統(tǒng),再將輕量級(jí)引用信息交還協(xié)調(diào)者。這一模式可防止多輪處理過程中的信息損失,也減少了因歷史對(duì)話反復(fù)復(fù)制大塊輸出而造成的 token 消耗。對(duì)于結(jié)構(gòu)化輸出(如代碼、報(bào)告或數(shù)據(jù)可視化)而言,采用專業(yè)子智能體的專屬提示詞,往往比通過通用協(xié)調(diào)者轉(zhuǎn)述更能保證結(jié)果質(zhì)量。
(本文由 AI 翻譯,網(wǎng)易編輯負(fù)責(zé)校對(duì))
本文鏈接:http://www.www897cc.com/showinfo-45-13893-0.html性能提升 90%,Anthropic 首次公開多智能體系統(tǒng)構(gòu)建全流程
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 調(diào)查:美國(guó)職場(chǎng)超 40% 員工在工作中使用 AI,白領(lǐng)使用率是藍(lán)領(lǐng)三倍