64張圖全面剖析 AI 智能體的架構(gòu)設計和關(guān)鍵技術(shù) 原創(chuàng) 精華
基于大語言模型(LLM)的 AI 智能體正在變得越來越普遍,似乎正在取代我們熟悉的“常規(guī)”對話式 LLM。這些令人驚嘆的能力并非輕易就能實現(xiàn),需要許多組件協(xié)同工作。

在這篇文章中,我們將通過64張圖,探索 AI 智能體的架構(gòu)設計、關(guān)鍵技術(shù)、主要組成部分、以及多智能體框架。
具體包括14項關(guān)鍵技術(shù):什么是LLM智能體、記憶、短期記憶、長期記憶、工具、Toolformer、模型上下文協(xié)議(MCP)、規(guī)劃、推理、推理與行動、反思、多智能體協(xié)作、人類行為的交互式仿真、模塊化框架等。
下文我們詳細剖析之。
一、AI 智能體的架構(gòu)設計和關(guān)鍵技術(shù)
1、什么是 LLM 智能體?
要了解 LLM 智能體是什么,我們首先來探索 LLM 的基本能力。傳統(tǒng)上,LLM 所做的無非是 next-token 的預測。

通過連續(xù)采樣許多 tokens,我們可以模擬對話,并使用 LLM 為我們的問題提供更詳細的答案。

然而,當我們繼續(xù)“對話”時,任何給定的 LLM 都會顯露出它的主要缺點之一:它不記得對話!

還有許多其他任務是 LLM 經(jīng)常失敗的,包括基本的數(shù)學運算,比如:乘法和除法:

這是否意味著 LLM 很糟糕?絕對不是!LLM 不需要具備一切能力,因為我們可以借助外部工具、記憶和檢索系統(tǒng)來彌補它們的不足。
通過外部系統(tǒng),LLM 的能力可以得到增強。Anthropic 將其稱為“增強型 LLM”。

例如,當面臨一個數(shù)學問題時,LLM 可能會決定使用適當?shù)墓ぞ撸ū热纾河嬎闫鳎?/p>

那么,這種“增強型 LLM”是不是智能體呢?不完全是,但也有一點……
讓我們先從智能體的定義開始:
智能體是可以被視為通過傳感器感知其環(huán)境并通過執(zhí)行器對環(huán)境采取行動的任何事物。
--Russell & Norvig,《人工智能:一種現(xiàn)代方法》(2016)
智能體與環(huán)境互動,通常包含幾個重要組成部分:
- 環(huán)境:智能體互動的世界;
- 傳感器:用于觀察環(huán)境;
- 執(zhí)行器:用于與環(huán)境互動的工具;
- 效應器:決定如何從觀察到行動的“大腦”或規(guī)則。

這個框架適用于各種與各種環(huán)境互動的智能體,比如:與物理環(huán)境互動的機器人,或者與軟件互動的 AI 智能體。
我們可以將這個框架稍微泛化一下,使其適用于“增強型 LLM”。

使用“增強型” LLM,智能體可以通過文本輸入(因為 LLM 通常是基于文本的模型)來觀察環(huán)境,并通過使用工具(比如:搜索網(wǎng)絡)來執(zhí)行某些動作。
為了選擇要采取哪些動作,LLM 智能體有一個關(guān)鍵組成部分:它的規(guī)劃能力。為此,LLM 需要能夠通過諸如思維鏈等方法進行“推理”和“思考”。

通過這種推理行為,LLM 智能體會規(guī)劃出必要的動作。

這種規(guī)劃行為使智能體能夠理解情況(LLM)、規(guī)劃下一步(規(guī)劃)、采取行動(工具)并跟蹤已采取的動作(記憶)。

根據(jù)系統(tǒng),您可以擁有不同程度自主性的 LLM 智能體。

根據(jù)您詢問的對象,一個系統(tǒng)越“智能體化”,LLM 就越?jīng)Q定系統(tǒng)的可行為方式。
在接下來的部分中,我們將通過 LLM 智能體的三個主要組成部分:記憶、工具和規(guī)劃,來探討各種自主行為的方法。
2、記憶
LLM 是健忘的系統(tǒng),或者更準確地說,當與它們互動時,它們根本不會進行任何記憶。
例如,當您向 LLM 提問,然后接著問另一個問題時,它不會記得前者。

我們通常將其稱為短期記憶,也稱為工作記憶,它作為(近乎)即時上下文的緩沖區(qū)。這包括 LLM 智能體最近采取的行動。
然而,LLM 智能體還需要跟蹤可能的數(shù)十個步驟,而不僅僅是最近的行動。

這被稱為長期記憶,因為 LLM 智能體理論上可能需要記住數(shù)十甚至數(shù)百個步驟。

讓我們來探索一些賦予這些模型記憶的技巧。
3、短期記憶
啟用短期記憶的最直接方法是使用模型的上下文窗口,這基本上是 LLM 可以處理的 tokens 數(shù)量。

上下文窗口通常至少有8192個 tokens,有時可以擴展到數(shù)十萬個 tokens!
較大的上下文窗口可用于跟蹤完整的對話歷史作為輸入提示詞的一部分。

只要對話歷史適合 LLM 的上下文窗口,這種方法就可以很好地模擬記憶。然而,與其真正記住對話,我們實際上是“告訴” LLM 對話是什么。
對于上下文窗口較小的模型,或者當對話歷史較長時,我們可以使用另一個 LLM 來總結(jié)迄今為止發(fā)生的對話。

通過持續(xù)總結(jié)對話,我們可以保持對話的大小較小。它會減少 tokens 數(shù)量,同時只跟蹤最重要的信息。
4、長期記憶
LLM 智能體的長期記憶包括需要長期保留的智能體過去的行動空間。
啟用長期記憶的常見技術(shù)是將所有之前的互動、行動和對話存儲在外部向量數(shù)據(jù)庫中。
為了構(gòu)建這樣一個數(shù)據(jù)庫,對話首先被嵌入(Embedded)到能夠捕捉其含義的數(shù)值表示中。

在構(gòu)建數(shù)據(jù)庫之后,我們可以將任何給定的提示詞嵌入其中,并通過將提示詞嵌入與數(shù)據(jù)庫嵌入進行比較,在向量數(shù)據(jù)庫中找到最相關(guān)的信息。

這種方法通常被稱為檢索增強生成(RAG)。
長期記憶還可以涉及保留來自不同會話的信息。例如,您可能希望 LLM 智能體記住它在以前會話中進行的任何研究。
不同類型的信息也可以與不同類型的記憶相關(guān)聯(lián)以存儲。在心理學中,有許多不同類型的記憶可以區(qū)分,但《語言智能體的認知架構(gòu)》論文將其中四種與 LLM 智能體聯(lián)系起來。

這種區(qū)分有助于構(gòu)建智能體框架。語義記憶(關(guān)于世界的事實)可能存儲在與工作記憶(當前和最近的情況)不同的數(shù)據(jù)庫中。
5、工具
工具允許給定的 LLM 與外部環(huán)境(比如:數(shù)據(jù)庫)互動,或者使用外部應用程序(比如:運行自定義代碼)。

工具通常有兩種類型:獲取數(shù)據(jù)以檢索最新信息,以及采取行動,如安排會議或訂購食物。
要實際使用工具,LLM 需要生成與給定工具的 API 匹配的文本。我們通常期望可以格式化為 JSON 的字符串,以便輕松地輸入代碼解釋器。

請注意,這不僅限于 JSON,我們也可以直接在代碼中調(diào)用工具!您還可以生成 LLM 可以使用的自定義函數(shù),比如:基本的乘法函數(shù)。這通常被稱為函數(shù)調(diào)用(Function Calling)。

一些 LLM 可以通過正確且廣泛的提示詞使用任何工具。工具使用是大多數(shù)當前 LLM 具備的能力。

更穩(wěn)定的方法是通過微調(diào) LLM 來訪問工具。
工具可以按給定順序使用,如果智能體框架是固定的……

……或者 LLM 可以自主選擇何時使用哪個工具。LLM 智能體,如上圖所示,本質(zhì)上是 LLM 調(diào)用的序列(但帶有自主選擇動作/工具等)。

換句話說,中間步驟的輸出被反饋到 LLM 中以繼續(xù)處理。

6、Toolformer
工具使用是一種強大的技術(shù),可以增強 LLM 的能力并彌補它們的不足。因此,近年來關(guān)于工具使用和學習的研究工作迅速增加。

對工具使用的關(guān)注增加,(智能體)LLM 有望變得更強大。這項研究不僅涉及提示詞 LLM 使用工具,還涉及專門訓練它們使用工具。
最早實現(xiàn)這一目標的技術(shù)之一是 Toolformer,這是一種經(jīng)過訓練的模型,可以決定調(diào)用哪些 API 以及如何調(diào)用。
它通過使用 [and] tokens 來指示調(diào)用工具的開始和結(jié)束。當給定一個提示詞,例如 “5乘以3是多少?”時,它開始生成 tokens,直到達到 [ token。

之后,它繼續(xù)生成 tokens,直到達到 → 標記,這表明 LLM 停止生成 tokens。

然后,將調(diào)用工具,并將輸出添加到迄今為止生成的 tokens 中。

] 符號表示 LLM 現(xiàn)在可以在必要時繼續(xù)生成。
Toolformer 通過仔細生成一個包含許多工具使用的數(shù)據(jù)集來創(chuàng)建這種行為,模型可以在此基礎上進行訓練。對于每個工具,手動創(chuàng)建幾個示例提示詞,并用于采樣使用這些工具的輸出。

根據(jù)工具使用的正確性、輸出和損失減少對輸出進行過濾。得到的數(shù)據(jù)集用于訓練 LLM 以遵循這種工具使用的格式。
自 Toolformer 發(fā)布以來,出現(xiàn)了許多令人興奮的技術(shù),例如;可以使用數(shù)千種工具的 LLM(ToolLLM)或可以輕松檢索最相關(guān)工具的 LLM(Gorilla)。
不管怎樣,大多數(shù)當前的 LLM(2025年初)都經(jīng)過訓練,可以通過 JSON 生成輕松調(diào)用工具。
7、模型上下文協(xié)議(MCP)
工具是智能體框架的重要組成部分,允許 LLM 與世界互動并擴展其能力。然而,當您有許多不同的 API 時,啟用工具使用變得麻煩,因為任何工具都需要:
- 手動跟蹤并輸入給 LLM
- 手動描述(包括其預期的 JSON 模式)
- 每當其 API 發(fā)生變化時手動更新

為了使工具更容易在任何給定的智能體框架中實現(xiàn),Anthropic 開發(fā)了模型上下文協(xié)議(MCP)。MCP 標準化了對天氣應用和 GitHub 等服務的 API 訪問。
它由三個部分組成:
- MCP 主機:LLM 應用程序(比如:Cursor),管理連接
- MCP 客戶端:與 MCP 服務器保持 1:1 連接
- MCP 服務器:向 LLM 提供上下文、工具和能力

例如,假設您希望某個 LLM 應用程序總結(jié)您倉庫中的5個最新提交。
MCP 主機(與客戶端一起)將首先調(diào)用 MCP 服務器,詢問哪些工具可用。

LLM 收到信息后,可能會選擇使用工具。它通過主機向 MCP 服務器發(fā)送請求,然后接收結(jié)果,包括使用的工具。

最后,LLM 接收結(jié)果并可以向用戶解析答案。

這個框架通過連接到任何 LLM 應用程序都可以使用的 MCP 服務器,使創(chuàng)建工具變得更容易。因此,當您創(chuàng)建一個與 Github 互動的 MCP 服務器時,任何支持 MCP 的 LLM 應用程序都可以使用它。
8、規(guī)劃
工具使用使 LLM 能夠增強其能力。它們通常通過類似 JSON 的請求調(diào)用。
但是,LLM 在智能體系統(tǒng)中如何決定使用哪個工具以及何時使用呢?
這就是規(guī)劃的作用。LLM 智能體中的規(guī)劃涉及將給定任務分解為可操作的步驟。

這個計劃允許模型迭代地反思過去的行為,并在必要時更新當前計劃。

為了在 LLM 智能體中啟用規(guī)劃,我們先來看看這種技術(shù)的基礎,即推理。
9、推理
規(guī)劃可操作步驟需要復雜的推理行為。因此,LLM 必須能夠在規(guī)劃任務的下一步之前展現(xiàn)出這種行為。
“推理”型 LLM 傾向于在回答問題之前“思考”。

我在這里使用“推理”和“思考”這兩個術(shù)語時有點隨意,因為我們可以爭論這是否是類似人類的思考,或者僅僅是將答案分解為結(jié)構(gòu)化的步驟。
這種推理行為可以通過大致兩種選擇來實現(xiàn):微調(diào) LLM 或特定的提示詞工程。
通過提示詞工程,我們可以創(chuàng)建 LLM 應遵循的推理過程示例。提供示例(也稱為少樣本提示)是引導 LLM 行為的好方法。

這種提供思維過程示例的方法稱為思維鏈,能夠?qū)崿F(xiàn)更復雜的推理行為。
思維鏈也可以在沒有任何示例(零樣本提示)的情況下啟用,只需簡單地說“讓我們逐步思考”。

在訓練 LLM 時,我們可以給它足夠數(shù)量包含類似思維的示例數(shù)據(jù)集,或者 LLM 可以發(fā)現(xiàn)自己的思維過程。

一個很好的例子是 DeepSeek-R1,其中使用獎勵來引導思維過程的使用。
10、推理與行動
在 LLM 中啟用推理行為很好,但并不一定使其能夠規(guī)劃可操作的步驟。
我們到目前為止關(guān)注的技術(shù)要么展現(xiàn)出推理行為,要么通過工具與環(huán)境互動。

例如:思維鏈純粹關(guān)注推理。
最早將這兩個過程結(jié)合起來的方法之一被稱為 ReAct(推理和行動)。

ReAct 通過精心的提示詞工程實現(xiàn)。ReAct 提示詞描述了三個步驟:
- 思考:對當前情況的推理步驟;
- 行動:要執(zhí)行的一組動作(例如,工具);
- 觀察:對行動結(jié)果的推理步驟。
提示詞本身相當簡單。

LLM 使用此提示詞(可以作為系統(tǒng)提示詞)來引導其行為,以循環(huán)的方式進行思考、行動和觀察。

它會持續(xù)這種行為,直到某個行動指定返回結(jié)果。通過迭代思考和觀察,LLM 可以規(guī)劃動作,觀察其輸出,并相應地進行調(diào)整。
因此,這個框架使 LLM 能夠展現(xiàn)出比具有預定義和固定步驟的智能體更具自主性的智能體行為。
11、反思
沒有人,即使是帶有 ReAct 的 LLM,也不會完美地執(zhí)行每一個任務。失敗是過程的一部分,只要你能從這個過程中反思。
這個過程在 ReAct 中缺失,而 Reflexion(反思)技術(shù)則填補了這一空白。Reflexion 是一種使用語言強化幫助智能體從過去的失敗中學習的技術(shù)。
這種方法假設了三個 LLM 角色:
- 行動者:根據(jù)狀態(tài)觀察選擇并執(zhí)行動作。我們可以使用思維鏈或 ReAct 等方法。
- 評估者:對行動者產(chǎn)生的輸出進行評分。
- 自我反思:反思行動者采取的動作和評估者生成的評分。

添加記憶模塊以跟蹤動作(短期)和自我反思(長期),幫助智能體從錯誤中學習并識別改進的動作。
一個類似且優(yōu)雅的技術(shù)是 SELF-REFINE,其中細化輸出和生成反饋的動作會重復進行。

在 SELF-REFINE 中,同一個 LLM 負責生成初始輸出、細化輸出和反饋。

有趣的是,這種自我反思行為,無論是 Reflexion 還是 SELF-REFINE,都與強化學習非常相似,后者根據(jù)輸出的質(zhì)量給予獎勵。
12、多智能體協(xié)作
我們探索的單智能體存在幾個問題:工具過多可能會使選擇復雜化,上下文變得過于復雜,任務可能需要專業(yè)化。
相反,我們可以轉(zhuǎn)向多智能體,即多個智能體(每個智能體都有自己的工具、記憶和規(guī)劃)相互互動以及與環(huán)境互動的框架:

這些多智能體系統(tǒng)通常由專業(yè)化的智能體組成,每個智能體都配備了自己的一套工具,并由一個主管監(jiān)督。主管管理智能體之間的通信,并可以為專業(yè)化的智能體分配特定的任務。

每個智能體可能有不同的工具類型可供使用,但也可能有不同的記憶系統(tǒng)。
在實踐中,有幾十種多智能體架構(gòu),它們的核心有兩個組成部分:
- 智能體初始化:如何創(chuàng)建單個(專業(yè)化的)智能體?
- 智能體協(xié)調(diào):如何協(xié)調(diào)所有智能體?

讓我們探索各種有趣的多智能體框架,并突出這些組成部分的實現(xiàn)方式。
13、人類行為的交互式仿真
可以說最具影響力且非常酷的多智能體論文之一是《生成式智能體:人類行為的交互式仿真》。
在這篇論文中,他們創(chuàng)建了模擬可信人類行為的計算軟件智能體,他們稱之為生成式智能體。

每個生成式智能體被賦予的檔案使其表現(xiàn)出獨特的方式,并有助于創(chuàng)造更有趣和動態(tài)的行為。
每個智能體都初始化了三個模塊(記憶、規(guī)劃和反思),非常類似于我們之前看到的 ReAct 和 Reflexion 的核心組成部分。

記憶模塊是這個框架中最重要的組成部分之一。它存儲了規(guī)劃和反思行為,以及迄今為止的所有事件。
對于任何給定的下一步或問題,記憶會被檢索并根據(jù)其最近性、重要性和相關(guān)性進行評分。評分最高的記憶將與智能體共享。

一起,它們允許智能體自由地進行行為并相互互動。因此,幾乎沒有智能體協(xié)調(diào),因為它們沒有特定的目標需要努力實現(xiàn)。

論文中有太多令人驚嘆的信息片段,但我想強調(diào)他們的評估指標。
他們的評估主要以智能體行為的可信度為指標,由人類評估者進行評分。

這展示了觀察、規(guī)劃和反思對于這些生成式智能體的表現(xiàn)是多么重要。正如我們之前探討的,規(guī)劃如果沒有反思行為是不完整的。
14、模塊化框架
無論您選擇哪種框架來創(chuàng)建多智能體系統(tǒng),它們通常都由幾個要素組成,包括其檔案、對環(huán)境的感知、記憶、規(guī)劃和可用動作。

實現(xiàn)這些組成部分的流行框架有 Spring AI Alibaba、AutoGen、MetaGPT 和 CAMEL。然而,每個框架在每個智能體之間的通信方式上略有不同。
以 CAMEL 為例,用戶首先創(chuàng)建問題并定義 AI 用戶和 AI 助手角色。AI 用戶角色代表人類用戶,并將引導整個過程。

之后,AI 用戶和 AI 助手將通過相互互動來解決查詢問題。

這種角色扮演方法實現(xiàn)了智能體之間的協(xié)作溝通。
AutoGen 和 MetaGPT 有不同的溝通方式,但歸根結(jié)底,它們都具有協(xié)作性質(zhì)的溝通。智能體有機會相互交流,以更新它們當前的狀態(tài)、目標和下一步行動。
在過去的一年里,尤其是在過去的幾周里,這些框架的增長呈爆炸式增長。

2025年將是令人興奮的一年,因為這些框架不斷成熟和發(fā)展!
總結(jié),以上就是 LLM Agents 的探索之旅!希望這篇文章能讓你更好地理解 LLM Agents 的構(gòu)建方式。
好了,這就是我今天想分享的內(nèi)容。
本文轉(zhuǎn)載自??玄姐聊AGI?? 作者:玄姐

















