到底什么是智能體?由LLM+Prompt+Tools組成的系統(tǒng)就是智能體嗎? 原創(chuàng)
“ 智能體的難點(diǎn)不在于其理論,而在于其實(shí)現(xiàn);智能體之間的通訊問題,多工具并行調(diào)用問題等。”
關(guān)于智能體這個(gè)問題,從最開始的粗淺認(rèn)識(shí)到后面的深入了解,再到現(xiàn)在好像又不太明白什么是智能體了;在之前對(duì)智能體的認(rèn)識(shí)中,就是一個(gè)會(huì)使用工具的大模型,但等到真正把智能體應(yīng)用到業(yè)務(wù)場(chǎng)景中才發(fā)現(xiàn),智能體好像遠(yuǎn)沒有想象中的那么簡(jiǎn)單。
以下是來自百度百科的智能體的定義:
智能體(Agent)是指能夠感知環(huán)境并采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的代理體。它可以是軟件、硬件或一個(gè)系統(tǒng),具備自主性、適應(yīng)性和交互能力。智能體通過感知環(huán)境中的變化(如通過傳感器或數(shù)據(jù)輸入),根據(jù)自身學(xué)習(xí)到的知識(shí)和算法進(jìn)行判斷和決策,進(jìn)而執(zhí)行動(dòng)作以影響環(huán)境或達(dá)到預(yù)定的目標(biāo)。

簡(jiǎn)單來說智能體是一個(gè)系統(tǒng),它能夠感知環(huán)境并且能夠和環(huán)境進(jìn)行交互;當(dāng)然,還是那句話任何天上飛的理念都要有落地的實(shí)現(xiàn),目前智能體的具體實(shí)現(xiàn)主要還是依靠LLM+Tools的方式,原理就是LLM有邏輯推理的能力,能夠進(jìn)行自我決策,而Tools能夠給LLM提供與外界環(huán)境交互的能力。
但是理論畢竟是理論,基于LLM+Tools的智能體系統(tǒng),怎么與具體的業(yè)務(wù)場(chǎng)景相結(jié)合才是智能體應(yīng)用過程中必須要面對(duì)的問題,也是必須要解決的問題。
智能體應(yīng)該怎么解決業(yè)務(wù)問題?
基于LLM+Tools的智能體的構(gòu)成說簡(jiǎn)單也簡(jiǎn)單,說復(fù)雜也很復(fù)雜;簡(jiǎn)單的點(diǎn)在于實(shí)現(xiàn)一個(gè)最基礎(chǔ)的智能體只需要模型+工具即可;但要實(shí)現(xiàn)一個(gè)復(fù)雜的智能體還需要有高質(zhì)量的提示詞,記憶能力,決策能力和自我修正能力等。
還以作者目前的業(yè)務(wù)場(chǎng)景為例,有三個(gè)子場(chǎng)景需要用智能體實(shí)現(xiàn);然后每個(gè)子場(chǎng)景需要同時(shí)支持多種召回策略,這個(gè)也需要智能體來實(shí)現(xiàn);而三個(gè)子場(chǎng)景和多個(gè)召回策略屬于兩個(gè)維度的東西,他們的功能不同,但又有聯(lián)系。這時(shí)用智能體應(yīng)該怎么實(shí)現(xiàn)?

比如說給三個(gè)子場(chǎng)景,每個(gè)場(chǎng)景用一個(gè)單獨(dú)的智能體實(shí)現(xiàn),然后不同維度的召回策略做成獨(dú)立的工具,然后綁定到三個(gè)智能體中;或者,三個(gè)場(chǎng)景做成獨(dú)立的智能體,然后多維度召回也做成獨(dú)立的智能體,然后對(duì)智能體進(jìn)行編排。
因此,面對(duì)這種情況就想到了一個(gè)問題,智能體到底是什么?
拋開記憶等其它模塊不談,只考慮智能體的核心能力——自主決策和環(huán)境感知,也就是LLM+Tools;理論上來說,只需要給LLM+配置不同的Tools就可以變成具備不同能力的智能體;但這樣好像也不太對(duì),因?yàn)樾枰Y(jié)合不同的提示詞才能讓大模型知道它的角色,以及應(yīng)該怎么使用這些工具來完成任務(wù)。
最重要的是,如果基于Langgraph開發(fā)框架做智能體,如果一個(gè)智能體配置多個(gè)工具,且需要同時(shí)調(diào)用(順序或并行調(diào)用)多個(gè)工具才能完成任務(wù),怎么才能整合多個(gè)工具的返回結(jié)果;畢竟對(duì)Langraph的智能體來說,工具調(diào)用的結(jié)果是直接返回給大模型的,雖然也可以通過解析數(shù)據(jù)的方式拿到工具調(diào)用的返回值;但總覺得好像有點(diǎn)別扭,這好像并不是特別好的處理方式。

而且,在對(duì)工具執(zhí)行結(jié)果進(jìn)行整理之后,如果結(jié)果無法解決用戶問題,這時(shí)依然需要智能體能夠做出判斷,并且再次調(diào)用工具獲取新的結(jié)果。
所以,一個(gè)完整的智能體系統(tǒng)應(yīng)該包含多個(gè)模塊,LLM,Tools,Memory等;但在具體的落地過程中,可以根據(jù)具體的業(yè)務(wù)場(chǎng)景選擇單智能體模式,還是多智能體模式;而不管哪種模式,其中都涉及到很多細(xì)節(jié)性的東西需要處理;比如說多智能體之間的通訊問題,多工具并行調(diào)用的處理問題等。
本文轉(zhuǎn)載自???AI探索時(shí)代??? 作者:DFires

















