精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

在WAIC耳朵聽出繭子的「智能體」,是時(shí)候系統(tǒng)學(xué)一下了

人工智能 新聞
我們找到了一篇寫得非常全面的博客。博客作者是 Netflix 高級(jí)研究科學(xué)家、萊斯大學(xué)博士 Cameron R. Wolfe。他從最基礎(chǔ)的 LLM 說起,逐步引入工具、推理、自主規(guī)劃的能力,深度分析了 AI 智能體的底層邏輯。

在今年的世界人工智能大會(huì)(WAIC)上,智能體是絕對(duì)的主角,從 C 端產(chǎn)品到企業(yè)級(jí)應(yīng)用,每家參展的 AI 廠商似乎都要提一下在智能體方向的布局。

這其實(shí)揭示了一個(gè)重要轉(zhuǎn)變:人們不再把 AI 大模型當(dāng)成一個(gè)單純的聊天機(jī)器人,而是希望它能像人一樣主動(dòng)思考、制定計(jì)劃、使用各種工具來完成任務(wù),這是接下來大模型走向應(yīng)用的重要方向。

看來,對(duì)于 AI 從業(yè)者來說,是時(shí)候系統(tǒng)了解一下「智能體」了。

剛好,我們找到了一篇寫得非常全面的博客。博客作者是 Netflix 高級(jí)研究科學(xué)家、萊斯大學(xué)博士 Cameron R. Wolfe。他從最基礎(chǔ)的 LLM 說起,逐步引入工具、推理、自主規(guī)劃的能力,深度分析了 AI 智能體的底層邏輯。

image.png

  • 博客地址:https://cameronrwolfe.substack.com/p/ai-agents

以下是博客的詳細(xì)內(nèi)容。

LLM及其能力

image.png標(biāo)準(zhǔn)LLM的輸入輸出特征

標(biāo)準(zhǔn) LLM 的功能如上所示。給定一個(gè)文本提示,LLM 生成一個(gè)文本響應(yīng)。從許多方面來看,LLM 的通用性是其最大的優(yōu)勢(shì)之一。

這一部分將概述如何通過利用這種文本到文本的結(jié)構(gòu),將推理或與外部 API 交互等新能力集成到 LLM 中。現(xiàn)代 AI 智能體的高級(jí)能力在很大程度上是建立在這一基礎(chǔ)功能之上的。

工具使用

隨著 LLM 逐漸變得更強(qiáng)大,如何快速教會(huì)它們集成并使用外部工具已成為 AI 研究中的熱門話題。舉些例子,計(jì)算器、日歷、搜索引擎、代碼解釋器等有用工具均可以與 LLM 集成。

簡(jiǎn)單來說,LLM 顯然并不是解決所有任務(wù)的最佳工具。在很多情況下,執(zhí)行任務(wù)都存在更簡(jiǎn)單、更可靠的工具。但考慮到 LLM 在規(guī)劃和協(xié)調(diào)方面的優(yōu)勢(shì),可以輕松地教會(huì)它們使用這些基本工具,并運(yùn)用工具作為解決問題過程的一環(huán)。

LLM 使用工具解決問題的基本思想,是賦予 LLM 將子任務(wù)提交給更專業(yè)或更強(qiáng)大的工具的能力。LLM 充當(dāng)「大腦 / 指揮官」,協(xié)調(diào)不同的專業(yè)工具協(xié)同工作。

1、針對(duì)工具使用的微調(diào)

早期的研究采用了針對(duì)性的微調(diào),教會(huì) LLM 如何利用一系列固定的工具,只需精心調(diào)整訓(xùn)練示例,將對(duì)某個(gè)工具的函數(shù)調(diào)用直接插入到 LLM 的 token 流中,如下圖所示。

image.png大語言模型工具調(diào)用的結(jié)構(gòu)

在訓(xùn)練過程中,這些工具調(diào)用與其他任何 token 類似 —— 它們都只是文本序列的一部分。LLM 在推理時(shí)(inference time)生成工具調(diào)用時(shí),將按照以下步驟處理它:

1. 停止生成 token。

2. 解析工具調(diào)用(即確定正在使用的工具及其參數(shù))。

3. 使用這些參數(shù)調(diào)用該工具。

4. 將工具返回的響應(yīng)添加到 LLM 的 token 流中。

5. 繼續(xù)生成 token。

調(diào)用的工具可以在 LLM 生成輸出時(shí)實(shí)時(shí)處理,工具返回的信息將直接添加到模型的上下文中

2、基于提示的工具使用

教會(huì) LLM 通過微調(diào)來調(diào)用工具通常需要一個(gè)大規(guī)模的訓(xùn)練數(shù)據(jù)集,通常還需要人工注釋。隨著 LLM 能力的提升,后續(xù)的研究強(qiáng)調(diào)了基于上下文學(xué)習(xí)的方法來實(shí)現(xiàn)工具使用。

為什么我們要選擇對(duì)一個(gè)語言模型進(jìn)行微調(diào),而不是簡(jiǎn)單地在模型的提示詞中解釋可供使用的工具呢?

image.png

Hugginggpt與Gorilla工作將LLM與工具集成。

基于提示詞的工具使用減少了人工干預(yù),使得我們能夠大幅增加 LLM 可訪問的工具數(shù)量。

例如,該領(lǐng)域的后續(xù)研究將 LLM 與數(shù)百個(gè)甚至數(shù)千個(gè)工具進(jìn)行了集成,如上圖所示。為了實(shí)現(xiàn)這一點(diǎn),可以將每個(gè)工具視為一個(gè)通用 API,并在模型的提示中提供相關(guān) API 的架構(gòu)作為上下文。這種方法使得 LLM 能夠通過標(biāo)準(zhǔn)化結(jié)構(gòu)與互聯(lián)網(wǎng)上的任意 API 進(jìn)行集成,從而使得無數(shù)的應(yīng)用成為可能。例如,查找信息、調(diào)用其他 ML 模型、預(yù)訂假期、管理日歷等。

3、模型上下文協(xié)議(Model context protocol ,MCP)

MCP 由 Anthropic 提出,是一個(gè)受歡迎的框架,擴(kuò)展了讓 LLM 與任意工具互動(dòng)的理念。

簡(jiǎn)單來說,MCP 將外部系統(tǒng)將上下文提供給 LLM 提示的格式進(jìn)行了標(biāo)準(zhǔn)化。為了應(yīng)對(duì)復(fù)雜問題,LLM 需要隨著時(shí)間的推移集成更多的外部工具。為了簡(jiǎn)化這個(gè)過程,MCP 提出了一種標(biāo)準(zhǔn)格式,并允許開發(fā)者創(chuàng)建預(yù)先建立的集成(稱為 MCP 服務(wù)器),可以被任何 LLM 調(diào)用,以連接各種自定義數(shù)據(jù)源,如下圖所示。

image.png

MCP的整體架構(gòu)示意圖

4、工具使用的局限性

盡管工具使用具有強(qiáng)大的能力,但仍受到 LLM 推理能力的限制。為了有效地利用工具,LLM 必須具備以下能力:

  • 將復(fù)雜問題分解為較小的子任務(wù)。
  • 確定應(yīng)使用哪些工具來解決問題。
  • 可靠地構(gòu)建對(duì)相關(guān)工具的調(diào)用,并確保格式正確。

復(fù)雜的工具使用要求 LLM 成為一個(gè)高效的指揮官,在很大程度上依賴于模型的推理能力和整體可靠性

推理模型

鑒于智能體特征與推理之間的關(guān)系,推理能力多年來一直是 LLM 研究的核心焦點(diǎn)。

有關(guān)當(dāng)前推理研究的更深入概述,請(qǐng)參閱以下博客:

image.png

  • 博客鏈接:https://cameronrwolfe.substack.com/p/demystifying-reasoning-models

為了本文完整性,我們將在這里簡(jiǎn)要介紹推理模型背后的關(guān)鍵思想。

1、思維鏈(Chain of Thought, CoT)

當(dāng) LLM 出現(xiàn)時(shí),最常見的批評(píng)之一是這些模型無法執(zhí)行復(fù)雜的推理。然而,關(guān)于思維鏈(Chain of Thought,CoT)的研究揭示了,普通的 LLM 實(shí)際上比我們最初意識(shí)到的更擅長(zhǎng)推理。

CoT 提示詞背后的思想很簡(jiǎn)單。我們并不是直接請(qǐng)求 LLM 給出最終的輸出,而是要求它在給出最終輸出之前,先生成一個(gè)推理過程或解釋,如下圖所示。

這種方法通過引導(dǎo) LLM 進(jìn)行逐步推理,幫助其在解決問題時(shí)更加系統(tǒng)地展示思維過程,從而提升其推理能力。通過展示思維鏈,模型能夠更好地理解問題的各個(gè)方面,從而得出更為準(zhǔn)確和合理的結(jié)論。

image.png

CoT提示詞使LLM輸出推理過程

有趣的是,這種方法顯著提高了普通 LLM 在推理任務(wù)中的表現(xiàn)。如果我們能找到正確的方法來引導(dǎo)這些能力,LLM 實(shí)際上是能夠在一定程度上進(jìn)行復(fù)雜推理的。

2、推理模型

CoT 提示詞非常有效,是所有現(xiàn)代 LLM 的核心部分;例如,ChatGPT 通常默認(rèn)會(huì)在其回答中輸出 CoT。

然而,這種推理方法也有些過于簡(jiǎn)單。整個(gè)推理過程圍繞 LLM 生成的 CoT 展開,并且沒有根據(jù)待解決問題的復(fù)雜性進(jìn)行動(dòng)態(tài)調(diào)整。

image.png

最近的研究引入了新的訓(xùn)練策略,創(chuàng)造了專門用于推理的 LLM(即推理模型),例如 DeepSeek。與標(biāo)準(zhǔn) LLM 相比,這些模型在解決問題時(shí)采取不同的方式 —— 它們?cè)诮o出問題答案之前,會(huì)花費(fèi)不定量的時(shí)間進(jìn)行「思考」

image.png

DeepSeek 引入新的思考方式

推理模型的思考過程與標(biāo)準(zhǔn)的思維鏈條類似,但推理模型的 CoT 通常比標(biāo)準(zhǔn) LLM 的長(zhǎng)得多(可以有數(shù)千個(gè) token),并且傾向于表現(xiàn)出復(fù)雜的推理行為(例如回溯和自我修正),還可以根據(jù)問題的難度動(dòng)態(tài)調(diào)整 —— 更難的問題需要更長(zhǎng)的 CoT。

使推理模型成為可能的關(guān)鍵進(jìn)展是通過可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards,RLVR)進(jìn)行的大規(guī)模后訓(xùn)練,如下圖所示。

如果我們擁有一個(gè)包含可驗(yàn)證問題(例如數(shù)學(xué)或編程)標(biāo)準(zhǔn)答案的數(shù)據(jù)集,就可以簡(jiǎn)單地檢查 LLM 生成的答案是否正確,并利用這一信號(hào)來通過強(qiáng)化學(xué)習(xí)訓(xùn)練模型。推理模型自然就會(huì)通過強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的自我進(jìn)化來生成長(zhǎng)思維鏈,以解決可驗(yàn)證的推理問題。

image.png

RLVR工作原理概述

我們探索了LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力,重點(diǎn)關(guān)注它們通過純強(qiáng)化學(xué)習(xí)過程實(shí)現(xiàn)自我進(jìn)化。

3、推理軌跡

總之,通過使用 RLVR 進(jìn)行大規(guī)模后訓(xùn)練的推理模型,會(huì)改變標(biāo)準(zhǔn) LLM 的行為,如下圖所示。

推理模型不是直接生成輸出,而是首先生成一個(gè)任意長(zhǎng)度的思維鏈,該鏈分解并解決推理任務(wù) —— 這就是「思考」過程。我們可以通過控制推理軌跡的長(zhǎng)度來改變模型思考的深度

例如,OpenAI 的推理模型 o 系列提供了低、中、高三個(gè)不同級(jí)別的推理深度。

image.png

推理模型的輸入輸出特征

盡管模型在給定提示詞后仍然生成一個(gè)單一的輸出,但推理軌跡隱式地展示了多種高級(jí)行為;例如,規(guī)劃、回溯、監(jiān)控、評(píng)估等。

4、推理 + 智能體

一個(gè)足夠強(qiáng)大的 LLM,能夠根據(jù)指令做出規(guī)劃并有效地對(duì)其指令進(jìn)行推理,應(yīng)該具備分解問題、解決子任務(wù),并最終自行得出解決方案的完整能力。為 LLM 提供更多的自主性,并依賴它們的能力 —— 而不是人工干預(yù) —— 來解決復(fù)雜問題,是智能體系統(tǒng)的核心思想

為了更清楚地說明智能體的概念,接下來將討論一個(gè)可以用來設(shè)計(jì)這類系統(tǒng)的框架。

ReAct 框架

ReAct(REasoning and ACTion)是第一個(gè)被提出的通用框架之一,旨在通過 LLM 智能體自主地分解并解決復(fù)雜問題

我們可以將 ReAct 視為一個(gè)由 LLM 驅(qū)動(dòng)的順序的、多步的問題解決過程。在每一個(gè)時(shí)間步驟 t,LLM 整合任何可用的反饋,并考慮問題的當(dāng)前狀態(tài),從而使其能夠有效地推理并選擇未來的最佳行動(dòng)方案。

為智能體創(chuàng)建框架

在某個(gè)特定的時(shí)間步 t,我們的智能體從環(huán)境中接收一個(gè)觀察值 o_t。基于這個(gè)觀察,智能體將決定采取某個(gè)行動(dòng) a_t,這個(gè)行動(dòng)可以是中間步驟 —— 例如,通過搜索網(wǎng)絡(luò)來找到所需的數(shù)據(jù) —— 或者是解決當(dāng)前問題的最終行動(dòng)。

我們定義智能體用于生成這一行動(dòng)的函數(shù)為策略 π。該策略將上下文(智能體之前的行動(dòng)和觀察的串聯(lián)列表)作為輸入,預(yù)測(cè)下一個(gè)行動(dòng) a_t 作為輸出,可以是確定性或者隨機(jī)性的。

如下圖所示,這個(gè)觀察與行動(dòng)的循環(huán)將持續(xù)進(jìn)行,直到智能體輸出最終行動(dòng)。

image.png

智能體的觀察-行動(dòng)循環(huán)

ReAct 框架對(duì)上述觀察 - 行動(dòng)循環(huán)進(jìn)行了一個(gè)關(guān)鍵修改。其擴(kuò)展了行動(dòng)空間,允許語言作為行動(dòng)的一種形式,這樣智能體就可以選擇生成文本輸出作為行動(dòng),而不是采取傳統(tǒng)的行動(dòng)。

換句話說,智能體在輸出行動(dòng)之外可以選擇「思考」

image.png

ReAct 框架

顧名思義,ReAct 的主要?jiǎng)訖C(jī)是找到推理與行動(dòng)之間的平衡。類似于人類,智能體應(yīng)該能夠思考并規(guī)劃它在環(huán)境中采取的行動(dòng),即推理與行動(dòng)之間具有共生關(guān)系

智能體是如何思考的?

傳統(tǒng)的智能體行動(dòng)空間是離散的,并且大多數(shù)情況下相對(duì)較小。例如,一個(gè)專門用于問答的智能體可能只有幾種行動(dòng)選項(xiàng):

* 執(zhí)行 Google 搜索以檢索相關(guān)網(wǎng)頁(yè)。

* 從特定網(wǎng)頁(yè)中抓取相關(guān)信息。

* 返回最終答案。

image.png

智能體的行動(dòng)空間示例

相比之下,語言的空間幾乎是無限的

因此,ReAct 框架要求使用強(qiáng)大的語言模型作為基礎(chǔ)。為了生成對(duì)性能有益的有用思考,智能體系統(tǒng)的 LLM 后臺(tái)必須具備先進(jìn)的推理和規(guī)劃能力。

1、思維模式

智能體可以生成的常見實(shí)用思維模式包括:分解任務(wù)、創(chuàng)建行動(dòng)計(jì)劃、跟蹤進(jìn)展,或僅僅輸出來自 LLM 隱式知識(shí)庫(kù)的(與解決問題相關(guān)的)信息。

image.png

智能體利用其思考能力明確描述問題解決方案,然后執(zhí)行計(jì)劃并同時(shí)監(jiān)控執(zhí)行情況。

在上述兩個(gè)例子中,智能體明確寫出了解決問題時(shí)需要執(zhí)行的下一步操作;例如,「接下來,我需要……」或「我需要搜索……」。

image.png

給ReAct智能體的少樣本示例

在大多數(shù)情況下,智能體產(chǎn)生的思考模仿了人類解決問題的過程

事實(shí)上,ReAct 實(shí)驗(yàn)通過提供任務(wù)解決軌跡的上下文示例(即,行動(dòng)、思考和觀察)來指導(dǎo)智能體解決問題。這些上下文是人類用來解決類似問題的過程。以這種類型提示詞訓(xùn)練的智能體更有可能采用與人類相似的推理過程。

我們讓語言模型自行決定思維和行動(dòng)不同出現(xiàn)時(shí)機(jī)。

2、智能體在什么時(shí)候應(yīng)當(dāng)思考?

根據(jù)我們所解決的問題,ReAct 框架可以進(jìn)行不同的設(shè)置。

對(duì)于推理密集型任務(wù),思考通常與行動(dòng)交替進(jìn)行 —— 我們可以將智能體硬編碼,使其在每個(gè)行動(dòng)之前生成一個(gè)單獨(dú)的思考。然而,智能體也可以被賦予自我判斷是否需要思考的能力。對(duì)于需要大量行動(dòng)的任務(wù)(決策任務(wù)),智能體可能會(huì)選擇在其問題解決軌跡中較少地進(jìn)行思考。

具體應(yīng)用案例

image.png

在 ReAct 論文中,考慮了 ReAct 框架的兩個(gè)應(yīng)用案例:

1. 知識(shí)密集型推理:使用 ReAct 進(jìn)行問答和事實(shí)驗(yàn)證任務(wù)(例如,HotpotQA 和 FEVER)。

2. 決策制定:將 ReAct 應(yīng)用于交互式(基于語言的)決策任務(wù);例如,ALFWorld 用于模擬導(dǎo)航,WebShop 用于完成自主購(gòu)物任務(wù)。

知識(shí)密集型推理

在這個(gè)領(lǐng)域,LLM 智能體只接收一個(gè)問題或命題作為輸入。為了回答問題或評(píng)估命題的正確性,LLM 必須依賴于其內(nèi)部知識(shí)庫(kù)或從外部環(huán)境中檢索必要的信息。

具體來說,智能體的行動(dòng)空間如下圖所示。

image.png

ReAct 在知識(shí)密集型推理中的行動(dòng)空間

在這里,我們看到作者通過智能體的行動(dòng)空間暴露了基本的信息檢索功能 —— 這反映了人類如何在 Wikipedia 上查找信息。

與傳統(tǒng)的 LLM 不同,ReAct 智能體不會(huì)每次提示時(shí)只生成一個(gè)輸出。相反,智能體按以下順序生成輸出:

1. 選擇一個(gè)要執(zhí)行的行動(dòng)(可以是具體行動(dòng)或思考)。

2. 根據(jù)這個(gè)行動(dòng)從環(huán)境中獲得反饋(例如,從搜索查詢中檢索到的信息)。

3. 基于這個(gè)新的上下文繼續(xù)執(zhí)行下一個(gè)行動(dòng)。

最終,智能體會(huì)執(zhí)行最終行動(dòng),以結(jié)束解決問題的過程。

如下圖所示,這個(gè)有狀態(tài)、有順序的問題解決方法是智能體的特征,顯著區(qū)分于標(biāo)準(zhǔn) LLM。

image.png

使用 ReAct 按順序解決問題

決策制定

在決策制定任務(wù)中,ReAct 的設(shè)置與知識(shí)密集型推理任務(wù)非常相似。對(duì)于這兩種任務(wù),人工手動(dòng)注釋了多個(gè)推理軌跡,這些軌跡作為上下文示例提供給 ReAct 智能體。

然而,與知識(shí)密集型推理任務(wù)不同,ReAct 在決策制定任務(wù)中使用的思維模式是稀疏的 —— 模型在何時(shí)以及如何進(jìn)行思考時(shí)要自主判斷。

此外,對(duì)于 WebShop 數(shù)據(jù)集,ReAct 智能體提供了更多種類的工具和行動(dòng)選項(xiàng);例如,搜索、篩選、選擇產(chǎn)品、選擇產(chǎn)品屬性、購(gòu)買產(chǎn)品等。這個(gè)應(yīng)用為 ReAct 與更復(fù)雜環(huán)境的交互提供了一個(gè)很好的測(cè)試場(chǎng)景。

ReAct 表現(xiàn)如何?

上面描述的 ReAct 智能體與幾個(gè)基準(zhǔn)模型進(jìn)行了比較:

  • Prompting:少量示例提示,去除思維、行動(dòng)和觀察,只留下問題和答案。
  • CoT Prompting:與上述相同,但模型被提示在輸出最終解決方案之前生成一條思維鏈。
  • Act(僅行動(dòng)):從 ReAct 軌跡中去除思維,僅保留觀察和行動(dòng)。
  • Imitation(模仿):通過模仿和 / 或強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體,模擬人類的推理軌跡。

如下圖所示,ReAct 框架始終優(yōu)于 Act,揭示了智能體在行動(dòng)時(shí)進(jìn)行思考的能力是極其重要的。進(jìn)一步來看,我們發(fā)現(xiàn) CoT 提示是一個(gè)強(qiáng)大的基準(zhǔn),在某些情況下超過了 ReAct 的表現(xiàn),但在 LLM 容易發(fā)生幻覺的場(chǎng)景中表現(xiàn)不佳,而 ReAct 能夠利用外部信息源避免這些幻覺的產(chǎn)生。

最后,我們看到 ReAct 智能體的性能仍有很大提升空間。事實(shí)上,ReAct 探討的智能體系統(tǒng)相當(dāng)脆弱;例如,作者指出,僅僅檢索到了無信息量的信息就可能導(dǎo)致失敗。

image.png

ReAct 框架的表現(xiàn)

ReAct + CoT 

ReAct 在解決問題的過程中是客觀實(shí)際的。CoT 提示在制定解決復(fù)雜推理任務(wù)的結(jié)構(gòu)方面表現(xiàn)出色。ReAct 將嚴(yán)格的觀察、思維和行動(dòng)結(jié)構(gòu)強(qiáng)加于智能體的推理軌跡上,而 CoT 則在制定推理過程時(shí)具有更多的靈活性。

為了同時(shí)獲得兩種方法的優(yōu)點(diǎn),我們可以在它們之間進(jìn)行切換。

例如,如果 ReAct 在 N 步后未能返回答案,可以默認(rèn)切換到 CoT 提示(即 ReAct → CoT);或者,如果多個(gè) CoT 樣本之間存在分歧,則使用 ReAct(即 CoT → ReAct)。

無論是向 ReAct 還是向 CoT 切換,都能提升智能體的解決問題能力

先前對(duì)智能體的嘗試

盡管 ReAct 可以說是第一個(gè)長(zhǎng)期存在的 AI 智能體框架,但在智能體領(lǐng)域之前已有許多有影響力的論文和想法。這里將簡(jiǎn)要概述一些關(guān)鍵的方法以及它們的性能。

1、Inner monologue,IM

這是與 ReAct 最為相似的工作之一,并應(yīng)用于機(jī)器人領(lǐng)域,展示了將 LLM 作為一個(gè)通用問題解決工具在自然語言以外的領(lǐng)域中的可行性。

如圖所示,IM 將 LLM 與多個(gè)領(lǐng)域特定的反饋機(jī)制,如場(chǎng)景描述符或成功檢測(cè)器,進(jìn)行集成。與 ReAct 相似,LLM 用于生成計(jì)劃并通過反復(fù)執(zhí)行、思考以及從外部環(huán)境獲取反饋來監(jiān)控任務(wù)的解決,例如拾取物體等。

image.png

IM工作示意圖

然而,相較于 ReAct,LLM 在 IM 中的「思考」能力是有限的,模型只能觀察來自環(huán)境的反饋并決定接下來需要做什么。ReAct 通過賦予智能體輸出大量自由形式的思維,解決了這個(gè)問題。

2、用于互動(dòng)決策的 LLM (LID) 

它使用語言作為規(guī)劃和行動(dòng)的通用媒介,通過提出一個(gè)基于語言的框架來解決有序的問題。

我們可以將各種任務(wù)的上下文和行動(dòng)空間表述為一系列 tokens,從而將任意任務(wù)轉(zhuǎn)換為與 LLM 兼容的標(biāo)準(zhǔn)化格式。然后,這些數(shù)據(jù)可以被 LLM 吸收,允許強(qiáng)大的基礎(chǔ)模型整合來自環(huán)境的反饋并做出決策,如圖所示。作者通過模仿學(xué)習(xí)對(duì) LID 進(jìn)行微調(diào),以正確預(yù)測(cè)跨多個(gè)領(lǐng)域的行動(dòng)。

image.png

LID 工作示意圖

3、WebGPT 

它探索了將 LLM(GPT-3)與基于文本的網(wǎng)頁(yè)瀏覽器集成,以更有效地回答問題。這項(xiàng)工作是工具使用的早期開創(chuàng)者,教會(huì) LLM 如何進(jìn)行開放式搜索和瀏覽網(wǎng)頁(yè)。

然而,WebGPT 通過大量來自人類的任務(wù)解決方案數(shù)據(jù)集進(jìn)行微調(diào)(即行為克隆或模仿學(xué)習(xí))。因此,盡管這個(gè)系統(tǒng)表現(xiàn)出色(在超過 50% 的情況下產(chǎn)生的答案優(yōu)于人類),但需要大量的人工干預(yù)。

盡管如此,使用人類反饋微調(diào) LLM 智能體仍然是今天的熱門研究話題,而 WebGPT 是這一領(lǐng)域的基礎(chǔ)性工作。

image.png

WebGPT 工作示意圖

4、Gato 

它受到 LLM 廣泛能力的啟發(fā),是一個(gè)單一的「通用」智能體,能夠在多個(gè)模態(tài)、任務(wù)和領(lǐng)域中執(zhí)行操作。

例如,Gato 可以用于玩 Atari 游戲、圖像描述、操控機(jī)器人手臂等。如報(bào)告中所述,Gato 能夠「根據(jù)上下文決定是輸出文本、關(guān)節(jié)扭矩、按鈕按壓,還是其他標(biāo)記」。該模型確實(shí)朝著創(chuàng)建一個(gè)能夠解決幾乎任何問題的自主系統(tǒng)的目標(biāo)邁進(jìn)。

然而,類似于 WebGPT,Gato 是通過模仿學(xué)習(xí)方法進(jìn)行訓(xùn)練的,收集了一個(gè)龐大的數(shù)據(jù)集,包含了多個(gè)問題場(chǎng)景中的上下文和行動(dòng) —— 所有這些都表示為 token 序列。

image.png

Gato 工作示意圖

5、通過規(guī)劃進(jìn)行推理(RAP)

這種方法旨在賦予 LLM 更好的世界模型以提高 LLM 規(guī)劃復(fù)雜、多步驟問題解決方案的能力。

特別地,LLM 用于構(gòu)建一個(gè)推理樹,可以通過蒙特卡洛樹搜索(MCTS)來探索,以找到能夠獲得高獎(jiǎng)勵(lì)的解決方案。在這里,LLM 本身也被用來評(píng)估解決方案。在 RAP 中,LLM 既充當(dāng)智能體,又充當(dāng)世界模型。

image.png

RAP 工作示意圖

更全面地了解 LLM 推理與智能體系統(tǒng)交叉的研究,請(qǐng)參閱這篇綜述。

image.png


  • 論文鏈接:https://arxiv.org/abs/2504.09037

什么是「智能體」?

基于語言模型的智能體的起點(diǎn),最簡(jiǎn)單的理解,就是使用工具的語言模型。從這里開始,智能體的復(fù)雜性逐漸增加。 —— Nathan Lambert

盡管智能體在行業(yè)中非常流行,但它們并沒有明確的定義。智能體定義不清晰的原因在于,我們?cè)诮裉斓氖澜缰杏龅礁鞣N不同類型的智能體,這些智能體在復(fù)雜性上有很大的差異

從高層次來看,智能體的功能在某些情況下可能與 LLM 類似,但智能體通常具有更廣泛的策略和工具可用于解決問題。

基于我們到目前為止所學(xué)的信息,接下來將創(chuàng)建一個(gè)框架,用于理解 AI 智能體可能擁有的能力范圍,以及這些能力與標(biāo)準(zhǔn) LLM 的區(qū)別。

從大語言模型到智能體

前文介紹了多種概念,包括:

i) 標(biāo)準(zhǔn) LLM   ii) 工具使用   iii) 推理模型,以及 iv) 自主解決問題的系統(tǒng)。

從 LLM 的標(biāo)準(zhǔn)定義開始,我們將解釋這些概念如何在標(biāo)準(zhǔn) LLM 的能力之上,創(chuàng)造出具有更多智能體性質(zhì)的系統(tǒng)。

image.png

1、[Level 0] 標(biāo)準(zhǔn) LLM

作為起點(diǎn),我們可以考慮標(biāo)準(zhǔn)的 LLM 設(shè)置(如上圖所示),該設(shè)置接收文本提示作為輸入,并生成文本響應(yīng)作為輸出。為了解決問題,該系統(tǒng)完全依賴于 LLM 的內(nèi)部知識(shí)庫(kù),而不引入外部系統(tǒng)或?qū)栴}解決過程施加任何結(jié)構(gòu)。

為了更好地解決復(fù)雜的推理問題,我們還可以使用推理風(fēng)格的 LLM 或 CoT 提示方法來引導(dǎo)推理軌跡,如下圖所示。

image.png

2、[Level 1] 工具使用

依賴 LLM 的內(nèi)部知識(shí)庫(kù)存在風(fēng)險(xiǎn) ——LLM 有知識(shí)截止日期,并且會(huì)產(chǎn)生幻覺。

為了解決這個(gè)問題,LLM 可以通過將子任務(wù)的解決委托給更專業(yè)的系統(tǒng)來更強(qiáng)大地解決問題,如下圖所示。

image.png

3、[Level 2] 問題分解

期望 LLM 在單一步驟中解決復(fù)雜問題可能是不現(xiàn)實(shí)的。相反,我們可以創(chuàng)建一個(gè)框架,規(guī)劃問題應(yīng)該如何解決,并迭代地推導(dǎo)解決方案。

這樣的 LLM 系統(tǒng)可以是手工設(shè)計(jì)的,也可以通過使用像 ReAct 這樣的框架來設(shè)計(jì),如下圖所示。

image.png

當(dāng)然,使用 LLM 分解和解決復(fù)雜問題的問題與工具使用和推理密切相關(guān)。在整個(gè)問題解決過程中,LLM 可能依賴于各種工具,而推理能力對(duì)于制定詳細(xì)且正確的解決問題計(jì)劃至關(guān)重要。

進(jìn)一步說,這種以 LLM 為中心的問題解決方法引入了推理過程中的控制流概念 —— 智能體的輸出是有序構(gòu)建的,智能體有狀態(tài)地通過一系列問題解決步驟,逐步完成推理。

4、[Level 3] 增加自主性

上述框架概述了今天 AI 智能體的主要功能。然而,我們還可以通過賦予系統(tǒng)更高的自主性,使其變得更強(qiáng)大。例如,我們可以在智能體的行動(dòng)空間中加入代表我們采取具體行動(dòng)的能力(例如,購(gòu)買物品、發(fā)送電子郵件或提交拉取請(qǐng)求)。

智能體是任何能夠感知其環(huán)境并對(duì)該環(huán)境采取行動(dòng)的事物……這意味著,智能體的特征由其操作的環(huán)境和它能夠執(zhí)行的行動(dòng)集來定義。—— Chip Huyen

到目前為止,我們所概述的智能體始終以人類用戶的提示作為輸入。這些智能體只有在人類用戶觸發(fā)的提示下才會(huì)采取行動(dòng)。然而,情況并不一定非得如此。我們可以構(gòu)建持續(xù)在后臺(tái)運(yùn)行的智能體

例如,已經(jīng)有很多關(guān)于開放式計(jì)算機(jī)使用智能體的研究,OpenAI 宣布了 Codex—— 一個(gè)基于云的軟件工程智能體,它可以并行處理多個(gè)任務(wù),甚至具備自主向代碼庫(kù)提交 PR 的能力。

5、AI 智能體體系

結(jié)合我們?cè)诒靖攀鲋杏懻摰乃懈拍睿覀兛梢詣?chuàng)建一個(gè)智能體系統(tǒng),該系統(tǒng):

  • 在沒有任何人工輸入的情況下異步運(yùn)行。
  • 使用推理 LLM 制定解決復(fù)雜任務(wù)的計(jì)劃。
  • 使用標(biāo)準(zhǔn) LLM 生成基本思維或綜合信息。
  • 代表我們?cè)谕獠渴澜绮扇⌒袆?dòng)(例如,預(yù)訂機(jī)票或?qū)⑹录砑拥饺諝v中)。
  • 通過搜索 API(或任何其他工具)獲取最新信息。

每種類型的 LLM 以及任何其他工具或模型都有其優(yōu)缺點(diǎn)。這些組件為智能體系統(tǒng)提供了許多在不同問題解決方面有用的能力。智能體系統(tǒng)的關(guān)鍵在于以無縫和可靠的方式協(xié)調(diào)這些組件。

AI智能體的未來

盡管 AI 智能體非常流行,但在這個(gè)領(lǐng)域的工作都處于起步階段。智能體通過順序的問題解決過程來運(yùn)作。如果這個(gè)過程中任何一步出錯(cuò),智能體就很可能會(huì)失敗。

去年,你說制約 [智能體] 發(fā)展的因素是另外九成的可靠性…… 你依然會(huì)描述這些軟件智能體無法完成一整天的工作,但是它們能夠在幾分鐘內(nèi)幫你解決一些問題。——Dwarkesh Podcast

因此,可靠性是構(gòu)建有效智能體系統(tǒng)的前提,尤其是在復(fù)雜環(huán)境中。換句話說,構(gòu)建穩(wěn)健的智能體系統(tǒng)將需要?jiǎng)?chuàng)造具有更高可靠性的 LLM。

無論是 LLM 還是智能體系統(tǒng),進(jìn)展都在迅速推進(jìn)。最近的研究特別集中在有效評(píng)估智能體、創(chuàng)建多智能體系統(tǒng)以及微調(diào)智能體系統(tǒng)以提高在特定領(lǐng)域中的可靠性。

鑒于該領(lǐng)域的研究進(jìn)展速度,我們很可能會(huì)在不久的將來看到這些智能體系統(tǒng)在能力和通用性方面的顯著提升。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-08-30 07:01:19

HTTP網(wǎng)絡(luò)應(yīng)用

2018-03-18 16:27:51

2024-10-12 12:30:18

2022-01-17 14:25:14

索引數(shù)據(jù)庫(kù)搜索

2020-08-27 15:35:01

存儲(chǔ)

2019-01-15 13:14:03

機(jī)器人算法SAC

2020-12-22 09:17:49

日志Loki服務(wù)

2020-09-25 19:53:39

數(shù)據(jù)

2019-03-03 15:52:39

阿里云宕機(jī)云災(zāi)備

2023-02-14 12:40:44

ChatGPTAI聊天

2023-08-18 20:50:22

2021-10-09 14:35:20

物聯(lián)網(wǎng)IOT人工智能

2021-08-22 15:07:29

大數(shù)據(jù)信息安全隱私

2017-09-15 18:16:56

人工智能Python

2011-10-12 11:07:12

iCloudiOS5蘋果

2021-11-02 14:54:41

Go結(jié)構(gòu)體標(biāo)簽

2021-10-09 18:26:59

二叉樹多叉樹搜索

2020-06-11 18:06:03

電腦電路板元件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

4438国产精品一区二区| 亚洲7777| 97在线观看免费视频| a在线免费观看| 国产精品主播| 日韩一级片网站| 日韩电影天堂视频一区二区| 日本三级片在线观看| 成人交换视频| 26uuu成人网一区二区三区| 日韩一区av在线| 成年人午夜视频在线观看| 国产精品热久久| 清纯唯美日韩| 欧美午夜精品在线| 国产美女精品久久久| 青花影视在线观看免费高清| 欧美xxxxxx| 99re在线视频这里只有精品| 欧美高清视频一区二区| 在线观看av免费观看| 香蕉视频在线播放| 青青草97国产精品免费观看无弹窗版 | 日本美女xxx| 亚洲一二三四| 久久久高清一区二区三区| 2021久久精品国产99国产精品| 中国免费黄色片| av中文在线资源| 9i在线看片成人免费| 高清视频欧美一级| 玖玖爱在线精品视频| 9999精品成人免费毛片在线看| 成人晚上爱看视频| 97视频在线观看成人| 亚洲av成人片色在线观看高潮 | 亚洲区综合中文字幕日日| 在线观看日韩国产| 亚洲精品美女久久7777777| 久久久久精彩视频| 欧美xxxxx视频| 91精品国产黑色紧身裤美女| 免费观看亚洲视频| 欧美一级视频免费| 国产精品视频| 国产一区二区三区视频免费| 成 人 黄 色 小说网站 s色| 黄色网址在线免费播放| 国产精品456露脸| 欧美极品少妇与黑人| 欧洲一级黄色片| 精品三区视频| 最新国产精品久久精品| yellow视频在线观看一区二区| 国产亚洲欧美久久久久| 色先锋久久影院av| 在线免费观看视频一区| 黄频视频在线观看| 国产刺激高潮av| 久久亚洲美女| 久久国产精品久久国产精品| 完美搭档在线观看| av在线日韩| 一区二区三区欧美激情| 玛丽玛丽电影原版免费观看1977 | 久久资源在线| 红桃视频国产一区| 亚洲电影中文字幕| 国产午夜精品全部视频播放| 无遮挡亚洲一区| 91中文字幕在线播放| 狠狠色丁香久久综合频道| 亚洲精品影视在线观看| 中文字幕一区二区在线观看视频| 俺来俺也去www色在线观看| 久久久久亚洲综合| 91日本在线视频| 亚洲图片在线视频| 欧美黄色免费| 中文字幕av一区| 麻豆精品国产传媒av| 3d动漫一区二区三区在线观看| 婷婷久久综合九色综合绿巨人| 亚洲一区二区在线看| 亚洲人妻一区二区三区| 国产麻豆精品在线| 国产精品∨欧美精品v日韩精品| 九九热国产在线| 成人短片线上看| 日韩av在线直播| 亚洲欧洲国产视频| 欧美黄页在线免费观看| 欧美性猛交xxxx久久久| 乱熟女高潮一区二区在线| 97电影在线| 91首页免费视频| 国产精品日韩高清| 99久久精品免费看国产交换| 日本一不卡视频| 91成人天堂久久成人| 久久99久久98精品免观看软件 | 精品中文视频在线| 少妇性l交大片7724com| 欧美大陆国产| 欧美日韩免费高清一区色橹橹| 99精品免费在线观看| 国产高清自产拍av在线| 艳妇臀荡乳欲伦亚洲一区| 精品国产无码在线| eeuss影院在线观看| 久久美女高清视频| 久久99久久精品国产| 黑人乱码一区二区三区av| 精品亚洲aⅴ乱码一区二区三区| 国产精品久久久91| 久久久久久无码精品大片| 国产精品久久久久久久久久妞妞| 国内精品免费午夜毛片| 久久精品国产亚洲av麻豆色欲| 欧美精品国产一区| 欧美成人亚洲成人日韩成人| 男的操女的网站| 亚洲91中文字幕无线码三区| 久久亚洲精品小早川怜子66| 潘金莲一级黄色片| 99精品综合| 久久国产精品影片| 强行糟蹋人妻hd中文| 欧美涩涩网站| 性色av香蕉一区二区| 日本道在线观看| 亚欧美中日韩视频| 国产精品福利网| 亚洲av人无码激艳猛片服务器| 日本最新不卡在线| 国产精品一区二区久久精品| 国产精品国产三级国产普通话对白| 激情另类小说区图片区视频区| 亚洲伊人成综合成人网| 亚洲黄色在线播放| www..com久久爱| 免费精品视频一区二区三区| 黄色片视频在线观看| 国产精品视频线看| 大桥未久一区二区| xxxx成人| 在线观看国产日韩| 久久精品久久99| 国产精品天天看天天狠| 亚洲人av在线影院| 国产传媒免费在线观看| 亚洲一级电影| 国产精彩精品视频| 国产伦一区二区| 成年人网站91| 亚洲激情一区二区| 美女91在线| 日本丶国产丶欧美色综合| 欧美一级免费在线| 亚欧日韩另类中文欧美| 精品国产一区av| 欧美不卡视频在线观看| 美女mm1313爽爽久久久蜜臀| 国产98在线|日韩| wwwww在线观看免费视频| 亚洲精品中文在线观看| 日本在线xxx| 四虎地址8848精品| 亚洲精品wwww| 日韩精品123区| 免费永久网站黄欧美| 91在线观看免费| 可以在线观看的黄色| 亚洲蜜臀av乱码久久精品 | 国产高清视频色在线www| 欧美日韩成人综合在线一区二区| 日韩少妇一区二区| 香蕉国产精品| 国产精品久久91| 牛牛影视精品影视| 亚洲图片欧美一区| 久久久久久久高清| 免费一区二区三区视频导航| 欧美精品久久久久久久免费观看| 国产乱码在线观看| 91麻豆精东视频| 成人一级生活片| 性欧美video另类hd尤物| 亚洲欧美成人网| 国产一级特黄aaa大片| 国产美女娇喘av呻吟久久| 日韩精品久久久| 欧美aa在线| 精品av综合导航| 麻豆精品一区二区三区视频| 秋霞电影一区二区| 欧美日韩在线不卡一区| 美女高潮在线观看| 精品久久人人做人人爰| 亚洲欧美小视频| 久草热8精品视频在线观看| 日韩欧美一区二区视频在线播放| av中文字幕在线观看第一页 | 精品高清美女精品国产区| 中文字幕第六页| 亚洲精品极品少妇16p| 国产精品永久免费| www 日韩| 欧美日韩小视频| 精品伦精品一区二区三区视频密桃| 可以免费看不卡的av网站| 免费在线国产精品| 日韩欧美另类一区二区| 亚洲欧美精品一区二区| 久久国产视频精品| 91色视频在线| 精品视频一区二区在线| 国产99久久精品一区二区300| 欧美中文在线观看| 精品久久久久一区二区三区| 91久久精品国产91性色tv| 蜜桃av免费看| 日本中文一区二区三区| 亚洲欧洲精品一区二区三区波多野1战4| 中文字幕在线播放网址| 欧美成人一区二区三区片免费| 久久机热这里只有精品| 丁香婷婷综合五月| 国产h视频在线播放| 要久久爱电视剧全集完整观看| 清纯唯美日韩制服另类| 成黄免费在线| 欧美一区二区三区四区五区| 久久久91视频| av网站一区二区三区| 亚洲精品乱码久久久久久自慰 | 法国空姐在线观看免费| 中文字幕日韩高清在线| 亚州av一区二区| 国产精品一区二区三区四区色| 在线一区二区三区四区| 日韩欧美国产成人精品免费| 国产69精品久久久久777| 国产av麻豆mag剧集| 欧美日韩在线观看视频小说| 亚洲伊人第一页| 国偷自产一区二区免费视频| 丝袜亚洲另类欧美重口| 精品国产99久久久久久宅男i| 亚洲国产精品综合小说图片区| 日韩av一二区| 国产一区91精品张津瑜| 免费国产黄色网址| 日韩精品永久网址| 国产精品国产三级欧美二区| 国产一区二区三区影视| 色综合久综合久久综合久鬼88| 色视频免费在线观看| 在线播放欧美女士性生活| 日韩网红少妇无码视频香港| 中文字幕五月欧美| 人妻在线日韩免费视频| 九一久久久久久| 91视频 -- 69xx| 亚洲女同中文字幕| 欧美在线播放一区| 99亚洲乱人伦aⅴ精品| 国产精品电影网| 91福利区在线观看| 日韩亚洲精品电影| 欧美老女人性开放| 精品免费视频.| 一级特黄特色的免费大片视频| 午夜一区二区三区视频| 成人在线观看网址| 杨幂一区二区国产精品| 亚洲福利电影| 日韩 欧美 自拍| 黑人操亚洲人| 久久久久久欧美精品色一二三四 | 亚洲va欧美va国产综合剧情| 影视一区二区三区| 97久久伊人激情网| 黄色网页在线免费看| 亚洲日韩欧美视频| 亚洲av成人无码网天堂| 日韩电影精品| 亚洲国产精品视频| 日本二区三区视频| 国产亚洲一二三区| 一级欧美一级日韩片| 国产精品一区三区| 亚洲成人天堂网| 日韩专区欧美专区| 久久久久久久久久久福利| 激情久久久久久久| xxxxxx在线观看| 国产精品毛片一区二区在线看| 欧洲成人一区二区| 伊人成综合网yiren22| 国产精品一区二区av| 成人av动漫| 成人性色av| 日韩激情欧美| 亚洲最大的网站| 中文无码日韩欧| 国产不卡一区二区在线观看| 亚洲一区二区三区在线免费| 91在线观看免费高清| 人人爱人人干婷婷丁香亚洲| 91精品视频在线| 久久天堂久久| 亚洲xxxx视频| 97se亚洲| 精品国产_亚洲人成在线| 久久中文字幕导航| 国产专区一区二区| 欧美电影在线观看完整版| 九9re精品视频在线观看re6| 亚洲成aⅴ人片久久青草影院| 久久免费99精品久久久久久| 免费欧美视频| 中文字幕一区二区三区在线乱码 | 日韩欧美高清一区| 91精品国产91久久久| 成年人视频在线免费| www.久久久久久久| 欧美亚洲国产激情| 国产精品免费看一区二区三区| 日韩在线观看中文字幕| 91传媒视频在线观看| 亚洲精品一区国产| 国产青春久久久国产毛片| 五月激激激综合网色播| 免费在线国产精品| 日韩精品1区| 免费极品av一视觉盛宴| 在线日本成人| 日本www高清视频| 另类专区欧美蜜桃臀第一页| 国产毛片久久久久久| heyzo一本久久综合| 中文字幕人妻一区二区三区在线视频| 日本福利片高清在线观看| 亚洲欧美视频在线观看| 国产精品1234区| 色综合 综合色| 国产又黄又粗又硬| 精品国产第一区二区三区观看体验| 三级国产在线观看| www日韩中文字幕在线看| 日本大胆在线观看| 热久久这里只有精品| 婷婷久久免费视频| 久久超碰亚洲| 亚洲成人精品| 欧美国产亚洲一区| 精品一区二区免费在线观看| 中文视频在线观看| 欧美国产视频在线| 久久免费黄色网址| 色婷婷激情一区二区三区| 97人妻人人澡人人爽人人精品| 亚洲国产精品系列| 色综合久久影院| 91精品国产777在线观看| 9999精品| 日本一区视频在线观看免费| 欧美日本亚洲韩国国产| 国产精品99久久免费黑人人妻| 爽好久久久欧美精品| 亚洲а∨天堂久久精品喷水 | 999精品网站| 日韩系列欧美系列| 国产精品一色哟哟| 日本大胆欧美人术艺术动态| 欧美做受高潮中文字幕| 亚洲国产精品av| 国产手机在线视频| 欧美一级二级三级蜜桃| 精品一区二区视频在线观看| 国产精品主播直播| 懂色av粉嫩av浪潮av| 欧美性黄网官网| 亚洲欧美高清视频| 精品国产网站地址| 久久xxx视频| 欧美精品成人一区二区在线观看| 欧美黄色大片网站| 天堂av在线8| 国产欧美日韩视频在线观看| 久久久久久久久久久久久久av| 精品三级在线观看| 国产在线看片| 国产一区玩具在线观看| 欧美在线免费看视频| 亚洲熟妇av一区二区三区| 97se亚洲国产综合自在线不卡| a级大片在线观看| 狠狠综合久久av一区二区小说 |