一文全面總結(jié)構(gòu)建 AI 智能體開源技術(shù)棧 V2 版本 原創(chuàng)
在這篇文章中,我將為構(gòu)建 AI 智能體的開發(fā)人員提供開源生態(tài)系統(tǒng)的精選和更新框架。雖然不乏 AI 智能體市場(chǎng)地圖,但大多數(shù)地圖都面向非構(gòu)建者,他們需要可視化的工具和框架來(lái)啟動(dòng)當(dāng)今的功能性 AI 智能體。
本文中列出的每個(gè)框架都允許商業(yè)用途,并具有寬松的開源許可證。
本文涵蓋的開源技術(shù)棧類別:
→ 構(gòu)建和編排 AI 智能體 (10)→ 計(jì)算機(jī)使用 (5)
→ 瀏覽器自動(dòng)化 (5)
→ 語(yǔ)音 (12)
→ 文檔處理 (7)
→ 記憶 (3)
→ 測(cè)試、評(píng)估和可觀測(cè)性 (6)→ 垂直 AI 智能體 (7)

下文詳細(xì)剖析之。
一、構(gòu)建和編排 AI 智能體(Agent Frameworks)
1、AI 智能體編排開源框架有哪些?
要構(gòu)建超越簡(jiǎn)單提示詞的 AI 智能體,用于實(shí)際業(yè)務(wù)場(chǎng)景的規(guī)劃、記憶和工具使用的基礎(chǔ)設(shè)施,以及一種將它們結(jié)合在一起的方法。
隨著越來(lái)越多的開發(fā)人員開始發(fā)布現(xiàn)實(shí)世界的 AI 智能體,新的框架不斷涌現(xiàn),舊框架不斷發(fā)展,以應(yīng)對(duì) AI 智能體的實(shí)際挑戰(zhàn)。本節(jié)介紹了構(gòu)建思考、記憶和行動(dòng)的 AI 智能體最有效的工具。
開源 AI 智能體框架下表所示:

2、如何選擇?
- 對(duì)于初學(xué)者或快速原型制作,請(qǐng)考慮Langflow(如下圖所示)的直觀可視化界面和OpenAI 的 Agents SDK,或LangChain的簡(jiǎn)單性和靈活性。

- 對(duì)于企業(yè)應(yīng)用程序,Portia和CrewAI提供了適合需要控制和可擴(kuò)展性的生產(chǎn)環(huán)境的強(qiáng)大功能。
- 對(duì)于多模態(tài)或內(nèi)存密集型 AI 智能體,Agno為需要持久內(nèi)存和多模態(tài)輸入的 AI 智能體提供輕量級(jí)支持。
- 對(duì)于復(fù)雜的模擬或數(shù)據(jù)生成,Camel擅長(zhǎng)創(chuàng)建可定制的多 AI 智能體系統(tǒng)來(lái)模擬現(xiàn)實(shí)世界的交互。
- 對(duì)于自主任務(wù)執(zhí)行,AutoGPT專為需要在沒有連續(xù)人工輸入的情況下進(jìn)行作的 AI 智能體而設(shè)計(jì)。
二、計(jì)算機(jī)使用(Computer Use)
1、計(jì)算機(jī)使用開源框架有哪些?
當(dāng) AI 智能體能夠像人類一樣使用計(jì)算機(jī)時(shí),它們就會(huì)變得更加有用:點(diǎn)擊、打字、瀏覽和運(yùn)行程序。下面的庫(kù)使它成為可能,讓 AI 智能體彌合語(yǔ)言輸出和現(xiàn)實(shí)世界之間的差距。
開源計(jì)算機(jī)使用框架下表所示:

2、如何選擇?
- 對(duì)于通過自然語(yǔ)言執(zhí)行本地代碼,請(qǐng)使用Open Interpreter– 它設(shè)置速度快,非常適合命令驅(qū)動(dòng)的 AI 智能體。
- 對(duì)于需要像人類一樣查看和控制計(jì)算機(jī)屏幕的代理來(lái)說(shuō),Self-Operating Computer 是您的最佳選擇。
- 如果你的 AI 智能體需要在安全、快速的沙盒環(huán)境中運(yùn)行,請(qǐng)使用CUA。
- 對(duì)于不規(guī)則界面上的動(dòng)態(tài)多步驟任務(wù),Agent-S的規(guī)劃和學(xué)習(xí)功能提供了最大的靈活性。
- 如果你的 AI 智能體依賴于從屏幕截圖中解釋 UI(例如,在視覺布局中建立操作),OmniParser會(huì)添加關(guān)鍵的視覺解析功能。
比如:使用 CUA 在 Photoshop 中編輯照片。此視頻中的所有操作都是根據(jù)給定的自然語(yǔ)言提示詞自動(dòng)執(zhí)行的。

三、瀏覽器自動(dòng)化(Browser Automation)
1、瀏覽器自動(dòng)化開源框架有哪些?
隨著 AI 智能體從被動(dòng)推理轉(zhuǎn)向主動(dòng)執(zhí)行,瀏覽器成為他們通往互聯(lián)網(wǎng)的門戶。無(wú)論是抓取數(shù)據(jù)、提交表單還是瀏覽復(fù)雜的工作流程,瀏覽器自動(dòng)化工具都可以讓 AI 智能體像人類一樣通過點(diǎn)擊、滾動(dòng)和鍵入輸入與網(wǎng)頁(yè)進(jìn)行交互。這些開源框架在抽象級(jí)別、性能和集成方面有所不同,因此選擇正確的開源框架取決于你的目標(biāo)。
開源瀏覽器自動(dòng)化框架下表所示:

2、如何選擇?
- 對(duì)于 LLM 計(jì)劃步驟的低代碼聲明性方法,請(qǐng)嘗試Stagehand。
- 如果你正在構(gòu)建需要深入了解網(wǎng)站并從中提取內(nèi)容的 AI 智能體,Firecrawl提供了最干凈的管道。
- 為了通過集成鉤子對(duì)瀏覽器作進(jìn)行 LLM 友好的控制,我推薦流行的 Browser Use。
- 如果需要對(duì)跨瀏覽器的瀏覽器作進(jìn)行更低級(jí)的控制,請(qǐng)選擇Playwright。
- 如果你需要在 Node.js 環(huán)境中快速、可編寫腳本的 Chrome 自動(dòng)化,請(qǐng)使用Puppeteer。
比如:將商品添加到購(gòu)物車并使用瀏覽器使用結(jié)賬。

四、聲音(Voice)
1、聲音開源框架有哪些?
語(yǔ)音仍然是人類最直觀的界面,對(duì)于 AI 智能體來(lái)說(shuō)也是如此。這些工具允許 AI 智能體處理語(yǔ)音輸入和輸出:理解口語(yǔ)、跟蹤對(duì)話并自然響應(yīng)。
開源語(yǔ)音框架下表所示,包括:(Speech-to-Speech, Speech-to-Text, Text-to-Speech)。

2、如何選擇?
選聲音,先定場(chǎng)景再選方案:
- 客服/電話用 Vapi 這類低延遲電話級(jí)語(yǔ)音;
- 內(nèi)容創(chuàng)作用 ElevenLabs 的高保真克隆;
- 實(shí)時(shí)多模態(tài)對(duì)話選 Sesame;
- 開源或邊緣部署用 Whisper+Coqui TTS;
- 想省錢就 OpenAI TTS,想快上線直接集成云 API,想自托管就 Docker 一鍵包。
五、文檔處理(Document Processing)
1、文檔處理開源框架有哪些?
現(xiàn)代 AI 智能體必須處理和理解各種格式的文檔,從 PDF 到包含文本的圖像。以下開源工具使 AI 智能體能夠從非結(jié)構(gòu)化文檔中提取、解釋信息并采取行動(dòng),從而促進(jìn)現(xiàn)實(shí)世界的業(yè)務(wù)流程。
開源文檔處理框架下表所示:

2、如何選擇?
- 合同、研究論文等長(zhǎng)篇 PDF - 使用Qwen2.5-VL或mPLUG-DocOwl2進(jìn)行高效的多頁(yè)理解,而無(wú)需依賴 OCR。而且,從幾個(gè)月前開始,您還可以使用 ms-swift 輕松地在自己的數(shù)據(jù)上微調(diào) DocOwl2 模型。
- 文本 + 圖像文檔,例如:醫(yī)療報(bào)告、帶注釋的圖表 - 嘗試使用Molmo進(jìn)行高分辨率多模態(tài)輸入、可視化 QA 和 GUI 解析。
- 布局分析和表格提取 - 使用Docling進(jìn)行 JSON/Markdown 轉(zhuǎn)換,或使用LayoutLMv3進(jìn)行表單理解和布局感知建模。
- 帶語(yǔ)音的輕量級(jí)多模態(tài) -Phi-4在緊湊的模型中處理文本、視覺和語(yǔ)音,非常適合設(shè)備上的 AI 智能體。
六、記憶(Memory)
1、記憶開源框架有哪些?
為了感覺真正聰明,AI 智能體需要記憶。沒有它,他們就會(huì)陷入單輪循環(huán),忘記剛剛發(fā)生的事情、用戶想要什么或他們已經(jīng)做了什么。以下開源框架可幫助記憶、適應(yīng)和個(gè)性化,實(shí)現(xiàn)從上下文對(duì)話到長(zhǎng)期規(guī)劃的所有內(nèi)容。
開源記憶框架下表所示:

2、如何選擇?
- 對(duì)于隨著使用而改進(jìn)的長(zhǎng)期個(gè)性化記憶,Mem0是一個(gè)不錯(cuò)的選擇,特別是如果你想要最小的開銷。
- 在構(gòu)建需要跨會(huì)話持久記憶并與工具或 API 集成的 AI 智能體時(shí),請(qǐng)使用Letta。
- 為了實(shí)現(xiàn) AI 智能體之間的主動(dòng)記憶管理和知識(shí)共享,LangMem促進(jìn)了動(dòng)態(tài)記憶操作和共享知識(shí)庫(kù)。
七、測(cè)試、評(píng)估和可觀測(cè)性(Testing,Evaluation,Observability)
1、測(cè)試、評(píng)估和可觀測(cè)性開源框架有哪些?
隨著 AI 智能體變得越來(lái)越復(fù)雜,它們需要像任何嚴(yán)肅的軟件系統(tǒng)一樣進(jìn)行測(cè)試、測(cè)量和監(jiān)控。這些開源框架可幫助你在開發(fā)和生產(chǎn)過程中捕獲邊緣情況、調(diào)試行為并跟蹤性能。
開源測(cè)試、評(píng)估和可觀測(cè)性框架下表所示:

2、如何選擇?
- 為了監(jiān)控和基準(zhǔn)測(cè)試生產(chǎn)環(huán)境中的 AI 智能體性能,AgentOps提供了強(qiáng)大的跟蹤和分析工具。
- 在比較各種 AI 智能體配置或進(jìn)行 A/B 測(cè)試時(shí),Agenta有助于結(jié)構(gòu)化評(píng)估。
- 為了將可觀測(cè)性集成到 LLM 應(yīng)用程序中,OpenLLMetry利用 OpenTelemetry 進(jìn)行無(wú)縫監(jiān)控。
- 如果檢測(cè)和解決性能、偏見或安全問題是優(yōu)先事項(xiàng),Giskard提供自動(dòng)掃描功能。
- 為了實(shí)現(xiàn)全面的 LLM 可觀測(cè)性和調(diào)試,Langfuse提供了一個(gè)專為 LLM 應(yīng)用程序量身定制的開源平臺(tái)。
- 對(duì)于跨不同模型和提示詞的語(yǔ)音 AI 智能體評(píng)估,VoiceLab提供了全面的測(cè)試框架。
八、垂直智能體(Vertical Agents)
1、垂直智能體開源框架有哪些?
開源世界充滿了垂直智能體:用于編碼、研究、數(shù)據(jù)分析等的專用工具。我已經(jīng)事件了很多。這些是我在構(gòu)建真實(shí)的企業(yè)應(yīng)用時(shí)真正會(huì)接觸到的。
開源垂直智能體框架下表所示:

2、如何選擇?
- Goose允許自定義工作流程集成,以構(gòu)建可擴(kuò)展的 AI 編碼助手。
- 對(duì)于具有 GUI 功能的綜合編碼智能體,OpenHands提供了受 Devin 啟發(fā)的全棧解決方案。
- 如果你更喜歡類似 Claude Code 的基于終端的結(jié)對(duì)編程,aider?提供 Git 集成和多文件編輯。
- 為了將 UI 設(shè)計(jì)從圖像轉(zhuǎn)換為代碼,screenshot-to-code 可以自動(dòng)執(zhí)行原型制作過程。
- 對(duì)于自主研究任務(wù),GPT Researcher可以有效地抓取、總結(jié)和導(dǎo)出結(jié)果。
- 為了使用本地法學(xué)碩士進(jìn)行深入的、以隱私為重點(diǎn)的研究,Local Deep Research 提供迭代分析和全面的引用報(bào)告。
- 如果你的重點(diǎn)是從文本生成 SQL 查詢,Vanna?提供可定制和數(shù)據(jù)庫(kù)集成的解決方案。
總之,上述所有工具本身都很強(qiáng)大,但它們?cè)趯?shí)踐中如何真正組合在一起呢?當(dāng)你將這些組件拼接成可用、可測(cè)試和可交付的 AI 智能體時(shí),真正的架構(gòu)是什么樣子?根據(jù)我們服務(wù)的60多家企業(yè),已落地的120+ AI 大模型應(yīng)用實(shí)踐,整理了如下的6場(chǎng)直播案例。如果你試圖從“探索工具”轉(zhuǎn)向“構(gòu)建真實(shí) AI 智能體系統(tǒng)”,這些將為你提供一個(gè)良好的開端。
好了,這就是我今天想分享的內(nèi)容。
本文轉(zhuǎn)載自??玄姐聊AGI?? 作者:玄姐

















