OpenAI 無需向量化的 RAG 新架構設計范式剖析 原創 精華
AI 應用在企業中落地越來越多了,特別是幫助用戶從海量文檔中迅速找到所需信息并提供答案,這些應用在技術上往往會使用到 RAG(檢索增強生成),RAG 技術是構建這類系統的主要選擇。然而,傳統 RAG 技術往往需要復雜的向量化過程,這不僅增加了開發難度,也限制了系統的效率和可擴展性。

最近,OpenAI 公布了一個令人眼前一亮的 RAG 問答系統架構設計新范式。這一系統同樣基于 RAG 技術,但卻完全摒棄了向量化步驟,實現了技術上的重大突破。那么,它是如何做到這一點的呢?本文將深入剖析這一創新案例,并進一步探討通用的大模型選擇策略,幫助你在實際應用中構建出更高效、更智能的 AI 智能體系統。

下文我們詳細剖析之。
一、OpenAI RAG 架構設計新范式剖析
1、無向量化 RAG 架構設計新理念
RAG 技術的核心目標是解決大語言模型(LLM)在處理特定領域知識時的局限性,比如“失憶”問題或者長文本處理的高昂成本。比如:如果你要為自己的公司搭建一個智能客服系統,大模型本身是不知道你們公司的產品細節的。如果把一本厚厚的、長達 1000 頁的產品手冊全部塞進大模型里,不僅成本高得嚇人,而且大模型還可能因為信息量太大而“記不住重點”。RAG 技術的出現,就是為了攻克這個難題:它可以從海量文檔中精準地篩選出與用戶問題最相關的內容(比如:在 1000 頁手冊里,可能只有三段話是關鍵信息),然后把這部分精煉的信息和用戶的問題一起交給大模型,讓大模型基于這些相關的信息給出準確的回答。這種“先篩選關鍵信息,再基于這些信息回答問題”的模式,正是 RAG 的核心優勢。
傳統的 RAG 技術大多依賴向量化,即把文本轉換成數字向量,通過計算向量之間的相似度來找到相關內容。但 OpenAI 的新方案卻打破了常規,它采用了一種零向量化的 Agentic RAG 方法,其核心是模擬人類閱讀和思考的方式,讓系統像人一樣去理解和篩選信息。

2、無向量化 RAG 新架構設計剖析(以法律知識問答為案例)
OpenAI 無向量化 RAG 新架構設計由四大核心環節構成,以下以法律知識問答為案例來詳細剖析之。


第一、文件加載 (Document Loading)
系統首先加載一份長達 1000 多頁的 PDF 格式法律文件( 比如:《商標審判和上訴委員會程序手冊 TBMP》)。它會提取文本內容,但為了避免超出 GPT-4.1-mini 模型 100 萬 Token 的上下文窗口限制,系統只讀取前 920 頁,這部分內容剛好在大模型可處理范圍內。
第二、內容切割與挑選(層次化導航)(Hierarchical Navigation)
這是整個流程最具創新性的環節,模擬人類“從粗到細”的閱讀方式,系統會進行多輪迭代:
- 初始粗切:將整個法律內容切分為 20 個大塊。
- 模型路由:將這些大塊和用戶問題一起發送給 GPT-4.1-mini 模型。該大模型基于其強大的自然語言理解能力,識別出哪些大塊可能包含相關信息。選擇 GPT-4.1-mini 是因為其巨大的上下文窗口(100 萬 Token)和較低的成本,非常適合處理大量文本的初步篩選。
- 逐層鉆取:在后續輪次中,大模型會對上一輪挑選出的相關內容再次進行細致切割(比如:每個選定塊再切分 3 份),然后再次讓大模型挑選,如此往復,直到找到與用戶問題最相關的段落級別內容。這種迭代方式比一次性將文檔切成數百份并讓大模型挑選的效果更好,因為切得太細碎反而可能讓大模型感到混亂。
- 思考板(Scratchpad):在內容挑選過程中,系統會要求大模型在選擇前必須進行思考,并將思考過程存儲在“思考板”中。這個思考板的內容會帶到下一輪,不僅提高了挑選的準確率,還使得大模型的決策過程可追溯和可調試,極大地增強了系統的透明度。
第三、生成答案 (Answer Generation)
一旦確定了與用戶問題最相關的幾個段落,系統會將其與用戶問題一起打包,發送給 GPT-4.1 大模型來生成初步答案。選擇 GPT-4.1 是因為在這個環節中,答案的準確性至關重要,而 GPT-4.1-mini 模型“胡說八道”的概率會大很多。此外,由于此時輸入大模型的文本量已經大大減少,成本控制的需求也不再像內容挑選階段那樣強烈。
強制引用:為了確保答案的可驗證性和溯源性,系統采用了一個巧妙的“字面量列表(List of Literals)”技巧,強制大模型只能引用提供的特定段落 ID。這意味著大模型不會憑空捏造引用或隨機高亮文本,而是必須將其回答中的每句話都與精確的源材料(比如:“0.0.5.0”等)關聯起來。這對于法律問答這類對準確性和可追溯性要求極高的場景至關重要。
第四、答案驗證 (Answer Verification)
答案生成后,系統并不會立即將其返回給用戶,而是會進行答案驗證:
- LLM-as-Judge:系統會將大模型的初步回答、用戶問題以及引用的段落內容,一同發送給 O4(或 O4-mini)大模型進行驗證。O4 大模型推理能力極強,非常適合判斷答案是否基于引用內容回答、是否存在“胡說八道”的情況。
- 信心評估:驗證結果不僅包含通過與否,還會給出大模型對答案準確性的信心值(如“高”、“中”、“低”),這為答案質量提供了額外的質量保障。
通過以上四個核心環節,OpenAI 的無向量化 RAG 系統在法律知識問答領域實現了高效、準確且可追溯的智能問答,為用戶提供了可靠的解決方案。
3、無向量化 RAG 新架構設計的優劣與成本考量
這種創新的 RAG 架構設計新方案帶來了顯著的優勢,但也伴隨一些權衡:
第一、優勢 (Benefits)
- 零攝入延遲:新文檔可以立即用于問答,無需任何預處理或維護向量數據庫。
- 動態導航:通過模仿人類閱讀模式,能更靈活地處理復雜文檔,理論上準確率更高。
- 跨章節推理:大模型能夠發現文檔不同部分之間的關聯,避免傳統 RAG 因分塊過小而可能錯失的聯系,提高了答案的準確性。
- 無需額外基礎設施:整個系統只需通過 API 調用即可構建,無需向量數據庫等額外基礎設施維護。
第二、劣勢 (Tradeoffs)
- 單次查詢成本較高:每次查詢需要更多計算,導致成本比基于向量嵌入的傳統 RAG 高。比如:一次查詢的成本約為 0.36 美元。
- 查詢時間更長:層次化導航過程比簡單的向量查找需要更長的處理時間,增加了延遲。
- 可擴展性有限:對于極其龐大的文檔集合,傳統預處理(比如:向量化)可能仍然更高效。
第三、適用場景
盡管存在上述權衡,對于那些對即時性、答案精確性、可溯源性和無需維護復雜基礎設施有高要求的場景(比如:法律、醫療合規、金融法規或技術文檔),這種 Agentic RAG 方法無疑是一個強大的解決方案。
4、通用大模型選擇智慧:構建多模態、多 AI 智能體系統
OpenAI 的實踐案例不僅展示了創新的 RAG 技術,還蘊含著通用的大模型選擇和組合智慧。OpenAI 的模型大致可分為兩大家族:
第一、GPT 模型(比如: GPT-4.1, GPT-4o)

- 特點:通常針對通用任務進行優化,擅長指令遵循和長上下文處理。
- 應用場景:適用于需要處理大量文本和生成通用內容的場景。
o 系列模型(比如: o3, o4-mini)
- 特點:專為深度推理和多步問題解決而設計,擅長復雜、多階段任務和工具使用。
- 應用場景:適用于需要深度分析和多步推理的復雜任務。
第二、核心洞察
分層方法:使用更快速、更廉價的大模型進行廣度和初步篩選,然后將任務升級到更強大、更精確的大模型進行深度分析、批判性審查和最終生成。這種分層方法能在保持創意和速度的同時,兼顧嚴謹性和準確性,并有效管理計算成本。

第三、實際案例剖析
4.1、 AI 輔助制藥研發(AI Co-Scientist for Pharma R&D)
該系統模擬了一個高效的科研團隊,具體步驟如下:

- 構思階段:使用多個 o4-mini 實例(扮演“假設 AI 智能體”、“方案 AI 智能體”等不同角色)并行生成實驗方案,充分發揮其速度和成本優勢,同時利用外部工具調用(比如:化學數據庫、成本估算器)將方案與真實數據結合。
- 排名階段:o4-mini 或 o3 對生成的方案進行配對比較,而非孤立評分,以獲得更可靠的相對排名。
- 深度批判與合成:將排名前列的方案交給 o3 進行嚴格審查,o3 扮演“資深科學家”,評估科學有效性、方法論、安全性和預算合規性,并提出改進意見。將構思與批判分離,并使用不同的模型,能有效避免模型自我辯護,提高客觀性。
- 安全檢查(可選):GPT-4.1-mini 可進行最后的特定安全風險檢查。
- 人類審查與學習:最終方案由人類科學家審查批準,實驗結果反饋給 o3 結合 Code Interpreter 進行分析,形成學習閉環。
4.2、保險理賠表單處理(Insurance Claim Processing)
該方案旨在數字化和驗證手填保險表單,具體步驟如下:

- 第一階段(OCR):利用 GPT-4.1 強大的視覺(Vision)和 OCR 能力,以最高準確率從圖像中提取文本,并將不確定性(比如:模糊的字符、缺失的字段)傳遞給下一階段。
- 第二階段(推理與驗證):利用 o4-mini 的推理能力來驗證 OCR 結果的準確性,并使用函數調用(Function Calling)來解決不確定性,例如通過 validate_email 工具驗證郵件地址,或通過 search_web 工具推斷缺失的郵編和縣名。o4-mini 在這里提供了經濟高效的推理能力。
- 結構化輸出:整個過程使用 Pydantic 模型定義數據結構,確保輸出格式的一致性和易用性。
- 思維鏈(Chain-of-Thought):大模型在處理過程中會產生思維鏈總結,這有助于理解大模型的推理過程,并在開發中發現潛在的架構問題。
第四、關鍵技術應用
這些案例共同展示了以下關鍵技術在復雜多步 AI 智能體系統中的應用:
- 結構化輸出:確保數據格式的一致性和易用性。
- 工具集成:利用外部工具調用提升任務處理能力。
- 思考板/思維鏈:記錄大模型的推理過程,便于調試和優化。
- 角色扮演:不同大模型扮演不同角色,提高任務處理的靈活性。
- LLM 作為評判者:利用強大推理能力的模型進行驗證和評估。
通過這些實踐案例,OpenAI 展示了如何通過合理選擇和組合不同模型,實現高效、準確且經濟的 AI 智能體系統設計。
5、從原型到生產的考量
將 AI 智能體系統從原型階段過渡到生產環境,需要細致的規劃和執行。以下是需要重點關注的領域:

1. 定義成功標準
- 明確可衡量的 KPIs 和 SLOs:比如:RAG 準確率、OCR 成本、P95 延遲等,確保這些指標能夠量化系統性能和業務目標的達成情況。
2. 文檔化模型選擇理由
- 記錄選擇特定大模型的理由:包括成本、延遲和能力權衡,以便于未來的更新和團隊協作。詳細記錄這些決策過程,可以幫助團隊成員快速理解系統設計的初衷和限制。
3. 穩健的評估與測試
- 建立自動化測試套件和“黃金數據集”:持續評估模型的事實準確性、幻覺率、工具錯誤率,并進行邊緣案例測試。通過自動化測試確保模型在各種場景下的穩定性和可靠性。
4. 可觀測性與成本控制
- 實施全面的日志記錄:跟蹤 Token 使用量、大模型延遲和查詢成本,并設置成本控制措施(比如:最大 Token 限制、不同運行模式)。通過監控這些指標,可以及時發現潛在問題并優化系統性能。
- 成本控制措施:比如:設置最大 Token 限制,避免不必要的資源浪費,同時根據不同的運行模式(比如:開發、測試、生產)調整資源配置。
5. 安全性與合規性
- 利用 OpenAI 的審核 API 和安全系統提示:強制人類介入(Human-in-the-Loop, HITL)審查低置信度或高風險的輸出,并確保符合行業特定法規。通過這些措施,可以有效降低安全風險并確保系統的合規性。
6. 大模型更新與版本管理
- 制定版本鎖定策略:確保大模型的穩定性和一致性。
- A/B 測試框架:通過 A/B 測試評估新大模型版本的性能,確保改進是有效的。
- 明確的回滾程序:在出現問題時能夠快速恢復到之前的版本,減少對業務的影響。
7. 與非技術利益相關者溝通
- 將技術指標轉化為業務影響:突出大模型選擇的權衡,并用具體示例說明價值。通過清晰的溝通,幫助非技術團隊成員理解 AI 智能體系統的商業價值和潛在風險。
通過以上這些步驟,可以確保 AI 智能體系統從原型階段平穩過渡到生產環境,同時保持系統的高效性、可靠性和安全性。
6、總結
OpenAI 的實踐案例,尤其是其無需向量化的 Agentic RAG,充分展現了大上下文窗口的強大潛力。這一創新不僅開啟了高效知識問答的新篇章,更重要的是,為我們理解和構建復雜的 AI 智能體系統提供了寶貴的實踐指南。
第一、大上下文窗口的潛力
- 高效知識問答:通過精準提取和處理關鍵信息,Agentic RAG 實現了高效的知識問答,即使在處理復雜文檔時也能保持高準確率。
- 模擬人類認知:該技術通過模擬人類的閱讀和思考模式,逐步篩選和分析信息,從而更接近人類的決策過程。
第二、構建復雜 AI 智能體系統的實踐指南
- 戰略性模型選擇:通過選擇不同類型的模型(比如:GPT 系列和 o 系列),并根據任務需求進行組合,可以實現更高效的任務處理。
- 深度工具集成:通過集成外部工具(比如:化學數據庫、OCR 工具、函數調用等),系統能夠處理更復雜的任務,同時保持靈活性和擴展性。
第三、下一代 AI 智能體應用的特點
- 強大:通過分層方法和多模型協作,系統能夠處理復雜的多步任務,提供更準確的答案。
- 可靠:通過自動化測試、持續評估和安全審查,確保系統的穩定性和可靠性。
- 可控:通過成本控制、版本管理和人類介入審查,確保系統的可管理性和合規性。
- 成本效益:通過合理分配任務到不同模型,優化資源使用,降低整體成本。
通過這些實踐,OpenAI 不僅展示了無向量化 RAG 的強大能力,還為構建下一代 AI 智能體應用提供了清晰的路徑。這種技術不僅適用于法律、醫療、金融等領域,還可以推廣到任何需要高效知識處理和復雜決策的場景。
好了,這就是我今天想分享的內容。
本文轉載自??玄姐聊AGI?? 作者:玄姐

















