騰訊云 ES：一站式 RAG 方案，開啟智能搜索新時代

作者：黃國航 2024-12-20 08:13:06

本次分享將深入探討騰訊云 ES 在搜索領域的最新探索，詳細解析騰訊云 ES 的一站式 RAG 方案，并介紹圍繞該方案架構落地所進行的一系列內核性能和穩定性增強優化措施。

在大型語言模型（LLM）引領的革命浪潮中，搜索與大模型的緊密結合已成為推動知識進步的關鍵要素。作為開源搜索引擎排名第一的 Elasticsearch（ES），結合沉淀多年的文本搜索能力和強大的向量檢索能力實現混合搜索，使搜索變得更準、更全、更智能。騰訊云 ES 多年來持續對開源 ES 的性能、成本、穩定性以及分布式架構進行深度增強優化，并在海量規模的云業務中接受考驗。騰訊云基于 ES 實現了一站式 RAG 解決方案，具備了 RAG 技術規模化落地能力。本次分享將深入探討騰訊云 ES 在搜索領域的最新探索，詳細解析騰訊云 ES 的一站式 RAG 方案，并介紹圍繞該方案架構落地所進行的一系列內核性能和穩定性增強優化措施。

一、生活處處有搜索

1. 生活中的搜索

搜索技術與 RAG 緊密相連，因此在深入討論 RAG 之前，讓我們先來回顧一下生活中的搜索場景。在我們的日常生活中，搜索無處不在，包括網站目錄、視頻搜索、音頻搜索引擎等多種類型。

2. 搜索技術的演進

現在，讓我們來審視一下搜索技術的發展軌跡。互聯網早期的信息量較少，簡單的分類整理和人工查找即可滿足需求。然而，隨著互聯網信息的爆炸式增長，文本檢索技術應運而生，其核心是基于倒排索引的方法。這一技術能夠高效處理海量數據（如 PB 級數據），進行精準的文本檢索。然而，文本檢索的缺點在于缺乏語義理解能力。

為彌補這一不足，向量檢索技術開始發展。向量檢索通過提取對象特征，將其表示為向量，利用這些向量實現語義層面的搜索。近年來，隨著大語言模型（LLM）和神經網絡技術的飛速發展，我們可以借助大模型對海量知識進行搜索，并進一步生成總結性答案。這不僅拓展了搜索的深度與廣度，也開啟了生成式搜索的新時代。

3. 業界趨勢：生成式搜索

讓我們比較一下傳統搜索與生成式搜索的區別。傳統搜索的核心工作機制是通過爬蟲抓取網頁，并將這些網頁按關鍵詞進行排序展示。用戶在需要獲取知識時，必須逐一閱讀和分析這些網頁，最終歸納出所需的信息。這種模式雖然能夠提供豐富的數據來源，但學習效率較低，耗費大量時間和精力。

相比之下，生成式搜索依托大模型的強大總結能力，能夠對搜索到的知識進行快速歸納整理，直接生成結構化的答案或總結內容。這種方式顯著提高了學習效率，因此成為當前非常主流的學習方式。然而，生成式搜索也面臨一些問題，我們將在后續章節中展開討論。

二、初識檢索模型

接下來，讓我們一同回顧檢索模型的發展歷程。

1. 分詞算法與倒排索引

首先來了解兩項關鍵技術：分詞算法和倒排索引。分詞技術的核心是將連續的文本切割成單獨的單詞或詞組。目前，分詞技術主要分為三個類別：

基于詞典的分詞算法：這類算法依賴于預先定義的詞典，通過匹配詞典中的詞條來識別和分割文本中的單詞。
基于概率的分詞算法：這種算法不僅僅依賴詞典，還結合了統計概率方法，以確定文本中單詞的分界。
基于機器學習的分詞算法：這類算法使用機器學習技術，通過訓練數據學習分詞規則，以實現更準確的文本分割。

完成分詞后，我們可以構建一個從單詞到文本的映射關系，這被稱為倒排索引。倒排索引是一種索引結構，它允許我們快速根據關鍵詞定位到包含這些關鍵詞的文檔，從而實現對海量數據的高效檢索。這種索引機制是現代搜索引擎能夠快速響應用戶查詢的關鍵技術之一。

2. 經典檢索模型

接下來介紹經典的檢索模型。在此列舉四種最基礎的模型，首先是布爾檢索模型。這種模型基于布爾邏輯來組合關鍵詞，其返回結果是滿足特定布爾表達式的文檔集合。布爾檢索模型的優點在于結構簡單且查詢精確，但同時也存在一些缺點，如缺乏靈活性，不提供結果排序功能，且對用戶的查詢能力要求較高，需要用戶能夠準確表達他們的查詢需求。

繼布爾檢索模型之后，概率空間模型應運而生。概率空間模型基于概率論，尤其是貝葉斯理論，它通過利用文檔集合中的統計信息來估算文檔滿足用戶查詢的概率。這種模型的優點在于，它提供了概率解釋，可以根據文檔與查詢之間的相關性概率進行排序。然而，它也存在一些缺點，包括參數選擇和模型調整過程較為復雜，且在面對缺乏足夠統計信息的小型文檔集合時，其性能可能不盡如人意。

接下來，詳細介紹 TF-IDF 權重模型和向量空間模型。TF-IDF 模型主要基于詞頻（Term Frequency）和逆文檔頻率（Inverse Document Frequency）來評估一個詞在文檔中的重要性。這種技術目前被廣泛應用于文檔檢索和文本挖掘領域。盡管其核心仍然是基于關鍵詞的檢索，但它的優勢在于能夠評估詞語在文檔集合中的重要性。

向量空間模型則基于向量檢索，它將文本轉換為向量空間中的點，通過計算向量之間的距離或相似度來進行檢索。這種模型的主要優勢在于能夠進行語義檢索，因為它考慮了詞項之間的相對關系和上下文。然而，它的缺點在于高維空間可能導致計算成本較高。此外，由于我們目前描述向量的特征維度有限，最多達到4096維，因此結果的準確性可能不如基于文本的檢索方法高。這意味著在處理高維數據時，向量空間模型可能會遇到性能瓶頸，且在準確性上可能有所妥協。

3. 全文檢索

接下來介紹的是全文檢索。全文檢索結合了前面介紹的概率空間模型和 TF-IDF 模型，通過分詞、倒排索引以及貝葉斯算法等技術來統計詞語與文檔的相關性，進而找到包含特定關鍵詞或短語的文檔。以 TF-IDF 為例，TF 指的是詞條在文檔中出現的頻率，即詞頻；IDF 則是詞條在所有文檔中出現的逆頻率，它是通過取詞條出現次數的倒數再取對數得到的。總體而言，一個詞語在一篇文章中出現的次數越多，同時在所有文檔中出現的頻率越低，它就越能代表該文檔。這種檢索方式相較于傳統的關鍵詞文本檢索，具有評分和評估相關性的功能，因此其精準性得到了顯著提升，并且能夠應對關鍵詞的缺失。然而，它的局限性在于仍然基于文本，缺乏較好的語義理解能力。例如，“計算機”和“電腦”在語義上是相同的，但在全文檢索中仍然被視為兩個獨立的詞。

4. 向量檢索

向量檢索，也稱為近似檢索或語義檢索，它通過將文檔和查詢表示為向量空間中的向量，并利用這些向量之間的相似度來檢索出與查詢最相關的文檔。這種檢索方式的優點在于其良好的語義理解能力。然而，由于描述向量時特征維度的限制，其精準性可能存在不足。此外，向量檢索無法有效應對關鍵詞檢索，且難以表達文檔的額外屬性。這些局限性表明，盡管向量檢索在語義層面有所突破，但在精確性和功能性方面仍有改進的空間。

三、從 Lucene 到 ES

接下來，將進入今天的主題——Elasticsearch（ES）。

首先來介紹一下 Lucene。Lucene 是 Apache 軟件基金會下的一個開源全文檢索引擎工具包。它為軟件開發人員提供了一個簡單易用的類庫，以便在目標系統中實現全文檢索的功能。

Lucene 基于倒排索引，提供了一系列的文本處理和搜索功能，包括分詞、停用詞處理、評分排序、高亮顯示以及近實時搜索等。此外，Lucene 還提供了豐富的查詢方式，例如范圍查詢、前綴匹配、模糊匹配和布爾查詢等，這些功能使得它在全文檢索領域非常強大和靈活。通過這些高級搜索特性，Lucene 能夠滿足各種復雜的搜索需求，為用戶提供快速而準確的搜索結果。基本上在業界只要提全文檢索，Lucene 就是第一選擇。

盡管 Lucene 是一個非常強大的全文檢索庫，但它是為單機環境設計的。為了解決大規模數據和分布式環境的需求，Elasticsearch 應運而生。Elasticsearch（簡稱 ES）是一個開源的、基于 Lucene 的分布式全文檢索和數據分析引擎。它能夠處理海量數據，并提供實時的檢索和統計分析功能。Elasticsearch 的設計使其成為處理大數據場景的理想選擇，尤其是在需要快速響應和高吞吐量的環境中。

Elasticsearch 的社區非常龐大，全球有超過 10 萬的社區參與者，其中在中國就有 1 萬。這個數字體現了 Elasticsearch 在全球范圍內的廣泛受歡迎和應用。此外，Elasticsearch 的下載量達到了 3.5 億次，在全球搜索引擎的排名中，Elasticsearch 位居第一，在全球數據庫的排名中位列第七。這些排名數據源自 DB-Engines，這是一個廣受認可的數據庫管理系統排名網站。其排名依據涵蓋多個維度，包括社區活躍度、下載量、專業出版物中的提及次數等，從而為數據庫管理系統的流行度和影響力提供了權威的參考。Elasticsearch 在這些排名中的卓越表現，進一步彰顯了其在全文檢索和數據分析領域的重要地位。

當前 Elasticsearch 提供了一個 ELK 套件。Elasticsearch 作為 ELK 棧的中心，主要負責數據的存儲和分析。ELK 棧包括以下三個主要組件：

Elasticsearch：負責存儲、搜索和分析數據。它是一個強大的搜索引擎，能夠處理大量數據，并提供快速的數據檢索能力。
Kibana：負責數據的可視化展示。Kibana 允許用戶通過圖表、地圖和儀表板等形式直觀地查看和理解 Elasticsearch 中的數據。
Logstash：負責數據采集和處理。Logstash 是一個服務器端數據處理管道，可以同時從多個來源采集數據，轉換數據，然后將數據發送到 Elasticsearch。

有時，ELK 棧也會包括 Beats，這是一個輕量級的數據采集器，用于向 Elasticsearch 或 Logstash 發送數據。Beats 有多種類型，每種類型都針對特定的數據類型或使用場景進行了優化。

ELK 棧提供了一個完整的解決方案，從數據采集、處理到存儲和可視化，使得用戶能夠輕松地從大量數據中提取有價值的信息。這個棧因其靈活性、可擴展性和易用性而受到許多企業和開發者的青睞。

Elasticsearch 一直是日志場景中的首選解決方案，因為它能夠提供高性能的海量數據全文檢索。同時，Elasticsearch 提供了商業套件 X-Pack，該套件增強了 Elasticsearch 的功能，包括數據安全、告警、監控、報表、圖查詢以及機器學習等高級功能。這些功能使得 Elasticsearch 不僅能夠處理和檢索數據，還能夠提供更深層次的數據洞察和安全保障。

四、大模型與 RAG

接下來探討大模型與 RAG（Retrieval Augmented Generation）。

大模型主要分為兩類：

決策式大模型：這類模型主要根據數據輸入進行決策，其規模相對較小，主要應用于人臉識別、推薦系統、風控系統等場景。它們學習數據中的條件概率分布，用于分類、預測和決策任務。
生成式大模型：這類模型學習數據中的聯合概率分布，用于生成新的數據實例，如文本、圖像或音頻。它們通常具有較大的規模，因為生成新內容需要深入洞察數據。生成式大模型通常擁有上億甚至上萬億的參數，主要應用于智能問答、智能客服、智能寫作等場景。

隨著混元 GPT、通義千問等大型模型的相繼問世，這些先進的人工智能技術如今已在全球范圍內引發廣泛關注與熱議。在此背景下，我們迫切期望能夠將這些大模型技術引入實際生產環節，以期推動產業升級與創新發展。

盡管大模型在人工智能領域取得了顯著的進展，但它們也面臨著一些挑戰。首先，大模型的訓練數據是靜態的，這意味著它們在訓練完成后無法實時更新，無法納入訓練之后發生的新信息。因此，大模型在面對后續出現的事件和信息時，可能會表現出認知上的滯后性，從而導致其知識體系逐漸過時。

其次，大模型通常擁有上億甚至上萬億的參數，這使得每次更新都需要大量的計算資源，尤其是高性能顯卡。因此，新信息的引入對于已經學習了海量數據的模型來說，短期內的少量數據基本上無法產生足夠的信號來影響其輸出，這使得模型更新成本極高。

此外，許多企業的私域知識庫不會暴露到公網，而大模型大多基于公網數據進行訓練。這導致大模型對私域知識庫的表現能力較差，限制了其在企業生產中的應用。

鑒于上述問題，RAG（Retrieval-Augmented Generation）技術應運而生。RAG 技術通過結合檢索和生成的方法，能夠更好地處理和利用私域知識庫，從而提升大模型在企業生產中的應用效果。

RAG 技術，即檢索增強生成技術，是一種通過檢索外部知識庫來提升大模型生成效果的技術方案。該技術在大模型基礎上，通過對本地知識庫進行檢索，以增強大模型輸出的準確性和相關性。

RAG 技術主要應用于知識問答、智能客服、專家系統等場景，其工作流程主要包括以下五個步驟：

①發起問題：用戶提出問題，RAG 系統首先對問題進行處理，包括改寫、擴寫或優化，并將其轉換為向量形式，以便于后續處理。

②搜索文檔：在 RAG 系統的知識庫中進行檢索，尋找與問題相關的文檔或信息片段。

③Prompt 組裝：將檢索到的結果與原始問題進行整合，形成一個 prompt 提示，該提示將作為輸入發送到大模型。

④模型生成：大模型根據 prompt 生成答案，這一步驟依賴于模型的預訓練知識和檢索到的外部信息。

⑤答案返回：生成的答案經過格式處理后，返回給用戶，完成整個問答流程。

這一流程展示了 RAG 技術如何通過結合檢索和生成的方法，提升大模型在特定場景下的應用效果。

五、一站式向量檢索與 RAG 方案

下面通過一個具體的落地案例來進一步探討 RAG 技術的應用。

以 Langchain 為代表的眾多公開 RAG 解決方案，傾向于采用純向量檢索方式。正如前文所述，純向量檢索的優點在于流程簡單、語義理解能力強，但其缺點是精準性較差，因為其依賴于相似度檢索，難以處理關鍵詞，且無法表達文檔的額外屬性。

相比之下，基于倒排索引的全文檢索雖然精準度高，但語義理解能力較弱。因此，騰訊 ES 在 RAG 領域提出了一種基于混合檢索的一站式解決方案，即結合向量檢索和文本檢索的多路召回方式，以充分發揮兩者的優勢，取長補短。

該方案的先進性體現在以下幾個方面：首先，全文檢索基于 Lucene 的 BM25 評分算法，這是在 TF-IDF 基礎上的一次升級，增加了與問題相關性的評分。同時，引入了多語言分詞，包括中文、日文、韓文、拼音等，并設計了 QQ 分詞，內含百萬級中文詞匯，基本覆蓋了絕大多數的中文場景，分詞效果顯著。

其次，向量檢索基于原生 HNSW 算法，并在此基礎上自研構建了高性能、高召回率的向量索引。經過驗證，我們的多路召回方案在召回率上相對于純向量檢索和文本檢索有大幅提升，最高達到了 95%，基本滿足了大部分商用場景和 ToB/ToC 場景的召回率要求。因此，我們的方案已被混元收錄為 RAG 多路召回的標準解決方案，并在公司內外部支持了 WXG、PCG、TEG 等大型在線知識庫的 RAG 項目。

接下來將詳細介紹在大型項目中遇到的一些挑戰。自年初開始，我們接手了內部的一個大型在線知識庫項目，該項目涉及海量書籍構成的百億級向量檢索數據規模，且要求檢索延遲在百毫秒以內。原生 ES 基于 HNSW 算法，這是一種主流的基于圖結構的向量近似搜索算法，其優點在于召回率和性能都較高，同等召回率下性能可達 Faiss 的 20 倍。然而，其缺點在于純內存操作，資源消耗極高。在百億知識庫的場景下，資源使用幾乎無法滿足，預估可能需要五六百臺機器，這是一個巨大的規模。

為了實現降本增效，我們通過對 ES 進行深度改造，核心原理是進程內存與系統 MMAP 文件映射的動態結合。具體流程如下：當數據寫入內存時，首先在內存中構建上層向量索引和倒排索引，然后將細粒度的向量數據和字段信息進行持久化，編碼存放到磁盤上，再通過預加載 Preload 到 MMap FS，在 MMap FS 中進行快速檢索。通過這種方式，大幅降低了 HNSW 的內存資源消耗。同時，通過高效的文件編碼、MMAP 文件的動態管理以及向量的標量化，提升了檢索性能。

這樣做的目的是：

當進程內存充足時，當純內存向量&倒排索引檢索庫使用，以保證最佳的性能；
當進程不足以存放全部索引時，可以利用 MMapFS 來做內存的壓縮跟熱索引的訪問加速；
當進程 + MMapFS 文件系統都存放不下全部向量索引時，此時自動降級為磁盤向量檢索算法。

這種深度改造的架構突破了傳統的 HNSW 算法受內存資源的限制，只需要原本的 1/10 ~ 1/20 左右的內存就可以將向量索引全部加載進內存。向量規模越大，實際上可壓縮節省的內存就越多。同時我們通過高效的文件編碼、MMapFS 文件的動態管理，向量的 int/byte 量化，依然保持了基本無損的寫入跟查詢性能。不足之處在于首次讀取時預加載到 MMapFS 有一個過程，但可以通過主動觸發 PreLoad 來加速這個過程。

經過驗證，我們的方案在內存資源消耗上降低了 80%，在同等資源情況下，性能提升了 5 到 10 倍。相對于開源 ES 版本，騰訊 ES 能夠實現 10 倍的性能提升，達到了業界領先水平。

隨后，我們將資源優化部分回饋到開源 ES 社區和 Lucene 社區，得到了社區的高度認可和廣泛宣傳。這不僅提升了我們的技術影響力，還收到了 Elasticsearch 創始人的感謝信。未來，我們將在 AI 時代繼續與開源 ES 社區保持緊密合作，共同推動技術的進步與發展。

為了更好地服務于更多客戶，我們與中國信通院云計算大數據研究所聯合40余家企業的 70 多位專家，共同編制完成了 RAG 技術標準。騰訊 ES 作為國內公有云首個從自然語言到向量生成、存儲、檢索并以大模型集成端到端的一站式平臺，騰訊云作為核心參與企業，也是首個通過 RAG 權威認證的標準企業。該標準主要包含五個能力域：知識庫構建能力、知識檢索能力、內容生成能力、質量評估能力和平臺能力。

接下來，我們將介紹騰訊云 ES 的功能，并探討其與業界現有數據庫的區別。目前，業界已有許多相關數據庫，如 Milvus 和 Chroma 等向量數據庫，以及 MySQL 和 PostgreSQL 等傳統數據庫，它們也集成了向量檢索功能。然而，騰訊云 ES 主要為 RAG 應用提供了豐富的功能，超越了傳統向量數據庫和其他數據庫的解決方案范圍。

我們在存儲、搜索和生成向量的基礎上，還提供了一個開箱即用的訓練模型，并支持混合搜索，即基于文本和向量的檢索。用戶可以靈活選擇嵌入模型，并享受過濾、切片、聚合、自動補全、搜索分析、文檔級安全以及本地云混合等功能。

用戶在使用騰訊 ES 時，還可以選擇我們提供的自有優化模型 ELSER，這是一個基于稀疏模型的優化方案。此外，ES 還內置了微軟的 Multilingual-e5 模型，用戶也可以上傳自己微調訓練好的 Transformer Bert 模型到 ES 中進行部署。同時，用戶還可以調用 OpenAI 和 Hugging Face 上的模型接口，進行數據的向量化處理。

在結果重排方面，ES 提供了一種倒數融合排序算法，該算法主要根據每個結果在結果集中的排序位置，而不是基于相關性分數。這種方式的好處在于，不需要進行歸一化調整，就能實現相對較好的排序效果。用戶可以減少對相關性的細微調整，從而大大提高便利性。

ES 的混合搜索功能并非簡單地將文本搜索和向量搜索拼湊在一起。在底層引擎方面，不僅提供了文本索引、向量索引和數值索引，還在查詢分析理解方面提供了分詞、同義詞詞庫、詞權重調整、文本分類、命名實體識別等功能。在多路召回方面，可以對每個查詢的文本相關性、相似度和類目相關性進行微調。對于多路召回的結果，進行混合打分，并提供了 RF 算法和 LTR（Learning to Rank）模型，用于結果的重排序。

ES 還提供了一個專有的機器學習節點，用戶可以使用這些專有機器學習節點來上傳、管理和部署向量模型，一站式完成向量生成和檢索，從而有效提升向量推理能力。同時，這些節點與數據節點隔離，保障了在線業務的穩定性。

為了滿足微信、QQ 等海量數據推理的需求，ES 與公司自研的紫霄 AI 芯片相結合。由于原生 ES 基于 CPU 推理，目前不支持 GPU，因此我們采用了自研 AI 芯片紫霄的最新 V2 版本。相對于社區 ES，原生 ES 的性能提升了 18 倍。我們提供了一站式解決方案，用戶只需輸入一條命令，即可完成從向量生成、向量檢索到混合檢索，直至輸出結果的全流程操作。

六、案例實踐

接下來將詳細介紹一個具體的應用案例。

該平臺提供了海量數字書籍閱讀服務，并最近推出了一個新功能——AI 問書。AI 問書主要提供書籍內容的智能檢索，用戶在閱讀過程中遇到不理解的內容時，可以通過 AI 問書功能在當前書籍中搜索相關答案，而不是依賴于混元等大模型。這是因為大模型可能無法根據特定書籍的內容給出準確回答，而 AI 問書則基于 RAG 技術，能夠根據書籍的語義嘗試回答用戶的問題。舉個例子，用戶在 AI 問書中輸入“馬克思”，系統會輸出馬克思在某本書中的詳細資料，并引用相關書籍。此外，系統還會根據用戶的問題進行拓展，提供更多相關信息。

這個知識庫平臺最初并未使用騰訊云 ES，因此遇到了以下技術挑戰：

整體數據超 10 億級向量規模，存儲成本高。早期評估的非 ES 方案，為了滿足毫秒級查詢，需要緩存全部數據到內存中，則 30 億 768 維的向量，需要超過 400 臺 64G 機器，運營成本百萬級。
運維成本高：除了全文檢索，同時還需部署向量化服務，在外部進行向量化后，寫入到向量數據庫，同時向量數據庫不存儲原始文本信息，還需要額外存放到全文數據庫，跟文本的索引信息，相當于需要同時四套系統。
開發成本高：調試召回過程中，需要在外部進行向量化后，從向量數據庫召回，然后再用召回 id 訪問正排獲取原始文本。相當于每一次召回調試需要 3 次操作，跨越 4 個系統。
穩定性要求高：在線讀書平臺超億級用戶，穩定性要求 5 個 9 以上。
查詢性能要求高：高并發場景下查詢延遲需要毫秒級返回，數億量級數據全鏈路多路召回需控制在 100ms 以內。

在與業務溝通后，我們采用了如下方案，首先，他們將微調好的模型上傳到騰訊 ES 的機器學習節點，然后將書籍進行入庫。入庫過程中，文本首先會進行分詞、分段和語義切分，然后輸入到機器學習節點進行數據的向量化。同時，數據還會進行基于 Lucene 的分詞，分詞完成后進行文本檢索，向量化完成后進行向量檢索。在 ES 中，用戶只需一條命令即可完成文本檢索和向量檢索。搜索到的結果與問題相結合，拼成 Prompt 提示后發送到 LLM 大模型生成答案。這種方式大幅降低了成本，并使運維變得非常方便。

騰訊云 ES 提供了一站式的 RAG 方案，具體而言，AI 問書在實現過程中，主要應用了以下能力：

知識向量化：通過上傳自定義的 embedding 模型到騰訊云 ES 提供的機器學習節點中，實現書籍內容與搜索詞的向量化（embedding）。
混合搜索：騰訊云 ES 提供了全文檢索與向量檢索能力，只需要簡單的一條查詢語句，即可從 ES 中實現混合搜索與多路召回。
與大模型集成：騰訊云 ES 支持通過 API 與混元大模型進行集成，深度打通混元一站式，從 ES 召回的數據，可與 Prompt 一起送進到大模型中進行生成式整合，最終完成智能問答。
Kibana 調試：作為與 ES 天然集成 Web 頁面，Kibana 提供了豐富的可視化能力，能幫助開發運維人員快速進行召回調試，并在 Kibana 上完成模型的部署與管理。
安全高可用：騰訊云 ES 自研全鏈路熔斷限流方案，同時支持多副本、多可用區部署，能夠有效保障在線業務穩定性。

目前騰訊 ES 已在官網上公開售賣，近期將推出 RAG 一站式服務的 AI 搜索，幫助用戶直接使用一整套方案。歡迎大家試用騰訊 ES，感謝大家的關注。

七、Q&A

Q：在做文本檢索時會使用既有向量又有關鍵詞的混合檢索，混合檢索會得到多種類型的結果，請問如何對這些結果進行重排序來選出其中高價值的結果。

A：對于多路召回的結果第一塊是一個前面介紹過的倒數排序的融合，它主要對多路的結果進行融合，例如這個例子中有兩路結果，基于每一路的排名結果對最終結果進行融合。另一種是重排模型（Reranker），例如利用 LLM 大模型提供的功能對結果進行重排。

責任編輯：姜華來源： DataFunTalk