如何選擇Embedding Model？關于嵌入模型的十個思考

作者：曹洪偉 2025-05-06 08:51:37

稀疏嵌入使用的是傳統的技術，如TF-IDF或bm25，這些方法會產生非常高維度但是大部分都是零的向量。盡管看起來有點浪費空間，但在精確的關鍵字檢索系統中卻很有效，比如搜索引擎和傳統文獻檢索。

在大模型應用中，尤其基于RAG框架的大模型應用，嵌入模型（embedding Model）是不可或缺的關鍵組件。這里總結了筆者在實踐中關于潛入模型的10個思考，希望對大家有所幫助。

1. 嵌入模型在RAG中的重要性

嵌入模型能夠將文本轉換成數值形式的向量，這讓計算機可以更高效地處理、對比和檢索信息。這些向量能夠捕捉單詞、短語甚至是整篇文檔之間的意義聯系，這使得嵌入模型成為了各種自然語言處理任務中的關鍵工具。

在檢索增強生成（RAG）系統中，嵌入模型扮演著核心角色，它負責從知識庫中找出并排序與用戶查詢最相關的信息。當用戶提出問題時，嵌入模型通過比較文本向量來尋找最匹配的文檔。選擇合適的嵌入模型對于確保檢索結果既準確又有意義至關重要，這樣最終生成的回答也會更加精準和有用。

舉個例子，在法律領域的RAG系統中，如果使用了專門針對法律術語訓練的嵌入模型，那么系統就能更好地找到與查詢相關的法律文件，并保證引用的判例法資料既準確又貼切上下文。這種精確性對于需要高度專業性和準確性的工作場景來說尤為重要，比如法律研究或醫療文獻分析等。通過這種方式，嵌入模型不僅提升了信息檢索的質量，還增強了整個系統的實用性。

2. 嵌入模型結構中對上下文的處理方式

上下文窗口指的是嵌入模型一次性能夠處理的最大文本量，即它可以考慮的單詞或子單詞的數量。這個參數影響著模型在生成文本表示時能涵蓋多少內容。

較大的上下文窗口意味著模型可以處理更長的段落而不用擔心信息被截斷。這對于需要理解長篇文檔的任務非常重要，比如分析研究論文、法律文件或是學術成績單。

舉個例子，在進行語義搜索時，如果模型的上下文窗口較小，它可能會錯過文檔后面部分的重要信息。相反，擁有較大上下文窗口的模型則能夠捕捉到整個文檔中的廣泛含義，從而提供更加準確的搜索結果。

實際上，不同的模型支持不同的上下文長度。一些較老的模型可能僅限于處理512個標記，但更新的模型已經能夠處理數千個標記了，這使得它們非常適合處理復雜任務，如總結長篇文章或從詳細的文檔中提取信息。

基于Transformer的嵌入模型（如BERT）與傳統的循環神經網絡（RNNs）不同，并不具備內在的順序感知能力。為了彌補這一點，這些模型使用位置嵌入來記錄每個詞的位置信息：

絕對位置嵌入：直接為序列中的每個標記賦予一個特定的位置值（例如，BERT采用正弦函數來實現這一目標），這樣模型就能了解每個詞在句子中的具體位置。
相對位置嵌入：不是關注詞語的具體位置，而是關注詞語之間的相對距離（例如，T5模型采用了這種方法）。這種方法有助于更好地理解詞語間的相互關系，而不是單純依賴于它們出現的順序。

這種對詞序的精確捕捉對于處理長文本尤其重要，因為它確保了即使是文檔中相隔較遠的詞也能被正確地理解和關聯起來，這對于提高文本檢索和文檔排序的準確性至關重要。通過這種方式，模型不僅能夠理解單個詞語的意義，還能把握整個文檔的結構和邏輯。

3. Tokenization機制對嵌入模型的影響

Tokenization是指將文本切分成較小單元的過程，這些單元被稱為標記，可以是單個單詞、單詞的一部分甚至是單個字符。這是嵌入模型處理文本前的一個重要預處理步驟，因為它直接關系到文本如何被轉換成數值形式。

不同的Tokenization方法對嵌入模型處理各種文本的效果有很大影響：

單詞級Tokenization：這種方法把每個單詞視為一個單獨的標記。然而，它在處理新造詞或罕見詞匯時會遇到困難，因為這些詞可能不在模型已知的詞匯表中。
子詞Tokenization（如Byte-Pair Encoding或WordPiece）：這種技術會將單詞分解成更小的部分或者子詞。例如，“unhappiness”可能會被拆分成“un”、“happi”和“ness”。這種方式讓模型能夠更好地應對詞匯表之外的單詞，因此在現代模型中非常流行。它巧妙地平衡了詞匯表大小與靈活性，使得模型能處理從日常用語到專業術語在內的廣泛詞匯，而不會使詞匯表變得過大。
字符級Tokenization：這里每個字符都被當作一個單獨的標記。這種方法對于那些形態復雜但可以通過較少字符表達的語言特別有用，盡管這樣做會使序列變得更長。

選擇合適的Tokenization方法對于嵌入模型能否有效地處理特定領域的語言、專業術語或多語言文本至關重要。比如，在醫療保健領域應用中，使用子詞級別的Tokenization方法就顯得尤為重要，這樣可以確保模型準確理解和處理像“心肌梗死”這樣的專業術語。正確選擇標記化策略有助于提高模型性能，使其更適合特定的應用場景。

4. 嵌入模型維數對性能影響

維數指的是模型為每個嵌入生成的數值數量，它決定了這些向量能包含多少信息。

低維嵌入（比如128或256維）計算效率高，處理速度快，但可能在表達語義上不如高維嵌入那樣細膩，這可能會在某些任務中影響準確性。適合那些對速度和效率要求較高的場景。
高維嵌入（如768或1024維）能夠捕捉更加微妙的語義關系，提供更強大的表達能力。然而，它們需要更多的計算資源和內存支持，這意味著更高的成本和較慢的處理速度。高維嵌入可以更精細地表達文本的意義，但在資源有限的情況下使用會面臨挑戰。

對于超過1024維這樣的極高維度嵌入，雖然提供了非常豐富的語義表示，但也帶來了一些問題：

增加的計算成本：存儲和處理這些高維向量需要更多的內存和更強的計算能力。
維數災難：隨著維度的增加，在高維空間中比較相似性變得困難，因為距離間的差異難以區分。
較慢的檢索時間：如果不進行優化，搜索大型嵌入數據庫將變得相當耗時。

為了應對這些問題，有幾種緩解策略：

使用降維技術，例如PCA（主成分分析）或t-SNE，可以在保留關鍵信息的同時減少計算負擔。
采用高效的矢量搜索技術，像FAISS（Facebook AI最近鄰搜索）或HNSW（分級導航小世界），可以顯著加快檢索速度。

選擇合適的維數取決于具體的應用需求。對于實時應用，如聊天機器人或語音助手，低維嵌入通常是更好的選擇，因為這類場景更看重速度和效率。而對于文檔相似性分析等需要高度精確的任務，更高維度的嵌入則更為合適，因為它能確保對復雜文本內容的更精準描述。這樣，通過權衡不同維度帶來的利弊，可以根據實際需求找到最合適的解決方案。

5. 詞匯量大小對嵌入模型的影響

嵌入模型的詞匯表大小決定了它能識別和處理的獨特單詞或標記的數量。一個更大的詞匯表可以提升模型的準確性，因為它能理解更廣泛的單詞，包括特定領域的術語和多種語言表達。但是，這也意味著需要更多的內存和計算資源。

大詞匯表的優勢：擁有較大的詞匯表讓模型能夠更好地理解和表示各種各樣的單詞，尤其是那些領域特有的術語或是來自不同語言的詞匯。這對于像科學研究或多語言文獻檢索這樣的應用場景尤為重要，因為它們經常需要處理大量的專業術語或跨語言信息。
小詞匯表的情況：如果詞匯表較小，則可以減少所需的內存并加快處理速度。然而，這可能導致模型在遇到不常見的單詞或者特定領域的術語時表現不佳。

舉個例子，在生物醫學領域的自然語言處理模型中，為了精確地理解和使用醫學術語，一個較大的詞匯表是必不可少的。另一方面，對于客戶服務聊天機器人來說，由于它們主要處理的是日常對話中的常見問題，因此一個小一些的詞匯表就足夠了，并且還能保證響應的速度和效率。

總結來說，當你的應用涉及到廣泛的主題、多種語言或者是包含大量專業術語的內容時，選擇一個較大的詞匯表會更有利。但要注意的是，這樣做也會增加對內存的需求，這在資源有限的情況下可能成為一個挑戰。因此，在選擇模型時，你需要根據具體的使用場景來平衡詞匯表大小與資源限制之間的關系。

6. 訓練數據對嵌入模型的影響

開發嵌入模型時所用的訓練數據對其性能有著重大影響，因為這決定了模型能理解什么樣的語言和知識范疇。

如果一個模型是基于廣泛的一般性互聯網資料（比如維基百科、新聞文章）進行訓練的，它在日常對話中可能會表現得不錯，但在金融、法律或醫學這樣的專業領域可能就力不從心了。相反，如果模型是在特定領域的數據集上訓練的，例如針對醫療保健應用的醫學期刊，那么它在這個特定領域內的表現就會更加出色。

訓練數據的質量與多樣性對于模型的表現至關重要。高質量且多樣化的訓練數據能夠顯著提升模型的知識水平和處理能力。

對特定領域數據進行微調可以增強嵌入模型的專業術語理解和語境細微差別的把握。這樣做帶來的好處包括：

提高檢索精度：模型能更準確地找到符合查詢意圖的文檔。
更好地掌握術語：學習并理解那些在通用模型中未被充分表示的領域特定術語。
減少偏見：通過微調可以減少通用模型中存在的各種偏見問題。

舉例來說，一個法律文獻檢索系統通過使用經過法律文本微調的模型，可以從法律判例法和法規中受益，確保搜索結果與法律相關，而非泛泛的一般信息。

因此，在選擇嵌入模型時，必須考量其訓練數據是否與預期的應用場景相匹配。比如，構建法律文獻檢索系統的團隊應該選用那些已經接受過法律案例和法規訓練的模型，以保證搜索結果的精準度和適用性。這樣不僅能提高工作效率，還能確保內容的相關性和準確性。

圖片

7. 嵌入模型的成本與部署方式選擇

在挑選嵌入模型時，有幾個成本因素需要考慮：

基礎設施成本：運行嵌入模型需要一定的計算資源支持，比如GPU或是云服務器，這方面的花費取決于你選擇的硬件配置和使用時間。
API成本：一些商業模型，例如OpenAI和Cohere提供的服務，會根據處理的Token數量收費。這意味著隨著使用量的增加，費用也會相應上升。
存儲和內存成本。高維度的大型嵌入模型需要更多的存儲空間和內存來運行，這對資源的要求更高，自然也增加了成本。
推理成本。當你在一個大規模的數據集上進行推斷操作時，尤其是當嵌入需要頻繁更新的情況下，這個過程可能會相當昂貴。

舉個例子，如果是一家正在構建搜索引擎的初創公司，他們可能會傾向于選擇開源的嵌用模型以減少API成本。相反，那些擁有豐富計算資源的大企業，則可能更愿意選擇性能優越但價格不菲的專有模型，因為他們追求的是最高的準確性和效率，而不太在意成本問題。

其中，基于API的模型使用起來非常方便快捷，但長期來看，特別是對于需要大量使用的應用程序來說，成本可能會變得非常高。另一方面，開源模型雖然更加經濟實惠，但是要求用戶具備更高的技術知識，并且需要自行搭建和維護相關的基礎設施。這樣看來，選擇哪種模型不僅要考慮預算限制，還要結合自身的技術能力和實際需求來決定。

8. 嵌入模型的性能評估指標

嵌入模型的好壞通過多種基準和測試方法來評估：

首先是MTEB：這是一個非常流行的評估框架，用于測試嵌入模型在不同自然語言處理任務上的表現，如語義搜索、分類和聚類。得分越高，通常意味著模型在這些任務中的表現越出色。
內在評估：這種方法通過類似單詞相似性這樣的任務來檢測嵌入能否準確捕捉詞語的意義。
外部評估：側重于考察嵌入模型在實際應用中的表現，比如搜索排名、推薦系統和問答任務等下游應用場景的實際效果。
自定義測試：即在自己的數據集上運行測試以確保它能滿足特定需求。例如，一個專注于法律文獻檢索的律師事務所需要評估模型根據判例法準確檢索信息的能力；而一家優化產品推薦的電商公司，則更關心嵌入模型如何影響客戶參與度。

另外，余弦距離是一種衡量兩個向量間相似性的指標，通過計算兩個向量夾角的余弦值來確定它們之間的相似程度。在嵌入模型中，這個指標用來判斷兩段文本在語義上是否相近。余弦距離的范圍從-1到1，具體含義如下：

1表示兩個向量方向一致，意味著高度相似；
0表示兩個向量相互垂直，意味著沒有相似性；
-1則表示兩個向量方向完全相反。

在語義搜索和RAG系統的文獻檢索功能中，余弦距離被廣泛應用，用來根據文檔與查詢間的接近程度對相關文檔進行排序。這樣一來，就能有效地找到與查詢最相關的文檔。

9. 不同嵌入類型的適用場景

靜態嵌入就像是給每個單詞都貼上了一個固定的標簽，不管這個單詞在不同的句子或段落里是怎么用的。比如Word2Vec、GloVe和FastText這些工具就是這么做的。這種方法雖然能顯示出詞語間的關系，但不能識別同一個詞在不同場合下的不同意思，像“銀行”這個詞，在指河邊的“河岸”時和作為金融機構的“銀行”時的意思就被混為一談了。

而上下文詞嵌入則更聰明一些，像是BERT、RoBERTa和Sentence Transformers這樣的工具，它們會根據單詞周圍的文字來動態生成表示，這就讓它們能夠理解一個詞在不同場景中的多種含義。這使得這類模型在執行RAG檢索、語義搜索和文本摘要等任務時表現得更加出色。

稠密嵌入是通過像BERT、SBERT和GPT這樣的模型生成的，它們把每個詞轉化為緊湊且固定長度的小向量（比如說768或者1024維）。這種表示方法非常擅長捕捉詞語間的語義聯系，適用于需要深入理解文本意義的任務，如語義搜索和在RAG中進行相似度排序。

相比之下，稀疏嵌入使用的是傳統的技術，如TF-IDF或bm25，這些方法會產生非常高維度但是大部分都是零的向量。盡管看起來有點浪費空間，但在精確的關鍵字檢索系統中卻很有效，比如搜索引擎和傳統文獻檢索。

現在的一些先進的RAG流程還會結合稠密和稀疏嵌入的優點，形成所謂的混合搜索方式，這樣不僅能保證找到的內容與關鍵詞匹配，還能確保內容之間有更深的語義關聯，從而提升整體的檢索準確性。

10. 嵌入模型程度選型與RAG實踐

在選擇嵌入模型時，我們需要考慮幾個關鍵因素。首先得看它能否處理文檔的長度，這就涉及到上下文窗口大小；然后是每個令牌的成本，這關系到使用費用的問題；接著要考慮的是模型的質量如何，比如通過MTEB得分或基準性能來評估；還要平衡語義豐富度和計算效率，即維度的選擇；最后別忘了令牌化單位的影響。同時，在特定的數據集和應用場景下測試模型的表現也非常重要。

使用嵌入模型的RAG系統工作流程大致如下：

預處理：這里會將輸入的文字拆分成標記，并用預先訓練好的模型（像BERT或者句子transformer）把這些標記變成向量形式的嵌入。
建索引：就是把生成的這些嵌入信息保存到一個專門的向量數據庫里，比如FAISS、Pinecone或Weaviate這樣的工具。
檢索：當有查詢進來的時候，就到了檢索環節。系統會給這個查詢生成一個對應的嵌入，然后利用余弦距離或者近似最近鄰搜索的方法，找出最相似的前k個文檔。
排序：根據一些額外的標準，如bm25分數或交叉編碼器的結果，對找到的文檔重新排序。
增強：將篩選出的文檔交給大型語言模型（LLM），例如OpenAI的GPT系列、Claude或是Mistral等，讓它們基于這些文檔提供的事實和背景信息產生回答。

通過這一整套流程，可以確保最終的回答既準確又具有相關性。

責任編輯：武曉燕來源：喔家ArchiSelf

RAG 框架模型