騰訊KaLM-Embedding:高性能多語言文本嵌入模型的創新與實踐
在自然語言處理(NLP)領域,文本嵌入模型作為連接語言與機器學習的關鍵橋梁,一直備受關注。騰訊推出的KaLM-Embedding系列模型,憑借其卓越的性能和創新的技術架構,為文本嵌入領域帶來了新的突破。

一、項目概述
KaLM-Embedding是由騰訊團隊開發的一系列高性能文本嵌入模型,通過先進的訓練技術和高質量的數據集,顯著提升了文本嵌入的性能。最新版本KaLM-Embedding-V2在架構和訓練方法上進行了多項創新,例如移除因果注意力掩碼以實現雙向表示學習,并結合多階段訓練流程(包括預訓練、微調和對比蒸餾),顯著提升了模型的泛化能力和語義理解能力。其中,KaLM-Embedding-Gemma3-12B-2511作為該系列的重要成員,基于更大的參數規模(12B參數),進一步優化了模型性能,適用于需要更高精度的復雜任務。
二、核心功能
(一)高效文本嵌入生成
KaLM-Embedding能夠將任意長度的文本高效地轉化為固定維度的嵌入向量,廣泛應用于文本檢索、分類以及語義匹配等場景。其采用均值池化方法,將文本序列轉換為固定長度的嵌入向量,確保模型輸出的嵌入適用于多種下游任務。
(二)多語言與跨語言能力
KaLM-Embedding支持多語言文本嵌入,能夠實現不同語言之間的語義對齊和跨語言檢索,提升跨語言任務的性能。在多語言語義對齊方面實現顯著優化,支持更精準的跨語種語義理解與檢索任務。
(三)靈活的嵌入維度
KaLM-Embedding支持靈活維度的嵌入,通過Matryoshka表示學習技術,能在不同維度下保持高性能,適應多種應用場景。支持多種向量維度選擇,涵蓋3840、2048、1024、512、256、128及64等多個層級,滿足不同場景下的高效應用需求。
(四)強大的下游任務適配
KaLM-Embedding適用于多種下游任務,包括文本分類、語義匹配、信息檢索和聚類分析,為自然語言處理提供全面支持。無論是對精度要求極高的云端大型檢索系統,還是對響應速度和內存占用有嚴格限制的移動端應用,KaLM-Embedding都能提供高效且適配的解決方案。
三、技術揭秘
(一)雙向注意力機制
KaLM-Embedding-V2移除了傳統的因果注意力掩碼,采用完全雙向的Transformer架構。這種設計使模型在編碼文本時能夠同時考慮上下文信息,從而生成更精準的文本表示,顯著提升語義理解的準確性。
(二)均值池化
模型使用均值池化方法將文本序列轉換為固定長度的嵌入向量。這種方法簡單高效,能夠確保模型輸出的嵌入向量適用于多種下游任務,如文本分類、語義匹配等。
(三)多階段訓練流程
KaLM-Embedding-V2采用多階段訓練策略,逐步提升模型性能:
1. 預訓練階段:在超過20個類別的大規模弱監督數據上進行預訓練,賦予模型強大的泛化能力。
2. 微調階段:在100多個高質量數據集上進行微調,涵蓋檢索、分類、聚類等任務,進一步提升模型性能。
3. 模型融合階段:通過參數平均的方式融合多個微調檢查點,增強模型的魯棒性和泛化能力。
(四)焦點重加權機制
借鑒Focal Loss的思想,KaLM-Embedding-V2引入焦點重加權機制。該機制將更多的訓練資源集中在難以學習的樣本上,從而顯著提升模型對復雜樣本的學習效率。
(五)在線難負樣本混合
為解決離線挖掘的難負樣本信息量隨訓練衰減的問題,模型在訓練過程中動態混合現有難負樣本的特征。這種方法在極低計算成本下,實時合成信息量更多、難度更高的難負樣本,強化了模型的區分能力。
(六)對比蒸餾
KaLM-Embedding-V2通過對比蒸餾從更強的教師模型中學習細粒度的語義差異。這使得模型實現了從“粗語義理解”到“精語義對齊”的質變,顯著提升了語義區分能力。
(七)Matryoshka表示學習
對比學習和對比蒸餾訓練目標引入了Matryoshka表示學習,使模型能夠在不同維度下保持高性能。這種技術賦予了模型在不同向量維度上都能保持高水準表現的能力,使其能夠靈活適應各種應用需求。
(八)高質量數據支持
KaLM-Embedding-V2在訓練過程中采用了多樣化且高質量的數據集。結合任務特定指令、難負樣本挖掘和多類別標記等精細化處理,確保了輸出向量的卓越品質。
四、性能表現
KaLM-Embedding系列在多個基準測試和實際應用場景中展現了卓越的性能。在MTEB(Massive Text Embedding Benchmark)多語言基準測試中,KaLM-Embedding-V2系列取得了雙料冠軍(<1B參數),在中文和英文任務上均表現優異。

五、應用場景
(一)文本分類
KaLM-Embedding能夠高效地將文本轉換為語義向量,適用于多種文本分類任務。無論是新聞分類、情感分析還是主題識別,其強大的語義理解能力都能幫助模型快速準確地識別文本的核心內容,提升分類精度,廣泛應用于內容管理、輿情監測等領域。
(二)語義匹配
在搜索引擎、推薦系統等場景中,KaLM-Embedding可以精準判斷不同文本之間的語義相似度。通過高效的文本嵌入,模型能夠快速找到與用戶查詢最相關的文本內容,顯著提升搜索結果的相關性和推薦的精準度,為用戶提供更個性化的體驗。
(三)信息聚類
對于大規模文本數據管理,KaLM-Embedding能夠將相似的文本信息自動歸類。通過語義向量的相似性計算,模型可以快速識別文本之間的關聯,幫助用戶高效管理和分析大量文本數據,廣泛應用于文檔管理、知識圖譜構建等領域。
(四)搜索推薦
在搜索和推薦系統中,KaLM-Embedding通過語義理解提升搜索結果的相關性和推薦的精準度。其多語言和跨語言能力使其能夠處理多語言查詢,為用戶提供更全面的搜索結果和推薦內容,廣泛應用于跨境電商、多語言內容平臺等場景。
(五)多語言理解
KaLM-Embedding支持多語言語義對齊,能夠在跨語言檢索和翻譯等任務中表現出色。其多語言能力使其能夠處理多種語言的文本,實現不同語言之間的語義對齊和跨語言檢索,為跨語言信息檢索和機器翻譯提供了強大的支持。
六、快速使用
(一)安裝依賴
pip install -U sentence-transformers(二)使用示例
以下是基于`sentence-transformers`的部署示例:
from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer(
"tencent/KaLM-Embedding-Gemma3-12B-2511",
trust_remote_code=True,
model_kwargs={
"torch_dtype": torch.bfloat16,
"attn_implementation": "flash_attention_2", Optional
},
)
model.max_seq_length = 512
sentences = ["This is an example sentence", "Each sentence is converted"]
prompt = "Instruct: Classifying the category of french news.\nQuery:"
embeddings = model.encode(
sentences,
prompt=prompt,
normalize_embeddings=True,
batch_size=256,
show_progress_bar=True,
)
print(embeddings)文檔查詢示例:
from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer(
"tencent/KaLM-Embedding-Gemma3-12B-2511",
trust_remote_code=True,
model_kwargs={
"torch_dtype": torch.bfloat16,
"attn_implementation": "flash_attention_2", Optional
},
)
model.max_seq_length = 512
queries = [
"What is the capital of China?",
"Explain gravity",
]
documents = [
"The capital of China is Beijing.",
"Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun.",
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)七、結語
KaLM-Embedding系列模型憑借其先進的技術架構和持續的版本迭代,在文本嵌入領域展現出了強大的競爭力。它不僅在性能上達到了新的高度,還通過高效的訓練技術和高質量的數據支持,為多種自然語言處理任務提供了高質量的解決方案。未來,隨著技術的進一步發展,KaLM-Embedding有望在更多領域發揮更大的作用。
項目地址
項目官網:https://kalm-embedding.github.io/
HuggingFace模型庫:https://huggingface.co/tencent/KaLM-Embedding-Gemma3-12B-2511
arXiv技術論文:https://arxiv.org/pdf/2506.20923
本文轉載自??小兵的AI視界??,作者:AGI小兵

















