用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當前效果最好的AI Agent記憶層原創(chuàng)

發(fā)布于 2025-11-14 09:12

瀏覽

1收藏

用 RAG 構(gòu)建 AI 應用時，總感覺差了點什么。明明相關(guān)的信息都在向量數(shù)據(jù)庫里，但 AI 就是找不到正確的關(guān)聯(lián)。問它"SpaceX 的創(chuàng)始人還創(chuàng)辦了哪些公司"，它能找到關(guān)于 SpaceX 的文檔，卻理解不了"創(chuàng)始人"和"其他公司"之間的關(guān)系鏈條。這就是傳統(tǒng) RAG 的軟肋——它只懂相似性，不懂關(guān)系。Cognee 就是來解決這個問題的。

它到底是什么？

簡單說，Cognee 是個開源的端到端知識圖譜構(gòu)建框架。但它不僅僅是知識圖譜——它將向量搜索的語義理解能力和知識圖譜的關(guān)系推理能力完美融合，創(chuàng)造了一個真正能"理解"數(shù)據(jù)的 AI 記憶層。更重要的是，整個過程只需要 5 行代碼。

最近看到他們和 Redis、Kuzu 等數(shù)據(jù)庫的集成案例，效果確實讓人眼前一亮：不僅保留了向量搜索 70%+ 的準確率基線，還通過圖結(jié)構(gòu)將準確率提升到了 90%+ 。這不是簡單的性能優(yōu)化，而是質(zhì)的飛躍。

核心概念

Cognee 的設計理念受人類認知科學啟發(fā)，模仿我們大腦構(gòu)建"心智地圖"的方式：

ECL 流水線

ECL（Extract, Cognify, Load）是 Cognee 的核心處理流程：

Extract（提取）：從各種數(shù)據(jù)源（API、數(shù)據(jù)庫、文檔）攝取原始數(shù)據(jù)
Cognify（認知化）：這是 Cognee 的獨特之處，將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化知識
Load（加載）：將處理后的數(shù)據(jù)同時存儲到向量和圖數(shù)據(jù)庫

DataPoints

DataPoints 是 Cognee 知識圖譜的基本構(gòu)建塊。每個 DataPoint 不僅定義了實體（節(jié)點），還定義了它們之間的關(guān)系（邊）：

from cognee import DataPoint

class Person(DataPoint):
    __tablename__ = "person"
    name: str
    age: int
    works_at: Optional["Company"] = None
    
class Company(DataPoint):
    __tablename__ = "company"
    name: str
    employees: List[Person] = []

雙存儲架構(gòu)

Cognee 采用"多模態(tài)存儲"策略：

向量數(shù)據(jù)庫：存儲語義嵌入，支持模糊搜索
圖數(shù)據(jù)庫：存儲實體關(guān)系，支持精確推理
關(guān)系數(shù)據(jù)庫：存儲元數(shù)據(jù)，支持結(jié)構(gòu)化查詢

理論框架

知識圖譜構(gòu)建流程

Cognee 的知識圖譜構(gòu)建遵循以下核心流程：

1. 信息提取與結(jié)構(gòu)化

原始文本 → LLM 分析 → 實體識別 → 關(guān)系抽取 → DataPoint 實例化

系統(tǒng)使用 LLM 對輸入內(nèi)容進行深度分析，自動識別：

實體（人物、地點、組織、概念）
關(guān)系（所屬、關(guān)聯(lián)、依賴、引用）
屬性（特征、標簽、元數(shù)據(jù)）

2. 認知化（Cognify）過程

這是 Cognee 的核心創(chuàng)新，包含三個關(guān)鍵步驟：

去重與合并：

識別相同實體的不同表述
合并重復信息
解決沖突數(shù)據(jù)

關(guān)系推理：

推斷隱含關(guān)系
構(gòu)建多跳關(guān)聯(lián)
創(chuàng)建知識網(wǎng)絡

向量化與索引：

生成語義嵌入
創(chuàng)建倒排索引
構(gòu)建圖結(jié)構(gòu)

3. GraphRAG 檢索機制

Cognee 的 GraphRAG 結(jié)合了兩種檢索范式：

# 向量檢索：找到語義相關(guān)的內(nèi)容
vector_results = vector_store.search(query_embedding, top_k=10)

# 圖檢索：探索實體關(guān)系
graph_results = graph_store.traverse(
    start_nodes=vector_results,
    max_depth=3,
    relationship_types=["FOUNDED", "WORKS_AT"]
)

# 融合結(jié)果：結(jié)合語義和結(jié)構(gòu)化信息
final_results = merge_and_rank(vector_results, graph_results)

認知科學基礎

Cognee 的設計深受認知心理學的"語義網(wǎng)絡理論"影響：

擴散激活：從一個概念出發(fā)，激活相關(guān)聯(lián)的其他概念
層次組織：知識按照抽象程度分層存儲
關(guān)聯(lián)強度：頻繁共現(xiàn)的概念建立更強的連接

實踐

環(huán)境搭建

1. 安裝 Cognee

# 使用 pip 安裝
pip install cognee

# 或使用 poetry
poetry add cognee

# 如需 PostgreSQL 支持
pip install cognee[postgres]

2. 配置 LLM 和嵌入模型

創(chuàng)建 ??.env?? 文件：

# LLM 配置（支持 OpenAI、DeepSeek、Ollama 等）
LLM_API_KEY=sk-your-api-key
LLM_PROVIDER=openai  # 或 deepseek、ollama
LLM_MODEL=gpt-4o-mini

# 嵌入模型配置
EMBEDDING_PROVIDER=ollama
EMBEDDING_MODEL=mxbai-embed-large

# 向量存儲配置
VECTOR_STORE_PROVIDER=qdrant
QDRANT_URL=http://localhost:6333
QDRANT_COLLECTION_NAME=cognee_vectors

# 圖存儲配置
GRAPH_STORE_PROVIDER=neo4j
NEO4J_URI=bolt://localhost:7687
NEO4J_USER=neo4j
NEO4J_PASSWORD=password

3. 安裝存儲后端

Qdrant（向量存儲）：

docker run -p 6333:6333 qdrant/qdrant

Neo4j（圖存儲）：

docker run -p 7474:7474 -p 7687:7687 \
  -e NEO4J_AUTH=neo4j/password \
  neo4j:latest

或者使用輕量級的 FalkorDB：

docker run -p 6379:6379 falkordb/falkordb

基本使用示例

1. 最簡單的 5 行代碼

import cognee
import asyncio

asyncdef main():
    # 添加數(shù)據(jù)
    await cognee.add("Elon Musk 創(chuàng)立了 SpaceX。SpaceX 是一家航天公司，致力于火星殖民。")
    
    # 構(gòu)建知識圖譜
    await cognee.cognify()
    
    # 查詢
    results = await cognee.search("Elon Musk 的公司在做什么？")
    
    for result in results:
        print(result)

asyncio.run(main())

2. 使用 DataPoints 構(gòu)建結(jié)構(gòu)化知識

from cognee import DataPoint, add_data_points
from typing import List, Optional
import asyncio

# 定義數(shù)據(jù)模型
class Person(DataPoint):
    __tablename__ = "person"
    name: str
    role: str
    founded: Optional[List["Company"]] = []
    works_at: Optional["Company"] = None

class Company(DataPoint):
    __tablename__ = "company"
    name: str
    industry: str
    founded_year: int
    founder: Optional[Person] = None
    employees: List[Person] = []

class Product(DataPoint):
    __tablename__ = "product"
    name: str
    company: Company
    description: str
    launch_year: int

asyncdef build_tech_knowledge_graph():
    # 創(chuàng)建實體
    elon = Person(
        name="Elon Musk",
        role="Entrepreneur"
    )
    
    spacex = Company(
        name="SpaceX",
        industry="Aerospace",
        founded_year=2002,
        founder=elon
    )
    
    tesla = Company(
        name="Tesla",
        industry="Electric Vehicles",
        founded_year=2003,
        founder=elon
    )
    
    # 建立關(guān)系
    elon.founded = [spacex, tesla]
    elon.works_at = spacex
    
    # 創(chuàng)建產(chǎn)品
    falcon9 = Product(
        name="Falcon 9",
        company=spacex,
        description="可重復使用的軌道級火箭",
        launch_year=2010
    )
    
    model3 = Product(
        name="Model 3",
        company=tesla,
        description="大眾化電動轎車",
        launch_year=2017
    )
    
    # 添加到知識圖譜
    datapoints = [elon, spacex, tesla, falcon9, model3]
    await add_data_points(datapoints)
    
    # 構(gòu)建圖譜
    await cognee.cognify()
    
    # 復雜查詢
    results = await cognee.search(
        "Elon Musk 創(chuàng)立的航天公司有什么產(chǎn)品？",
        search_type="graph_traversal"
    )
    
    return results

# 運行
asyncio.run(build_tech_knowledge_graph())

與 LangChain 集成

Cognee 可以作為 LangChain 的記憶層，增強 Agent 的推理能力：

from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationChain
from langchain_openai import ChatOpenAI
import cognee
import asyncio

class CogneeMemory(ConversationBufferMemory):
    """基于 Cognee 的增強記憶"""
    
    def __init__(self, user_id: str):
        super().__init__()
        self.user_id = user_id
        
    asyncdef save_context(self, inputs: dict, outputs: dict):
        """保存對話到 Cognee"""
        # 保存到傳統(tǒng)記憶
        super().save_context(inputs, outputs)
        
        # 提取并存儲到知識圖譜
        conversation = f"User: {inputs['input']}\nAI: {outputs['response']}"
        await cognee.add(conversation, user_id=self.user_id)
        await cognee.cognify()
    
    asyncdef load_memory_variables(self, inputs: dict):
        """從 Cognee 加載相關(guān)記憶"""
        # 獲取傳統(tǒng)記憶
        memory = super().load_memory_variables(inputs)
        
        # 從知識圖譜檢索
        query = inputs.get("input", "")
        graph_memories = await cognee.search(
            query, 
            user_id=self.user_id,
            search_type="hybrid"# 同時使用向量和圖檢索
        )
        
        # 合并記憶
        if graph_memories:
            context = "\n".join([m.get("content", "") for m in graph_memories])
            memory["graph_context"] = context
            
        return memory

# 使用示例
asyncdef chat_with_memory():
    llm = ChatOpenAI(model="gpt-4")
    memory = CogneeMemory(user_id="alice")
    
    chain = ConversationChain(
        llm=llm,
        memory=memory,
        verbose=True
    )
    
    # 第一輪對話
    response1 = chain.predict(input="我正在學習知識圖譜技術(shù)")
    await memory.save_context(
        {"input": "我正在學習知識圖譜技術(shù)"}, 
        {"response": response1}
    )
    
    # 第二輪對話（會自動檢索相關(guān)記憶）
    response2 = chain.predict(input="有什么好的學習資源推薦嗎？")
    
    print(response2)

asyncio.run(chat_with_memory())

與 Dify 集成

Cognee 也可以作為 Dify 的知識庫后端：

# cognee_dify_adapter.py
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import cognee
import asyncio

app = FastAPI()

class QueryRequest(BaseModel):
    query: str
    dataset_id: str
    top_k: int = 5

class AddDocumentRequest(BaseModel):
    content: str
    dataset_id: str
    metadata: dict = {}

@app.post("/add_document")
asyncdef add_document(request: AddDocumentRequest):
    """添加文檔到 Cognee"""
    try:
        await cognee.add(
            request.content,
            dataset_id=request.dataset_id,
            metadata=request.metadata
        )
        await cognee.cognify()
        return {"status": "success"}
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.post("/query")
asyncdef query_knowledge(request: QueryRequest):
    """查詢知識圖譜"""
    try:
        results = await cognee.search(
            request.query,
            dataset_id=request.dataset_id,
            limit=request.top_k,
            search_type="hybrid"
        )
        return {"results": results}
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

# 在 Dify 中配置自定義工具指向這個 API