斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜

發布于 2025-10-9 07:56

瀏覽

0收藏

為什么又要造一個新的 KG 框架？

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

傳統方法痛點	Tree-KG 的對策
規則/監督系統：標注貴、遷移差	零標注，直接讀教材
通用 LLM 抽取：結構混亂、難擴展	先搭“目錄樹”骨架，再迭代擴枝
快速演化領域：增量更新難	預設 6 種算子，新文獻即插即合并

整體流程：兩階段“種樹”

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

框架總覽

階段	輸入	核心動作	輸出
Phase-1 顯式骨架	教材 PDF	目錄解析 → 自底向上摘要 → 實體/關系抽取	樹狀層級圖（章節-實體）
Phase-2 隱式擴展	骨架 + 新文獻	6 大算子循環：卷積→聚合→嵌入→去重→連邊→合并	完整 KG，可無限生長

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

Tree-KG 內部層次

關鍵技術拆解

1 樹狀層級圖（Tree-like Hierarchical Graph）

縱向邊：教材目錄天然的??has_subsection / has_entity??
橫向邊：LLM 預測的同層語義關聯，如??Coulomb_Law --obey--> Inverse_Square_Law??

2 上下文卷積（Conv）

把鄰居節點的描述“卷”進來，一次迭代就能讓實體嵌入更緊致（圖3）。

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

同小節實體更緊湊

3 實體去重（Dedup）

先用向量檢索找 Top-20 候選
再讓 LLM 投票是否同一指稱 → 并查集合并
閾值 0.55 性價比最高（圖4）

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

去重閾值曲線

4 連邊預測（Pred）

score = 0.6·語義相似 + 0.3·共同鄰居(AA) + 0.1·共同祖先(CA)兩階段貪心：先稀疏補連通，再密集補語義。

實驗結果：全面吊打基線

表1 物理領域 Ground-truth 評價（F1 ↑）

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

F1 領先 12–16%（GraphRAG、iText2KG、Langchain、AutoKG）
結構一致性 MEC 最高，MED 最低
成本僅 18 RMB（表3），比 LangChain 便宜 36%

表3 Token & 成本對比

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

消融實驗：每一步都有用

表4 摘要的重要性

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

表5 卷積步數

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

可視化：Tree-KG 長這樣

只有 Tree-KG 把“知識圖譜”真的做成了“教科書”該有的樣子——有目錄、有層次、不重復。

斷檔領先16%，清華Tree-KG兩步「長」出高質量知識圖譜-AI.x社區

藍色=章節，紅色=核心實體，黃色=非核心實體

https://aclanthology.org/2025.acl-long.907.pdf
Tree-KG: An Expandable Knowledge Graph Construction Framework forKnowledge-intensive Domains
https://github.com/thu-pacman/Tree-KG

本文轉載自??PaperAgent??

標簽

Tree-KG

KG 框架

上下文卷積

已于2025-10-9 07:56:45修改

贊

回復