斷檔領先16%,清華Tree-KG兩步「長」出高質量知識圖譜
為什么又要造一個新的 KG 框架?

傳統方法痛點 | Tree-KG 的對策 |
規則/監督系統:標注貴、遷移差 | 零標注,直接讀教材 |
通用 LLM 抽取:結構混亂、難擴展 | 先搭“目錄樹”骨架,再迭代擴枝 |
快速演化領域:增量更新難 | 預設 6 種算子,新文獻即插即合并 |
整體流程:兩階段“種樹”

框架總覽
階段 | 輸入 | 核心動作 | 輸出 |
Phase-1 顯式骨架 | 教材 PDF | 目錄解析 → 自底向上摘要 → 實體/關系抽取 | 樹狀層級圖(章節-實體) |
Phase-2 隱式擴展 | 骨架 + 新文獻 | 6 大算子循環:卷積→聚合→嵌入→去重→連邊→合并 | 完整 KG,可無限生長 |

Tree-KG 內部層次
(c) 聚合前 vs (d) 聚合后:黃色節點被收編,結構更清晰
關鍵技術拆解
1 樹狀層級圖(Tree-like Hierarchical Graph)
- 縱向邊:教材目錄天然的?
?has_subsection / has_entity?? - 橫向邊:LLM 預測的同層語義關聯,如?
?Coulomb_Law --obey--> Inverse_Square_Law??
2 上下文卷積(Conv)
把鄰居節點的描述“卷”進來,一次迭代就能讓實體嵌入更緊致(圖3)。

同小節實體更緊湊
3 實體去重(Dedup)
- 先用向量檢索找 Top-20 候選
- 再讓 LLM 投票是否同一指稱 → 并查集合并
- 閾值 0.55 性價比最高(圖4)

去重閾值曲線
4 連邊預測(Pred)
score = 0.6·語義相似 + 0.3·共同鄰居(AA) + 0.1·共同祖先(CA)兩階段貪心:先稀疏補連通,再密集補語義。
實驗結果:全面吊打基線
表1 物理領域 Ground-truth 評價(F1 ↑)

- F1 領先 12–16%(GraphRAG、iText2KG、Langchain、AutoKG)
- 結構一致性 MEC 最高,MED 最低
- 成本僅 18 RMB(表3),比 LangChain 便宜 36%
表3 Token & 成本對比

消融實驗:每一步都有用
表4 摘要的重要性

表5 卷積步數

可視化:Tree-KG 長這樣
只有 Tree-KG 把“知識圖譜”真的做成了“教科書”該有的樣子——有目錄、有層次、不重復。

藍色=章節,紅色=核心實體,黃色=非核心實體
https://aclanthology.org/2025.acl-long.907.pdf
Tree-KG: An Expandable Knowledge Graph Construction Framework forKnowledge-intensive Domains
https://github.com/thu-pacman/Tree-KG本文轉載自??PaperAgent??
已于2025-10-9 07:56:45修改
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















