用LLM一鍵生成百萬(wàn)級(jí)領(lǐng)域知識(shí)圖譜!中科大新框架入選ACL 2024
現(xiàn)在,用LLM一鍵就能生成百萬(wàn)級(jí)領(lǐng)域知識(shí)圖譜了?!
來(lái)自中科大MIRA實(shí)驗(yàn)室研究人員提出一種通用的自動(dòng)化知識(shí)圖譜構(gòu)建新框架SAC-KG,提升效果be like:
當(dāng)使用ChatGPT作為基礎(chǔ)模型時(shí),SAC-KG達(dá)到了89.32%的準(zhǔn)確率和81.25%的領(lǐng)域特異性,相對(duì)于SOTA方法提升了20%。
圖片
一直以來(lái),知識(shí)圖譜構(gòu)建技術(shù)始終是研究熱點(diǎn)。
不過(guò)對(duì)構(gòu)建領(lǐng)域知識(shí)圖譜來(lái)說(shuō),由于需要大量的專家知識(shí)和人工干預(yù),其實(shí)際應(yīng)用受到嚴(yán)重限制。
對(duì)此,最近基于大語(yǔ)言模型(LLM)的構(gòu)建方法成為了一種新趨勢(shì)。但仍存在一些問(wèn)題,嚴(yán)重影響所構(gòu)建領(lǐng)域知識(shí)圖譜的可信度。
針對(duì)上述痛點(diǎn),研究團(tuán)隊(duì)進(jìn)一步提出了SAC-KG,相關(guān)論文已發(fā)表在CCF-A類(lèi)人工智能頂級(jí)會(huì)議ACL 2024 Main。并開(kāi)發(fā)部署領(lǐng)域知識(shí)圖譜自動(dòng)構(gòu)建平臺(tái)SAC-KG,支持輸入大規(guī)模領(lǐng)域語(yǔ)料,一鍵生成高質(zhì)量領(lǐng)域知識(shí)圖譜。
圖片
SAC-KG是如何工作的
由于大語(yǔ)言模型出色的語(yǔ)義理解能力和生成能力,基于LLM的方法成為了一種新趨勢(shì)。通過(guò)利用LLM中存儲(chǔ)的先驗(yàn)知識(shí),從原始語(yǔ)料中提取三元組。
然而,基于LLM的方法仍面臨一些問(wèn)題。輸入中的上下文噪聲和輸出中的知識(shí)幻覺(jué)會(huì)導(dǎo)致錯(cuò)誤或不相關(guān)的三元組生成,從而嚴(yán)重影響所構(gòu)建領(lǐng)域知識(shí)圖譜的可信度。
為了解決上述問(wèn)題,該研究提出了一種全新的自動(dòng)化知識(shí)圖譜構(gòu)建通用框架SAC-KG,利用大語(yǔ)言模型作為領(lǐng)域知識(shí)圖譜的自動(dòng)化構(gòu)建專家,在給定領(lǐng)域語(yǔ)料的情況下,以自動(dòng)化、精確性和可控性為目標(biāo)提取三元組。
該框架包含三個(gè)組件:生成器、驗(yàn)證器和剪枝器。
圖片
生成器
首先,生成器包括領(lǐng)域語(yǔ)料檢索器和開(kāi)放知識(shí)圖譜檢索器,分別為指定的實(shí)體從領(lǐng)域語(yǔ)料庫(kù)和開(kāi)放知識(shí)圖譜中檢索最相關(guān)信息。
其中,領(lǐng)域語(yǔ)料檢索器提供最相關(guān)的文本語(yǔ)料作為L(zhǎng)LM的輸入,減少上下文噪聲的引入;開(kāi)放知識(shí)圖譜檢索器提供與實(shí)體最相關(guān)的三元組作為示例,幫助控制模型的輸出格式。
LLM的輸入包括與實(shí)體相關(guān)的上下文、三元組示例以及相應(yīng)的提示,輸出為生成的以指定實(shí)體為頭實(shí)體的三元組。
驗(yàn)證器
由于LLM存在知識(shí)幻覺(jué),可能生成錯(cuò)誤三元組,因此由驗(yàn)證器負(fù)責(zé)檢測(cè)并過(guò)濾掉由LLM生成的錯(cuò)誤三元組。
這一過(guò)程分為兩個(gè)步驟:錯(cuò)誤檢測(cè)和錯(cuò)誤糾正。
在錯(cuò)誤檢測(cè)階段,驗(yàn)證器會(huì)執(zhí)行三種檢查并進(jìn)行標(biāo)記:
- 數(shù)量檢查:如果生成的三元組數(shù)量少于閾值(默認(rèn)是3個(gè)),則標(biāo)記為“數(shù)量不足”。
- 格式檢查:如果三元組不符合預(yù)定義格式,則標(biāo)記為“格式錯(cuò)誤”;如果頭實(shí)體不匹配預(yù)定義實(shí)體,則標(biāo)記為“頭實(shí)體錯(cuò)誤”;如果頭實(shí)體和尾實(shí)體相同,則標(biāo)記為“頭尾矛盾”。
- 沖突檢查:驗(yàn)證器會(huì)檢測(cè)三元組中的邏輯沖突。例如,確保一個(gè)人的出生時(shí)間早于死亡時(shí)間,且年齡不為負(fù)數(shù)。
在錯(cuò)誤糾正階段,根據(jù)檢測(cè)到的錯(cuò)誤類(lèi)型提供相應(yīng)的提示,并重新讓LLM生成正確的輸出。例如,如果是“格式錯(cuò)誤”,會(huì)提示模型“請(qǐng)嚴(yán)格按照格式要求重新生成,注意三元組的格式”。
圖片
剪枝器
知識(shí)圖譜的生長(zhǎng)過(guò)程可以看作一棵樹(shù)的逐層增長(zhǎng),從淺到深逐步獲取領(lǐng)域知識(shí),意味著下一層三元組的頭實(shí)體是上一層三元組的尾實(shí)體。
在經(jīng)過(guò)驗(yàn)證器驗(yàn)證后,將得到的正確三元組整合到生成的新層圖譜中,并繼續(xù)生成下一層三元組。
然而,并不是所有三元組都需要繼續(xù)生成下一層。例如,“(稻米,最佳生長(zhǎng)溫度,20-25攝?度)”是正確的三元組,但尾實(shí)體“20-25攝氏度”不需要作為下一層的頭實(shí)體進(jìn)行進(jìn)一步生成。
為了提高知識(shí)圖譜的可控性,該研究引入剪枝器,這是一個(gè)在開(kāi)源知識(shí)圖譜DBpedia上微調(diào)的T5二分類(lèi)模型。輸入為每個(gè)正確三元組的尾實(shí)體,輸出為“生長(zhǎng)”或“修剪”,表示是否需要繼續(xù)生成下一層圖譜。
訓(xùn)練剪枝器時(shí),從DBpedia收集訓(xùn)練數(shù)據(jù),將部分頭實(shí)體作為“生長(zhǎng)”類(lèi)的代表,尾實(shí)體則作為“修剪”類(lèi)的代表。通過(guò)這些實(shí)體文本和對(duì)應(yīng)標(biāo)簽進(jìn)行微調(diào)。
實(shí)驗(yàn)及結(jié)果
主實(shí)驗(yàn)
在同一領(lǐng)域的知識(shí)圖譜自動(dòng)構(gòu)建中,研究團(tuán)隊(duì)使用GPT-4進(jìn)行自動(dòng)和高效的評(píng)估。
如表1所示,SAC-KG表現(xiàn)優(yōu)異,超越了多個(gè)基線模型。
四個(gè)基線模型包括OpenIE6、StanfordOIE、DeepEx和PIVE,其中前兩者為基于規(guī)則的三元組抽取方法,而DeepEx結(jié)合了Bert模型與規(guī)則技術(shù),PIVE則直接使用ChatGPT構(gòu)建知識(shí)圖譜。
SAC-KG在知識(shí)圖譜構(gòu)建上始終優(yōu)于這些方法,尤其在準(zhǔn)確率和領(lǐng)域特異性上表現(xiàn)突出。
圖片
當(dāng)使用ChatGPT作為基礎(chǔ)模型時(shí),SAC-KG達(dá)到了89.32%的準(zhǔn)確率和81.25%的領(lǐng)域特異性,顯著優(yōu)于基于規(guī)則的方法,相對(duì)于SOTA方法提升了20%。
消融實(shí)驗(yàn)
消融實(shí)驗(yàn)中,研究團(tuán)隊(duì)每次迭代中計(jì)算這些指標(biāo),以獲得更細(xì)致的結(jié)果。
他們將沒(méi)有開(kāi)放知識(shí)圖譜檢索器的SAC-KG記作SAC-KGw/oprompt,沒(méi)有領(lǐng)域語(yǔ)料檢索器的記作SAC-KGw/otext,沒(méi)有驗(yàn)證器的記作SAC-KGw/overifier,沒(méi)有修剪器的記作SAC-KGw/opruner。
圖片
如表2所示,SAC-KG中的任一組件缺失都會(huì)導(dǎo)致整個(gè)框架性能下降。
特別是,修剪器和開(kāi)放知識(shí)圖譜檢索器對(duì)SAC-KG的性能影響更為顯著。這兩個(gè)組件分別控制生成方向和添加示例,表明在知識(shí)圖譜構(gòu)建過(guò)程中提升可控性的重要性。
圖片
研究團(tuán)隊(duì)進(jìn)一步可視化了SAC-KG每個(gè)消融版本生成的前三層知識(shí)圖譜。如圖所示,完整的SAC-KG版本表現(xiàn)出最佳的整體結(jié)果,且每一層中的錯(cuò)誤三元組數(shù)量沒(méi)有顯著差異。這一現(xiàn)象表明,在領(lǐng)域知識(shí)圖譜的迭代生成過(guò)程中,錯(cuò)誤傳播并不明顯。相反,去除了文本處理模塊(SAC-KGw/o text)和剪枝模塊(SAC-KGw/o pruner)的版本顯示出明顯的錯(cuò)誤傳播,導(dǎo)致在第三層生成的錯(cuò)誤三元組數(shù)量顯著增加。而去除了提示模塊(SAC-KGw/o prompt)和驗(yàn)證模塊(SAC-KGw/o verifier)的版本僅能提取較少的三元組,這意味著語(yǔ)言模型在缺乏示例和錯(cuò)誤糾正過(guò)程的情況下難以從領(lǐng)域語(yǔ)料中總結(jié)知識(shí)。這些結(jié)果進(jìn)一步證實(shí)了框架內(nèi)每個(gè)組件對(duì)構(gòu)建過(guò)程的重要貢獻(xiàn)。
OIEbenchmarks
SAC-KG在傳統(tǒng)的開(kāi)放信息抽取任務(wù)中的有效性和廣泛適用性通過(guò)多個(gè)開(kāi)源基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)得到了驗(yàn)證。
實(shí)驗(yàn)結(jié)果顯示,SAC-KG在這些傳統(tǒng)OIE基準(zhǔn)數(shù)據(jù)集上,顯著優(yōu)于現(xiàn)有的最先進(jìn)方法。
特別是,在與基于規(guī)則的方法(如OpenIE6和StanfordOIE)和基于大規(guī)模語(yǔ)言模型的方法(如DeepEx和PIVE)的比較中,SAC-KG始終達(dá)到最佳結(jié)果,證明了其在傳統(tǒng)OIE任務(wù)中的有效性和魯棒性。
圖片
小結(jié)
針對(duì)大規(guī)模領(lǐng)域知識(shí)圖譜構(gòu)建成本高、精度低這一復(fù)雜的實(shí)際問(wèn)題,本研究提出了基于大模型的迭代式領(lǐng)域/常識(shí)圖譜通用構(gòu)建框架。
該框架實(shí)現(xiàn)了多源領(lǐng)域語(yǔ)料中的精準(zhǔn)知識(shí)檢索,并結(jié)合開(kāi)源圖譜實(shí)現(xiàn)了自適應(yīng)提示機(jī)制,通過(guò)模擬樹(shù)生長(zhǎng)過(guò)程,成功構(gòu)建了百萬(wàn)級(jí)的高質(zhì)量領(lǐng)域圖譜。
論文發(fā)表在CCF-A類(lèi)人工智能頂級(jí)會(huì)議Annual Meeting of the Associationfor Computational Linguistics(ACL 2024 Main)。
論文作者第一作者陳瀚鑄是中國(guó)科學(xué)技術(shù)大學(xué)2021級(jí)碩博連讀生,師從王杰教授,主要研究方向?yàn)橹R(shí)圖譜與大語(yǔ)言模型,數(shù)據(jù)合成等。曾獲KDDCup全球高校團(tuán)隊(duì)第一等榮譽(yù)。
論文地址:https://aclanthology.org/2024.acl-long.238.pdf開(kāi)放構(gòu)建平臺(tái):http://8.149.242.106:5000(可試用)


































