淺談大模型知識圖譜的構建過程 原創
我們已經了解了知識圖譜的基本概念,以及現在知識圖譜發展狀況,與前沿AI結合方向?,F在就差真正實踐構建知識圖譜這臨門一腳,基本上就會對知識圖譜這一產品有更加清晰的認識。
那么工欲善其事必先利其器,就像我們對編程語言的掌握程度,更高級的用法和熟練度能更進一步提高我們做出項目產品的質量,在本篇文章將從開發環境部署寫到初級知識圖譜搭建實踐,完成從無到有的知識圖譜構建過程。知識圖譜有自頂向下和自底向上兩種構建方式,這里提到的構建技術主要是自底向上的構建技術。


我們有一大堆的數據,這些數據可能是結構化的、非結構化的以及半結構化的,然后我們基于這些數據來構建知識圖譜,這一步主要是通過一系列自動化或半自動化的技術手段,來從原始數據中提取出知識要素,即一堆實體關系,并將其存入我們的知識庫的模式層和數據層。構建知識圖譜是一個迭代更新的過程,根據知識獲取的邏輯,每一輪迭代包含三個階段六個步驟:
信息抽?。簭母鞣N類型的數據源中提取出實體、屬性以及實體間的相互關系,在此基礎上形成本體化的知識表達;
知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;
知識加工:對于經過融合的新知識,需要經過質量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量。
當下知識圖譜的應用主要分為用于構建結構化的百科知識的“通用知識圖譜”和基于行業數據構建和應用的“領域知識圖譜”。在AI與行業結合應用中,因行業領域的差異,存在大量數據模式不同,應用需求不同等現實,“領域知識圖譜”以其更加符合實際應用需求的特性在工業領域得到了廣泛應用。其中最為熟知的有Google搜索、百度搜索、天眼查企業圖譜等。
自底向上(Bottom-UP)的方法,即首先對實體進行歸納組織,形成底層概念,再逐步向上抽象,形成上層概念。該方法可基于行業現有標準轉換成數據可模式,也可基于高質量行業數據源映射生成。
知識圖譜的構建流程主要包括6個環節:知識建模、知識存儲、知識抽取、知識融合、知識計算以及知識應用。

構建知識圖譜是一個迭代更新的過程,根據知識獲取的邏輯,每一輪迭代包含:知識儲存、信息抽取、知識融合、知識計算,四個階段。
1、知識存儲:針對構建知識圖譜設計底層的存儲方式,完成各類知識的存儲,包括基本屬性知識、關聯知識、事件知識、時序知識、資源類知識等。存儲方式的憂慮將直接導致查詢效率和應用效果。
2、 信息抽?。?/strong>從各種類型的數據源中提取出實體、屬性以及實體間的相互關系,在此基礎上形成本體化的知識表達。
3、知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;
4、知識計算:對于經過融合的新知識,需要經過質量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量。
知識圖譜的信息抽取
信息抽取
信息抽取是一種自動化地從半結構化和無結構數據中抽取實體、關系以及實體屬性等結構化信息的技術。涉及的關鍵技術包括:實體抽取、關系抽取和屬性抽取。
實體抽取(Entity Extraction)
實體抽取又稱為命名實體識別(named entity recognition,NER),是指從文本數據集中自動識別出命名實體。實體抽取的質量(準確率和召回率)對后續的知識獲取效率和質量影響極大,因此是信息抽取中最為基礎和關鍵的部分。

但是隨著互聯網中內容的動態變化,采用人工預定義實體分類體系的方式已經很難適應時代的需求,因此提出了面向開放域的實體識別和分類研究。
關系抽取(Relation Extraction)
文本語料經過實體抽取,得到的是一系列離散的命名實體,為了得到語義信息,還需要從相關的語料中提取出實體之間的關聯關系,通過關聯關系將實體(概念)聯系起來,才能夠形成網狀的知識結構,研究關系抽取技術的目的,就是解決如何從文本語料中抽取實體間的關系這一基本問題。

- 人工構造語法和語義規則(模式匹配)
- 統計機器學習方法
- 基于特征向量或核函數的有監督學習方法
- 研究重點轉向半監督和無監督
- 開始研究面向開放域的信息抽取方法
- 將面向開放域的信息抽取方法和面向封閉領域的傳統方法結合
屬性抽取(Attribute Extraction)
屬性抽取的目標是從不同信息源中采集特定實體的屬性信息。例如針對某個公眾人物,可以從網絡公開信息中得到其昵稱、生日、國籍、教育背景等信息。屬性抽取技術能夠從多種數據來源中匯集這些信息,實現對實體屬性的完整勾畫。
- 將實體的屬性視作實體與屬性值之間的一種名詞性關系,將屬性抽取任務轉化為關系抽取任務。
- 基于規則和啟發式算法,抽取結構化數據
- 基于百科類網站的半結構化數據,通過自動抽取生成訓練語料,用于訓練實體屬性標注模型,然后將其應用于對非結構化數據的實體屬性抽取。
- 采用數據挖掘的方法直接從文本中挖掘實體屬性和屬性值之間的關系模式,據此實現對屬性名和屬性值在文本中的定位。

UIE(Universal Information Extraction)是一種基于深度學習的自然語言處理技術,旨在從非結構化文本中自動抽取有價值的信息。它整合了多種信息抽取任務,包括實體識別、關系抽取、事件抽取等,形成一個統一的框架。
UIE 的基本概念
- 信息抽取:指從文本中提取出結構化的信息,例如命名實體、實體間的關系、事件及其屬性等。信息抽取能夠將非結構化數據(如文章、報告等)轉換為可用于分析和決策的結構化數據。
- 統一性:UIE 將多種信息抽取任務整合在同一個模型中,能夠同時處理多個抽取任務,提高了模型的通用性和適用性。
UIE 的主要任務
UIE 主要包括以下幾個子任務:
- 實體識別(Entity Recognition):識別文本中的特定實體,如人名、地名、組織、日期等。UIE 模型能夠自動標識這些實體并將其分類。
- 關系抽?。≧elation Extraction):識別實體之間的關系。例如,從句子“馬云創立了阿里巴巴”中抽取“馬云”和“阿里巴巴”之間的“創立”關系。
- 事件抽取(Event Extraction):從文本中抽取事件及其相關信息,通常包括事件的觸發詞、參與者、時間、地點等。例如,從“2020年,阿里巴巴收購了某公司”中識別出“收購”事件及相關參與者。
- 屬性抽取(Attribute Extraction):提取實體的特征和屬性,例如提取“產品”的品牌、型號、價格等信息。
知識融合
知識融合
通過信息抽取,我們就從原始的非結構化和半結構化數據中獲取到了實體、關系以及實體的屬性信息。

如果我們將接下來的過程比喻成拼圖的話,那么這些信息就是拼圖碎片,散亂無章,甚至還有從其他拼圖里跑來的碎片、本身就是用來干擾我們拼圖的錯誤碎片。知識融合包括2部分內容:實體鏈接,知識合并
實體鏈接
實體鏈接(entity linking):是指對于從文本中抽取得到的實體對象,將其鏈接到知識庫中對應的正確實體對象的操作。其基本思想是首先根據給定的實體指稱項,從知識庫中選出一組候選實體對象,然后通過相似度計算將指稱項鏈接到正確的實體對象。
研究歷史:
- 僅關注如何將從文本中抽取到的實體鏈接到知識庫中,忽視了位于同一文檔的實體間存在的語義聯系。
- 開始關注利用實體的共現關系,同時將多個實體鏈接到知識庫中。
實體鏈接的流程:
- 從文本中通過實體抽取得到實體指稱項。
- 進行實體消歧和共指消解,判斷知識庫中的同名實體與之是否代表不同的含義以及知識庫中是否存在其他命名實體與之表示相同的含義。
- 在確認知識庫中對應的正確實體對象之后,將該實體指稱項鏈接到知識庫中對應實體。
- 實體消歧:專門用于解決同名實體產生歧義問題的技術,通過實體消歧,就可以根據當前的語境,準確建立實體鏈接,實體消歧主要采用聚類法。其實也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。
- 共指消解:主要用于解決多個指稱對應同一實體對象的問題。在一次會話中,多個指稱可能指向的是同一實體對象。利用共指消解技術,可以將這些指稱項關聯(合并)到正確的實體對象,由于該問題在信息檢索和自然語言處理等領域具有特殊的重要性,吸引了大量的研究努力。共指消解還有一些其他的名字,比如對象對齊、實體匹配和實體同義。
知識加工和更新
通過信息抽取,從原始語料中提取出了實體、關系與屬性等知識要素,并且經過知識融合,消除實體指稱項與實體對象之間的歧義,得到一系列基本的事實表達。然而事實本身并不等于知識。要想最終獲得結構化,網絡化的知識體系,還需要經歷知識加工的過程。知識加工主要包括3方面內容:本體構建、知識推理和質量評估。
本體構建
本體(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。本體可以采用人工編輯的方式手動構建(借助本體編輯軟件),也可以以數據驅動的自動化方式構建本體,該過程包含三個階段:
- 實體并列關系相似度計算
- 實體上下位關系抽取
- 本體的生成
比如對下面這個例子,當知識圖譜剛得到“阿里巴巴”、“騰訊”、“手機”這三個實體的時候,可能會認為它們三個之間并沒有什么差別,但當它去計算三個實體之間的相似度后,就會發現,阿里巴巴和騰訊之間可能更相似,和手機差別更大一些。這個知識圖譜可能就會明白,“阿里巴巴和騰訊,其實都是公司這樣一個實體下的細分實體。它們和手機并不是一類?!?/p>

知識推理
在我們完成了本體構建這一步之后,一個知識圖譜的雛形便已經搭建好了。但可能在這個時候,知識圖譜之間大多數關系都是殘缺的,缺失值非常嚴重,那么這個時候,我們就可以使用知識推理技術,去完成進一步的知識發現。我們可以發現:如果A是B的配偶,B是C的主席,C坐落于D,那么我們就可以認為,A生活在D這個城市。
推理屬性值:已知某實體的生日屬性,可以通過推理得到該實體的年齡屬性;推理概念:已知(老虎,科,貓科)和(貓科,目,食肉目)可以推出(老虎,目,食肉目)。
質量評估
質量評估也是知識庫構建技術的重要組成部分,這一部分存在的意義在于:可以對知識的可信度進行量化,通過舍棄置信度較低的知識來保障知識庫的質量。

知識更新
從邏輯上看知識庫的更新包括概念層的更新和數據層的更新。概念層的更新是指新增數據后獲得了新的概念,需要自動將新的概念添加到知識庫的概念層中。數據層的更新主要是新增或更新實體、關系、屬性值,對數據層進行更新需要考慮數據源的可靠性、數據的一致性(是否存在矛盾或冗雜等問題)等可靠數據源,并選擇在各數據源中出現頻率高的事實和屬性加入知識庫。
知識圖譜的內容更新有兩種方式:
- 全面更新:指以更新后的全部數據為輸入,從零開始構建知識圖譜。這種方法比較簡單,但資源消耗大,而且需要耗費大量人力資源進行系統維護;
- 增量更新:以當前新增數據為輸入,向現有知識圖譜中添加新增知識。這種方式資源消耗小,但目前仍需要大量人工干預(定義規則等),因此實施起來十分困難。

經過上述環節,專項領域的知識圖譜已經構建完成,在其具備的特有應用形態,與領域數據和業務場景相結合后,將實際助力企業在該領域取得實際的商業價值?,F今知識圖譜在很多行業中都有了成功的應用。例如:
- 信息檢索:搜索引擎中對實體信息的精準聚合和匹配、對關鍵詞的理解以及對搜索意圖的語義分析等;
- 自然語言理解:知識圖譜中的知識作為理解自然語言中實體和關系的背景信息;
- 問答系統:匹配問答模式和知識圖譜中知識子圖之間的映射;
- 推薦系統:將知識圖譜作為一種輔助信息集成到推薦系統中以提供更加精準的推薦選項;
- 電子商務:構建商品知識圖譜來精準地匹配用戶的購買意愿和商品候選集合;
- 金融風控:利用實體之間的關系來分析金融活動的風險以提供在風險觸發后的補救措施(如聯系人等);
- 公安刑偵:分析實體和實體之間的關系以獲得線索等;
- 司法輔助:法律條文的結構化表示和查詢來輔助案件的判決等;
- 教育醫療:提供可視化的知識表示,用于藥物分析、疾病診斷等;
... ...
事實上,知識圖譜的應用遠不止于此。這個世界就是一張巨大的知識圖譜,是無數個實體關系對,在未來工業界對圖數據庫、知識圖譜將展現出巨大需求和應用契機!
本文轉載自??????數字化助推器?????? 作者:天涯咫尺TGH

















