從黑箱到透明,貝葉斯網(wǎng)絡(luò)提升大模型情緒分析可解釋性
在金融行業(yè)里,情緒分析幾乎成了投資者和機(jī)構(gòu)的“水晶球”。從新聞報(bào)道到推特碎片,市場(chǎng)情緒往往比財(cái)報(bào)數(shù)字更快地左右股價(jià),大型語言模型(LLMs)自然成了這場(chǎng)博弈的明星選手,它們能在幾秒鐘內(nèi)讀懂成千上萬條文本,并給出“看漲”還是“看跌”的判斷。
然而明星也有短板。首先,LLMs 的表現(xiàn)雖強(qiáng),但往往像個(gè)“黑箱”,預(yù)測(cè)結(jié)果缺乏解釋性。金融領(lǐng)域可不是娛樂圈,投資人和監(jiān)管者都希望知道“為什么”模型給出這樣的判斷。其次,算力和能耗問題讓人頭疼。訓(xùn)練 GPT-4 的成本動(dòng)輒上億美元,哪怕是中型模型的微調(diào),也可能消耗掉一個(gè)美國(guó)家庭一年的電力。再加上 LLMs 對(duì)提示詞極度敏感,換個(gè)說法結(jié)果就可能天差地別,這在跨領(lǐng)域應(yīng)用時(shí)尤其不穩(wěn)定。
于是,研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問題,能否在保持性能的同時(shí),讓模型更透明、更高效?答案就是本文的主角——BNLF(Bayesian Network LLM Fusion)。它的思路很巧妙,不再依賴單一大模型,而是把多個(gè)中型 LLM 的預(yù)測(cè)結(jié)果交給貝葉斯網(wǎng)絡(luò)來“仲裁”。這樣既能提升準(zhǔn)確率,又能通過概率依賴關(guān)系解釋模型的決策邏輯。
這項(xiàng)研究背后站著一支跨機(jī)構(gòu)的研究團(tuán)隊(duì)。來自澳大利亞迪肯大學(xué)的 Rasoul Amirzadeh 和 Dhananjay Thiruvady,擅長(zhǎng) AI 優(yōu)化與概率建模;而來自皇家墨爾本理工大學(xué)的 Fatemeh Shiri,則在自然語言處理和社交媒體分析方面經(jīng)驗(yàn)豐富。三人聯(lián)手,既有算法的硬核功底,又懂金融文本的復(fù)雜語境,堪稱“跨界組合拳”。
1.相關(guān)研究回顧
在進(jìn)入 BNLF 之前,我們先看看前人都做了些什么。
單一 LLM 的表現(xiàn)自然不容小覷。比如 FinBERT,專為金融語料打造,能精準(zhǔn)捕捉“盈利預(yù)警”背后的負(fù)面情緒;RoBERTa則是通用型選手,訓(xùn)練語料廣泛,適合多領(lǐng)域遷移;而 BERTweet專注于推特語言,能理解縮寫、俚語甚至諷刺語氣。它們各有千秋,但也各有盲點(diǎn),F(xiàn)inBERT在社交媒體上容易“水土不服”,BERTweet 在正式金融報(bào)告里則顯得力不從心。
于是研究者們嘗試了各種集成方法,最簡(jiǎn)單的是多數(shù)投票,三個(gè)模型里誰說得最多,就聽誰的。稍微復(fù)雜一點(diǎn)的是概率平均,把各模型的預(yù)測(cè)概率加權(quán)平均,取最大值作為結(jié)果。還有一些混合模型,試圖在特征層面融合不同模型的表示。
但這些方法大多是“確定性”的,缺乏對(duì)不確定性和依賴關(guān)系的建模。換句話說,它們只是在“湊數(shù)”,而沒有真正理解不同模型之間的互補(bǔ)性。比如,當(dāng) FinBERT 和 RoBERTa 意見相左時(shí),傳統(tǒng)方法只能機(jī)械地投票,而無法解釋為什么會(huì)出現(xiàn)分歧。
這就留下了一個(gè)研究空白,能否用概率圖模型來融合 LLM 的預(yù)測(cè)? 貝葉斯網(wǎng)絡(luò)天生適合處理不確定性和條件依賴,它不僅能給出最終結(jié)果,還能揭示不同模型和數(shù)據(jù)源之間的關(guān)系。BNLF 正是填補(bǔ)這一空白的嘗試。
2.方法論基礎(chǔ)
在進(jìn)入 BNLF 的核心之前,我們需要先打好兩塊地基,一是大型語言模型(LLMs),二是貝葉斯網(wǎng)絡(luò)(BN)。前者是當(dāng)下自然語言處理的“肌肉”,后者則是概率推理的“頭腦”。兩者結(jié)合,才構(gòu)成了這項(xiàng)研究的獨(dú)特風(fēng)景。
大型語言模型(LLMs)
如果說傳統(tǒng)的自然語言處理像是靠“詞典+規(guī)則”來理解語言,那么 LLMs 則是靠“海量經(jīng)驗(yàn)+深度神經(jīng)網(wǎng)絡(luò)”來捕捉語義。它們的核心是 Transformer 架構(gòu),一個(gè)徹底改變 NLP 格局的設(shè)計(jì)。Transformer 拋棄了過去 RNN 那種“逐字讀”的方式,轉(zhuǎn)而使用自注意力機(jī)制(self-attention)。
這意味著模型在處理一句話時(shí),不必從頭到尾線性掃描,而是能同時(shí)關(guān)注句子中所有詞之間的關(guān)系。比如在“央行加息導(dǎo)致市場(chǎng)震蕩”這句話里,模型能立刻捕捉到“加息”與“震蕩”的因果聯(lián)系,而不是等到讀到最后才恍然大悟。
不過,LLMs 并不是“開箱即用”的萬能工具。要讓它們?cè)谔囟ㄈ蝿?wù)上表現(xiàn)出色,通常有兩條路可走,微調(diào)(fine-tuning)和提示工程(prompt engineering)。微調(diào)就像給一輛跑車換上專用賽道輪胎,把通用模型在金融語料上再訓(xùn)練一遍,讓它更懂“股息”“并購”這些行話。
提示工程則更像是給司機(jī)一份詳細(xì)的導(dǎo)航指令,通過巧妙設(shè)計(jì)輸入提示,引導(dǎo)模型給出更符合預(yù)期的答案。兩者各有優(yōu)劣,微調(diào)效果穩(wěn)定但成本高,提示工程靈活輕便卻容易“翻車”,一個(gè)詞的差別可能讓模型從“看漲”變成“看空”。
在金融行業(yè),挑戰(zhàn)更為棘手。首先是專業(yè)術(shù)語,比如“量化寬松”或“信用違約互換”,這些詞匯在日常語料中幾乎不會(huì)出現(xiàn)。其次是非結(jié)構(gòu)化文本,金融新聞、分析報(bào)告往往充滿長(zhǎng)句、嵌套和復(fù)雜邏輯。最后是社交媒體噪聲,推特上的金融討論可能夾雜俚語、縮寫甚至諷刺,比如“$TSLA to the moon”到底是樂觀預(yù)測(cè)還是諷刺調(diào)侃?這些都讓單一 LLM 難以全面勝任。

圖1:從多個(gè)金融和社交媒體語料庫中提取的每個(gè)輸入文本都由三個(gè)基于LLM的分類器處理:FinBERT、RoBERTa和BERTweet。這些模型生成個(gè)人情緒預(yù)測(cè),并通過概率推理將其融合到BN中。BN輸出一個(gè)后驗(yàn)情緒分布,然后將其映射到一個(gè)離散的情緒標(biāo)簽:負(fù)面(NEG)、中性(NEU)或正面(POS)。
貝葉斯網(wǎng)絡(luò)(BN)
如果 LLMs 是“語言直覺派”,那么貝葉斯網(wǎng)絡(luò)就是“邏輯推理派”。它的核心是一個(gè) 有向無環(huán)圖(DAG),節(jié)點(diǎn)代表變量,邊表示條件依賴關(guān)系。每個(gè)節(jié)點(diǎn)都配有一張 條件概率表(CPT),用來描述在父節(jié)點(diǎn)給定的情況下,該節(jié)點(diǎn)取不同值的概率。換句話說,BN 就像一張“因果地圖”,能告訴你“如果市場(chǎng)新聞是負(fù)面的,那么股價(jià)下跌的概率是多少”。
BN 的最大優(yōu)勢(shì)在于它能優(yōu)雅地處理不確定性。現(xiàn)實(shí)世界的信息往往是模糊的,尤其在金融文本中,很多表述并非黑白分明。BN 不僅能給出一個(gè)預(yù)測(cè),還能告訴你預(yù)測(cè)背后的概率分布,這就比單一標(biāo)簽更有解釋力。
其次,它的可解釋性極強(qiáng)。通過圖結(jié)構(gòu),我們能直觀地看到哪些因素影響了最終結(jié)果,這在金融和醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域尤為重要。最后,BN 天生適合多源數(shù)據(jù)融合。無論是新聞、推特,還是不同模型的預(yù)測(cè)結(jié)果,都能作為節(jié)點(diǎn)納入同一張網(wǎng)絡(luò)中,統(tǒng)一建模。
在應(yīng)用層面,BN 已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)了價(jià)值。在金融領(lǐng)域,它被用來建模市場(chǎng)風(fēng)險(xiǎn)、信用違約概率,幫助投資者理解復(fù)雜的因果關(guān)系。在醫(yī)療領(lǐng)域,BN 則常用于疾病診斷和治療決策,比如根據(jù)癥狀、檢測(cè)結(jié)果和病史來推斷某種疾病的可能性。相比之下,BNLF 的創(chuàng)新在于把這種概率推理框架引入 LLM 融合,讓“黑箱”模型的輸出變得更透明、更可信。
3.BNLF 框架設(shè)計(jì)
如果把金融情緒分析比作一場(chǎng)合議庭審判,那么 BNLF 就是那個(gè)既懂法律條文、又能調(diào)和各方意見的“首席法官”。它的整體流程非常清晰,輸入文本 → 三個(gè) LLM 預(yù)測(cè) → 貝葉斯網(wǎng)絡(luò)融合 → 最終情感標(biāo)簽。看似簡(jiǎn)單的四步,卻暗藏了不少巧思。
首先是輸入文本。這里的“證據(jù)”來自多種金融語料,既有嚴(yán)肅的新聞報(bào)道,也有輕快的推特碎片,還有問答式的金融討論。不同來源的文本風(fēng)格差異巨大,正是這種復(fù)雜性讓單一模型往往“顧此失彼”。
接下來是三位“陪審員”——FinBERT、RoBERTa和 BERTweet。
FinBERT是金融專用的老法官,深諳行業(yè)術(shù)語,遇到“盈利預(yù)警”或“信用違約”這樣的詞匯時(shí),判斷精準(zhǔn)。
RoBERTa則是通用型的強(qiáng)基線,訓(xùn)練語料廣泛,像個(gè)見多識(shí)廣的顧問,能在各種場(chǎng)景下保持穩(wěn)定發(fā)揮。
BERTweet則是社交媒體的“街頭觀察員”,對(duì)推特上的縮寫、俚語乃至諷刺語氣都有敏銳的嗅覺。
三位陪審員各有專長(zhǎng),但也難免出現(xiàn)分歧。傳統(tǒng)的做法是“多數(shù)投票”,誰的票多就聽誰的,或者“概率平均”,把大家的意見加權(quán)平均。但這種方式就像是“湊數(shù)”,缺乏真正的推理邏輯。
BNLF 的妙處在于引入了 貝葉斯網(wǎng)絡(luò)(BN) 來做最終裁決。它采用 后期融合(late fusion)策略,不去干涉模型的內(nèi)部特征提取,而是直接在預(yù)測(cè)結(jié)果層面建模。BN 會(huì)把輸入語料的來源、各個(gè)模型的預(yù)測(cè)結(jié)果,以及最終的情感標(biāo)簽放在同一張概率圖里,建立條件依賴關(guān)系。換句話說,它不僅考慮“誰說了什么”,還會(huì)結(jié)合“這段話來自哪里”來判斷“誰更可信”。
舉個(gè)例子,如果一條推特里充滿俚語,F(xiàn)inBERT 可能會(huì)誤判,但 BERTweet 的意見就更有分量。BNLF 會(huì)通過概率推理自動(dòng)調(diào)整權(quán)重,而不是死板地“一人一票”。這讓最終的情感標(biāo)簽不僅更準(zhǔn)確,還能解釋清楚,為什么在這個(gè)場(chǎng)景下選擇了“中性”而不是“積極”。
與多數(shù)投票或平均融合相比,BNLF 更像是一個(gè)懂得“情境判斷”的仲裁者。它不會(huì)簡(jiǎn)單地?cái)?shù)票,而是會(huì)問,“在這種語境下,誰的意見更值得信賴?”這種動(dòng)態(tài)調(diào)整的能力,正是它在金融情緒分析中脫穎而出的關(guān)鍵。
4.實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)集
要驗(yàn)證 BNLF 的實(shí)力,研究團(tuán)隊(duì)精心挑選了三類金融語料,堪稱“金融文本三劍客”。
第一劍是Financial PhraseBank,來自金融新聞和公司公告,由專業(yè)分析師標(biāo)注。它的語言正式、邏輯嚴(yán)謹(jǐn),像是金融界的“官方發(fā)言人”。
第二劍是TFNS(Twitter Financial News Sentiment),這是推特上的金融討論,短小精悍但充滿俚語和縮寫,信息密度高卻噪聲也大,堪稱“街頭巷尾的股評(píng)”。
第三劍是FIQA,源自金融問答挑戰(zhàn)賽,涵蓋市場(chǎng)事件、公司表現(xiàn)和投資觀點(diǎn),形式更接近投資者的日常提問,像是“散戶論壇”的縮影。
為了讓這三劍合璧,研究團(tuán)隊(duì)對(duì)數(shù)據(jù)做了統(tǒng)一處理,清理空文本、去掉重復(fù)項(xiàng)、標(biāo)準(zhǔn)化標(biāo)簽,把“bearish/bullish”映射為“負(fù)面/正面”,最終形成一個(gè)三分類(正、中、負(fù))的統(tǒng)一語料庫。

圖2:數(shù)據(jù)集中的一個(gè)真實(shí)示例,顯示了BNLF如何融合FinBERT、RoBERTa和BERTweet的情緒預(yù)測(cè)。BN整合了這些單獨(dú)的預(yù)測(cè),以生成最終的情緒概率(POS=0.3436,NEU=0.6513,NEG=0.0051),其中最終選擇了概率最高的中性類別。
在對(duì)比基線方面,研究者沒有手軟。除了三位“常駐選手”——FinBERT、RoBERTa和 BERTweet,他們還引入了 DistilRoBERTa作為外部基線,這是一款輕量化但在金融任務(wù)上表現(xiàn)不俗的模型。同時(shí),傳統(tǒng)的集成方法也被納入,多數(shù)投票和概率平均。這樣一來,BNLF 不僅要比過單兵作戰(zhàn)的高手,還要戰(zhàn)勝“老牌組合拳”。
評(píng)估指標(biāo)方面,團(tuán)隊(duì)采用了多維度考察,準(zhǔn)確率衡量整體表現(xiàn),宏/加權(quán) F1保證類別平衡,Cohen’s Kappa則用來檢驗(yàn)?zāi)P烷g的一致性。換句話說,他們既看“分?jǐn)?shù)”,也看“公平”,還要看“意見統(tǒng)一度”。
5.實(shí)驗(yàn)結(jié)果與分析
結(jié)果顯示,BNLF 并不是“紙上談兵”。在整體表現(xiàn)上,它的準(zhǔn)確率平均比基線提升了約 6%。在金融情緒分析這種已經(jīng)高度優(yōu)化的任務(wù)里,這個(gè)提升幅度相當(dāng)可觀。
跨數(shù)據(jù)集表現(xiàn)更能體現(xiàn)它的價(jià)值。在社交媒體(TFNS) 和 問答語料(FIQA)上,BNLF 的優(yōu)勢(shì)尤為明顯。原因不難理解,這些數(shù)據(jù)源語言風(fēng)格多變、噪聲大,單一模型往往“顧此失彼”,而 BNLF 的概率融合機(jī)制能動(dòng)態(tài)調(diào)整權(quán)重,發(fā)揮出“團(tuán)隊(duì)智慧”。在 新聞?lì)悢?shù)據(jù)(PhraseBank)上,雖然 DistilRoBERTa 表現(xiàn)依舊強(qiáng)勁,但 BNLF 依然保持了穩(wěn)定的競(jìng)爭(zhēng)力。

圖3:BNLF、單個(gè)LLM、集成基線和外部DistilRoBERTa模型在準(zhǔn)確性、宏F1和加權(quán)F1指標(biāo)上的總體性能比較。代表BNLF的藍(lán)色條始終超過所有基線,包括集合方法(多數(shù)投票和平均),證明了其概率融合方法的有效性。
從類別表現(xiàn)來看,BNLF 在 中性類 的預(yù)測(cè)上最為出色,F(xiàn)1 分?jǐn)?shù)最高。這一點(diǎn)很關(guān)鍵,因?yàn)樵诮鹑谖谋局校罅勘硎銎鋵?shí)是中性的,比如“公司計(jì)劃發(fā)行新債券”。能準(zhǔn)確識(shí)別中性語句,意味著模型不會(huì)輕易“過度解讀”,從而減少誤判風(fēng)險(xiǎn)。而在正面和負(fù)面類別上,BNLF 也保持了均衡表現(xiàn),沒有出現(xiàn)“偏科”。

圖4:不同數(shù)據(jù)集的準(zhǔn)確性比較,其中每組柱狀圖對(duì)應(yīng)一個(gè)數(shù)據(jù)集(金融短語庫、FIQA、TFNS),柱狀圖代表單個(gè)LLM和BNLF。結(jié)果表明,BNLF在FIQA和TFNS上的準(zhǔn)確率最高,而DistilRoBERTa在Financial PhraseBank上的準(zhǔn)確度最高。

圖5:個(gè)體LLM和BNLF之間的成對(duì)一致性得分熱圖。較深的陰影表示更強(qiáng)的一致性,對(duì)應(yīng)于更高比例的匹配情緒標(biāo)簽。
解釋性分析是 BNLF 的一大亮點(diǎn)。研究團(tuán)隊(duì)發(fā)現(xiàn),不同語料來源會(huì)顯著影響預(yù)測(cè)結(jié)果。比如在推特?cái)?shù)據(jù)中,BERTweet的意見更有分量,而在新聞數(shù)據(jù)中,F(xiàn)inBERT 的判斷更可靠。BNLF的貝葉斯網(wǎng)絡(luò)能捕捉到這種“語境依賴”,并在推理過程中動(dòng)態(tài)調(diào)整。
至于各模型的影響力排序,結(jié)果顯示FinBERT > RoBERTa > BERTweet。這并不意外,金融專用模型在專業(yè)文本中占據(jù)主導(dǎo),但通用模型和社交媒體模型在特定場(chǎng)景下依然不可或缺。

圖6:TFNS語料庫的BNLF推理,所有LLM都固定為負(fù)數(shù)。模型輸出67%負(fù),32%中性,2%正,顯示中性概率明顯上升,即使所有模型都給出負(fù)作為輸入。

圖7:FIQA語料庫的BNLF推理,F(xiàn)inBERT=否定,RoBERTa=中性,BERTweet=肯定。該模型輸出17%的負(fù)面、17%的中性和67%的正面,表明盡管輸入相互沖突,但情緒明顯向積極轉(zhuǎn)變。
一個(gè)典型案例是這樣的,當(dāng) FinBERT 判斷“積極”,RoBERTa 判斷“中性”,BERTweet 判斷“消極”時(shí),傳統(tǒng)的多數(shù)投票可能會(huì)陷入僵局。但 BNLF 會(huì)結(jié)合語料來源和條件概率,最終得出一個(gè)合理的“中性”結(jié)論,并能解釋為什么做出這樣的選擇。這種“動(dòng)態(tài)仲裁”的能力,正是它區(qū)別于傳統(tǒng)集成方法的關(guān)鍵。

圖8:BNLF的影響強(qiáng)度圖。電弧厚度與節(jié)點(diǎn)之間的影響程度成正比。
6.項(xiàng)目貢獻(xiàn)與意義
這項(xiàng)研究的最大亮點(diǎn)在于,它是首次系統(tǒng)性地探索貝葉斯網(wǎng)絡(luò)與大型語言模型融合在金融情緒分析中的應(yīng)用。過去我們看到的融合方法,大多停留在“投票”或“平均”層面,缺乏對(duì)不確定性和依賴關(guān)系的建模。而 BNLF 的出現(xiàn),就像是把一群各有專長(zhǎng)的分析師請(qǐng)進(jìn)會(huì)議室,再配上一個(gè)邏輯縝密的主持人,讓討論不再是“吵吵鬧鬧”,而是有理有據(jù)的推理過程。這種方法不僅提升了準(zhǔn)確率,更重要的是,它讓模型的決策過程變得可解釋,學(xué)術(shù)價(jià)值不言而喻。
在應(yīng)用層面,BNLF 的價(jià)值同樣突出。它沒有依賴龐大的超大模型,而是選擇了中等規(guī)模的 LLM(FinBERT、RoBERTa、BERTweet),再通過貝葉斯網(wǎng)絡(luò)進(jìn)行融合。這種設(shè)計(jì)輕量化、計(jì)算成本低,甚至可以在單 GPU 或 CPU 環(huán)境下運(yùn)行,非常適合資源受限的場(chǎng)景。對(duì)于那些沒有能力部署 GPT-4 級(jí)別模型的機(jī)構(gòu)來說,BNLF 提供了一條務(wù)實(shí)的道路。
對(duì)行業(yè)而言,這項(xiàng)研究釋放了兩個(gè)重要信號(hào)。首先,金融機(jī)構(gòu)完全可以在低算力環(huán)境中部署情緒分析系統(tǒng),不必為高昂的算力和能耗發(fā)愁。其次,BNLF 提供的結(jié)果是透明的,能夠解釋“為什么是這個(gè)情感標(biāo)簽”,這對(duì)于合規(guī)和決策尤為關(guān)鍵。畢竟,在金融領(lǐng)域,監(jiān)管者和投資人都不希望依賴一個(gè)“黑箱”來決定數(shù)百萬美元的投資方向。
7.局限性與未來方向
當(dāng)然,BNLF 并不是完美無缺的“銀彈”。它的局限性同樣值得注意。目前的實(shí)驗(yàn)僅限于三類情感標(biāo)簽(正面、中性、負(fù)面),而現(xiàn)實(shí)中的金融情緒遠(yuǎn)比這復(fù)雜,可能涉及恐慌、貪婪、謹(jǐn)慎等更細(xì)膩的維度。它依賴人工標(biāo)注的數(shù)據(jù)集,而人工標(biāo)注不僅成本高,還可能帶有主觀偏差。BN 的結(jié)構(gòu)需要人工設(shè)定,靈活性有限,難以完全自動(dòng)適應(yīng)新的數(shù)據(jù)分布或任務(wù)場(chǎng)景。
未來的研究方向則充滿想象空間。一個(gè)自然的擴(kuò)展是多語言、多領(lǐng)域的應(yīng)用,畢竟金融市場(chǎng)是全球性的,情緒分析不能只局限于英文語料。另一個(gè)方向是引入置信度建模與動(dòng)態(tài) BN,讓網(wǎng)絡(luò)結(jié)構(gòu)能夠隨數(shù)據(jù)演化而調(diào)整,捕捉市場(chǎng)情緒的動(dòng)態(tài)變化。更大膽的設(shè)想是將BNLF 融合到生成式任務(wù)與多模態(tài)數(shù)據(jù)中,比如結(jié)合語音、視頻和文本,構(gòu)建一個(gè)能實(shí)時(shí)解讀財(cái)經(jīng)新聞發(fā)布會(huì)的多模態(tài)情緒分析系統(tǒng)。
參考資料:???https://arxiv.org/pdf/2510.26484??
本文轉(zhuǎn)載自??波動(dòng)智能??,作者:FlerkenS?

















