股票研究報告生成-基于LLM的多智能體框架FinRpt-Gen數據構建、方法框架 原創
大a都上4千點了,來看一個“股票研究報告(ERR)自動生成”,輸入輸出如下:
- 輸入:給定公司股票代碼(s)和研究日期(t),自動采集6類結構化/非結構化數據,構成輸入集合S=[O, F, A, N, P, M]
a.O:公司基礎信息(如行業分類、市場定位)
b.F:財務指標(利潤表、資產負債表、現金流量表)
c.A:公司公告(董事會決議、季度報告等)
d.N:公司相關新聞(經篩選去重)
e.P:歷史股價數據
f.M:市場指數(如滬深300)
- 輸出:符合行業規范的ERR報告,包含6個核心模塊:財務分析(R_fin)、新聞分析(R_news)、經營發展分析(R_manage)、風險分析(R_risk)、投資潛力評估(R_invest)、推薦評級(R_rec,買/賣)
方法包含數據集構建、多智能體框架設計、模型訓練優化三大模塊,下面具體看看實現。
數據集構建-FinRpt數據集

數據集構建流水線、數據采集模塊和數據集增強模塊
為支撐模型訓練和評估,論文設計了自動化數據集構建流水線,核心分3步:
1. 數據收集模塊
- 數據源
- 6 種數據類型相對應的數據內容和數據源
- 數據范圍:滬深800指數的800只股票,2024年9月3日-11月5日(共10個分析日期,間隔1周)

2. 數據篩選與生成
- 篩選規則:剔除缺少財務指標、新聞數量<2條、公告摘要<300字的低質量數據
- 報告生成:用FinRpt-Gen框架(初始基于GPT-4o)自動生成ERR,形成原始樣本(s, t, S, R)
3. 數據集增強模塊
- 推薦評級校正:對比生成報告的R_rec與真實股價趨勢,不一致則重新生成
- 專家報告校正:檢索東方財富網的專家報告,讓GPT-4o參考專家報告優化生成報告的準確性、邏輯性和專業風格
- LLM潤色:用GPT-4o優化報告的可讀性、連貫性和邏輯流暢度
- 最終數據集:6825條高質量ERR樣本(含中英文版本),按9:1:1劃分訓練集(5556)、驗證集(617)、測試集(652)

FinRpt 數據集來自不同行業的報告比例
FinRpt-Gen多智能體框架

FinRpt-Gen 框架
針對ERR結構復雜、需多維度分析的特點,設計了包含9個智能體的分層框架,分3大模塊協同工作:
1. 信息提取模塊(4個智能體):從原始數據中提取關鍵信息
- 新聞提取智能體:對新聞N按股價影響度排序,篩選Top10關鍵新聞
- 收入提取智能體:從利潤表F中提取營收、凈利潤、每股收益(EPS)等核心指標
- 資產提取智能體:從資產負債表F中提取資產、負債、權益等關鍵數據
- 現金提取智能體:從現金流量表F中提取經營/投資/融資活動現金流
2. 分析模塊(4個智能體):生成ERR的核心分析章節
- 財務分析智能體:基于3個財務提取智能體的輸出,總結公司財務健康度、盈利能力和現金流狀況,生成R_fin
- 新聞分析智能體:基于Top10新聞,分析其對股票未來表現的影響,生成R_news
- 經營分析智能體:從公司公告A中提煉管理層策略、發展軌跡,生成R_manage
- 風險分析智能體:整合財務、新聞、經營分析結果,識別核心風險(如政策風險、仿冒風險),生成R_risk
3. 預測模塊(1個智能體):生成投資建議與評級
- 預測智能體:輸入R_fin、R_news、R_risk,結合歷史股價P和市場指數M,生成投資潛力評估(R_invest)和推薦評級(R_rec)
- 評級規則:若預期股價漲幅超滬深300指數則為“Buy”,否則為“Sell”
模型訓練優化:SFT+RL
針對框架中4個核心智能體(財務分析、新聞分析、經營分析、預測),采用“監督微調+強化學習”的兩階段訓練:
1. SFT學習專業分析范式
- 數據:使用FinRpt數據集中對應模塊的標注樣本(輸入為提取模塊輸出,輸出為高質量分析章節)
- 方法:采用LoRA(低秩適配)微調,僅更新低秩適配器參數Δθ,避免全量微調的高資源消耗
- 優化目標:最大化生成目標文本的似然概率
- 其中θ?為預訓練模型原始參數,D_demo為各智能體的演示數據集

2. 強化學習(RL):優化投資預測準確性
- 針對對象:僅優化預測智能體(核心影響投資建議有效性)
- 算法:采用DAPO(動態采樣策略優化),基于PPO改進,確保訓練穩定性
- 獎勵函數:綜合評估推薦評級準確性和投資分析質量,權重分配為α=0.6(評級準確性)、β=0.2(ROUGE-1)、γ=0.2(ROUGE-L)

優化目標:最大化裁剪后的代理目標,避免策略更新幅度過大

五、評估系統:全面衡量ERR生成質量
設計了包含“基礎指標+LLM專業評估”的雙維度評估體系,確保評估的全面性和專業性:
1. 基礎指標(5個)- 量化文本質量與預測準確性
- 完成率(CompletionRate):生成報告是否符合6章節格式要求
- 準確率(Accuracy):推薦評級(Buy/Sell)的正確性
- 語義相似度(BERTScore/ROUGE-L):與專家報告的語義對齊程度
- 數字覆蓋率(NumberRate):生成報告中財務數字的豐富度(對比專家報告)
2. LLM專業評估(6個維度):評估金融專業性
- 財務數字(FN):財務數據準確性與分析深度
- 新聞相關性(News):新聞分析的相關性與全面性
- 公司/市場/行業洞察(CMI):對公司管理、市場趨勢的理解
- 投資邏輯(Invest):投資建議的合理性與論證充分性
- 風險分析(Risk):風險識別的全面性
- 寫作質量(Writing):連貫性、可讀性與邏輯一致性
- 評估方式:用GPT-4o作為Judge Agent, pairwise對比不同模型生成的報告,計算調整勝率(Win Counts + 0.5×Tie Counts)/總樣本數
實驗性能

FinRpt-Gen 與基準方法在基礎指標評估下的性能比較


消融實驗

參考文獻:FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation,https://arxiv.org/pdf/2511.07322v1
repo:https://github.com/jinsong8/FinRpt
本文轉載自???大模型自然語言處理???? 作者:老余

















