FinWorld:開源端到端金融AI研究和部署一體化平臺
金融AI在市場分析、交易策略和投資決策中取得顯著進展,但現有平臺存在碎片化和集成困難。FinWorld是一個開源平臺,提供從數據獲取到實驗和部署的全流程支持。FinWorld的特點包括異構金融數據的原生集成、對多種AI范式的統一支持和高級代理自動化。
在四個金融AI任務(時間序列預測、算法交易、投資組合管理和大語言模型應用)實證結果表明,FinWorld顯著提高了可重復性,支持透明基準測試,并簡化了部署,為未來研究和實際應用奠定了基礎。

摘要
Financial AI有潛力轉變現代金融,支持市場預測、投資組合管理、量化交易和自動分析等任務。現有平臺在任務覆蓋、數據集成和大語言模型(LLM)訓練與部署支持方面存在局限。FinWorld是一個開源平臺,提供從數據獲取到實驗和部署的全流程支持。FinWorld的特點包括異構金融數據的原生集成、對多種AI范式的統一支持和高級代理自動化?;?個市場、4個股票池和超過8億個金融數據點進行的實驗,評估了深度學習和強化學習算法,特別是針對LLM和LLM代理的RL微調。實證結果表明,FinWorld顯著提高了可重復性,支持透明基準測試,并簡化了部署,為未來研究和實際應用奠定了基礎。
簡介
金融AI在市場分析、交易策略和投資決策中取得顯著進展,但現有平臺存在碎片化和集成困難。當前平臺的主要局限性包括:
- 任務覆蓋有限,缺乏對大語言模型和自主代理的支持。
- 異構數據集成不足,難以處理多種金融數據。
- 框架架構僵化,難以整合新算法。
- 缺乏標準化評估和展示框架。
本文提出FinWorld平臺,旨在解決上述挑戰,特點包括:
- 多任務支持,涵蓋時間序列預測、算法交易、投資組合管理和LLM應用。
- 多模態數據集成,支持結構化和非結構化金融數據。
- 全面支持多種AI范式,包括ML、DL、RL和LLM。
- 高擴展性,模塊化設計便于快速集成新算法。
- 高級自動化,支持分布式多GPU訓練和測試。
圖片
本文主要貢獻:
- 提出統一的端到端框架,涵蓋四種關鍵金融AI任務。
- 模塊化設計,支持定制模型和任務的靈活構建。
- 提供支持多模態異構數據的基準,包含超過8億個樣本。為金融AI社區建立了全面的基準。在四種任務類型上進行廣泛實驗,展示框架的靈活性和有效性。
預備知識
本文定義了時間序列預測、算法交易、投資組合管理和金融領域大語言模型應用的核心任務。單資產場景的歷史內生時間序列表示為

,多資產場景為

。外生協變量序列表示為

,包括技術指標、金融因素、新聞情感分數或宏觀經濟變量。其中 D 為內生序列的維度,C 為外生特征的數量。
時間序列預測任務
金融預測與傳統時間序列預測的區別在于:1) 直接預測資產價格困難,通常預測相對收益;2) 通常同時預測多個資產的未來收益,以滿足投資組合管理需求。
定義:時間序列預測的目標是基于歷史價格和外生變量,預測未來S天的相對收益。

算法交易任務
系統化交易策略設計、模擬與評估,重點在實時決策與風險管理。算法交易可通過兩種主要方法解決:
a)基于機器學習和深度學習的方法:預測未來價格回報或走勢,使用模型Fθ生成交易信號,依據預設規則決定交易行動。

b)基于強化學習的方法:將交易任務建模為馬爾可夫決策過程,代理觀察狀態、選擇行動、獲得獎勵,學習最大化期望累積獎勵的策略。

投資組合管理任務
投資組合管理問題可通過兩種主要方法解決:
a)ML&DL方法:利用預測模型預測未來資產收益或風險,隨后通過優化程序確定配置權重。

b)RL方法:將任務視為序列決策過程,代理根據狀態選擇配置權重,以最大化預期累積效用。

目標包括收益最大化、波動率最小化和夏普比率優化,需考慮交易成本和頭寸限制等實際約束。
大模型應用
LLM在金融領域的應用分為兩大類:
i)一般語言理解任務,包括金融文本分析、金融問答等;
ii)序列決策任務,通過與真實環境互動進行強化學習訓練,如實時市場交易。

LLM的目標是處理多種輸入模態(如非結構化文本、結構化時間序列、圖像、音頻/視頻),并生成任務特定的輸出。LLM可作為預測模型或自主代理,進行基于強化學習的決策和工具利用。
大模型強化學習
GRPO(Group Relative Policy Optimization)是一種政策優化算法,適用于訓練大型語言模型(LLMs)在語言和環境交互設置中的應用。在金融AI中,GRPO可用于提升LLMs的金融知識、推理能力和交易技能,特別是在金融文檔分析和問答中,通過環境反饋實現領域特定內容的理解。
在模擬交易環境中,GRPO使LLMs通過直接交互學習交易能力、策略適應和風險管理,基于價格時間序列、技術指標和新聞生成交易決策(如買入、持有、賣出)。
GRPO的訓練分為兩個階段:第一階段使用金融推理數據集提升模型的推理能力,第二階段在真實或模擬市場環境中培養決策技能。
FinWorld
FinWorld是一個統一的模塊化平臺,旨在克服現有金融AI框架的局限。采用清晰的分層架構,支持結合傳統機器學習、深度學習、強化學習、LLMs及基于LLMs的代理方法。提供集成的數據集管理、標準化模型API和可擴展的訓練后端,適用于學術研究和實際應用。

設計原則
- 分層和面向對象架構:采用分層架構和面向對象設計,確保關注點分離,提升靈活性和可擴展性。
- 模塊化和解耦設計:每個組件為自包含單元,具有明確接口,便于優化和集成自定義組件。
- 可擴展性和范式融合:提供標準化擴展點,支持新算法和數據集的無縫集成,促進金融AI研究的多樣化范式融合。
配置層
FinWorld的配置層基于mmengine,提供統一且可擴展的字典系統,集中管理實驗設置(數據集、模型、訓練、評估)。支持配置繼承和覆蓋,確保可重復性、靈活性和協作開發。使用注冊機制管理核心組件(數據集和環境),通過類型注冊和配置實例化,實現靈活的組件管理和解耦架構。
數據集層
FinWorld的數據集層包含五個模塊:下載器模塊、處理模塊、數據集模塊、數據加載模塊和環境模塊,旨在實現標準化和可擴展的數據管理。
- 下載器模塊:分為市場數據下載器(支持多種金融市場數據源和時間分辨率)和LLM推理數據集下載器(提供金融推理數據集)。
- 處理模塊:支持數據預處理步驟,如因子計算、特征選擇和歸一化,確保可重復和可定制的數據轉換。
- 數據集模塊:將處理后的數據組織為適合不同金融應用的任務特定格式,支持多種數據模態。
- 數據加載模塊:提供標準化的數據加載器,支持高效的批處理和采樣。
- 環境模塊:為強化學習設計,支持傳統RL代理和LLM代理的交互,促進實驗的統一性和可重復性。
模型層
FinWorld的模型層包含多個模塊,支持多種建模范式的統一定義、管理和調用。
- ML模型模塊:定義經典模型(如線性回歸、決策樹等),提供一致的輸入輸出模式和任務頭。
- DL模型模塊:組織神經網絡架構,包含數據嵌入、編碼器和解碼器,支持多種模型網絡(如Autoformer、VAE)。
- RL模型模塊:定義強化學習網絡結構,支持策略和價值網絡,考慮金融約束(如交易成本、風險限制)。
- LLM模型模塊:集中訪問多種LLM,支持商業和本地模型的無縫切換,提供文檔理解和信息提取功能。
訓練層
FinWorld的訓練層提供模塊化框架,優化金融應用的所有方法管道,確保實驗可重復性和從單GPU到分布式集群的平滑擴展。
- 優化器提供多種一階方法,支持超參數標準化和混合精度更新,適應噪聲和非平穩市場數據。
- 損失函數工廠支持回歸、分類和強化學習目標,允許多任務學習和風險調整回報的聯合優化。
- 調度器提供靜態和自適應策略,支持學習率和正則化系數的時間感知調節。
- 度量標準包括通用準確率和金融特定指標(如ARR、SR、MDD),可觸發早停和超參數搜索。
- 訓練器負責數據加載、前向和反向傳播、梯度裁剪等,支持任務特定邏輯和自定義步驟。
評估層
FinWorld的評估層提供了全面且可擴展的框架,用于評估金融AI模型和策略。動態選擇和應用適當的評估協議和指標,支持既有基準和用戶自定義標準。包含多種金融和預測指標,如ARR、MDD、SR和MSE,可靈活組合或擴展。提供高級可視化工具,如K線圖、累計收益圖、回撤曲線和交易注釋覆蓋,便于直觀解讀模型表現。評估過程簡化了多樣金融任務的模型評估,促進系統比較、快速診斷和迭代改進。集成于訓練者的驗證和測試階段,確保與訓練階段評估的一致性。
任務層
任務層負責金融AI任務類型的定義、抽象和封裝,支持多種金融AI任務。核心任務包括時間序列預測、算法交易、投資組合管理和LLM應用。每個任務具有可配置的輸入/輸出模式和標準化評估協議,支持基準和用戶自定義場景。統一的任務架構促進快速原型開發、跨任務泛化和可重復研究。提供靈活框架以部署LLM代理,支持異步、單代理或多代理配置,滿足多樣化研究和應用需求。
表示層
FinWorld的展示層實現實驗結果的自動傳播和文檔化。通過專用的展示代理,聚合評估輸出,自動生成技術報告和互動網頁。實驗結果、可視化和基準摘要被系統編排并發布到GitHub等協作平臺,確保透明共享和長期可訪問性。與實驗跟蹤工具如Wandb無縫集成,實現研究生命周期中的實時可視化和指標比較。該自動化多渠道展示工作流程增強了可重復性,支持同行評審,提升金融AI研究的可見性和影響力。
實驗評估
數據集
研究涵蓋美國和中國兩個市場,涉及DJ30、SP500、SSE50和HS300四大股票池。數據集時間跨度為1995年5月1日至2025年5月1日,包含超過8億個數據點,支持時間序列預測、算法交易和投資組合管理。收集了中英文的LLM推理數據集,涵蓋多種金融場景,樣本超過80,000個。實驗在2個NVIDIA H100 GPU上進行,結果為三次不同隨機種子的平均值,最佳結果下劃線標記。
時間序列預測
數據集:使用2015-05-01至2025-05-01的DJ30、SP500、SSE50和HS300的日常OHLCV和Alpha158特征,2023-05-01分割訓練和驗證數據。
評估指標:使用MAE、MSE、RankIC和RankICIR評估預測性能,MAE和MSE關注絕對預測準確性,RankIC和RankICIR評估模型在捕捉基于回報的金融關系中的有效性。
方法:評估多種機器學習(ML)和深度學習(DL)時間序列預測模型,包括LightGBM、XGBoost、Autoformer、Crossformer等,選擇標準為捕捉復雜模式和處理高維數據的能力。
實驗結果:在DJ30數據集上,TimeXer模型的MAE為0.0529,MSE為0.0062,顯著優于LightGBM(MAE 0.1392,MSE 0.0235);TimeXer的RankICIR為0.4889,遠高于LightGBM的0.2017。在HS300數據集上,TimeMixer和TimeXer同樣表現優異,顯示深度學習模型在金融時間序列預測中的優勢。

算法交易
數據集:包含AAPL、AMZN、GOOGL、META、MSFT、TSLA六只美股的日OHLCV和Alpha158特征,時間范圍為1995-05-01至2025-05-01,2023-05-01前為訓練和驗證數據。
評估指標:使用ARR、MDD、VOL、CR、SR和SoR六個指標評估交易表現,涵蓋盈利能力和風險。
方法:評估多種策略,包括規則基礎(BUY&HOLD、MACD)、機器學習(LightGBM、XGBoost)、深度學習(Transformer、LSTM、DLinear)和強化學習(PPO、SAC)。
實驗結果:強化學習方法表現最佳,SAC和PPO在大多數股票中實現最高年化收益率和夏普比率;深度學習模型優于機器學習和規則基礎策略。

投資組合管理
數據集設置與時間序列預測任務相同,評估指標包括ARR、SR、MDD、CR、SoR和VOL。
評估方法包括:
- 規則基礎方法:BUY&HOLD;
- ML方法:LightGBM、XGBoost;
- DL方法:Autoformer、Crossformer、ETSformer、DLinear、TimesNet、PatchTST、TimeMixer、TimeXer;
- RL方法:PPO、SAC。
實驗結果顯示,RL方法(尤其是SAC)在所有基準上表現最佳,年化收益率高達31.2%,夏普比率超過1.5。規則基礎和ML方法收益較低(如Buy&Hold在DJ30上為9.4%),DL方法表現介于兩者之間。SAC在收益和風險調整指標上均表現優越,顯示出在投資組合管理中的明顯優勢。

大模型應用
數據集評估:使用FinQA、FinEval、ConvFinQA和CFLUE等金融推理基準,評估LLMs和LLM代理的表現。
交易評估:基于2015-05-01至2025-05-01的6只美國科技股(AAPL、AMZN、GOOGL、META、MSFT、TSLA)的日級OHLCV數據和新聞。
評估指標:金融推理任務使用Score,交易能力使用ARR、SR、MDD、CR、SoR和VOL六個財務指標。
方法:將FinReasoner與DeepSeek-R1、Qwen3-8B、Fin-R1-7B和Qwen2.5-7B-Instruct等開源LLMs進行比較,交易能力評估中還包括GPT-4.1和Claude-4-Sonnet。
實施細節:LLM訓練在16個NVIDIA A100 GPU上進行,推理和實驗在2個NVIDIA H100 GPU上進行,結果來自單次運行。
實驗結果:FinReasoner在所有金融推理基準中表現優異,驗證了領域特定推理的價值;在交易中也表現強勁,證明其有效性。

總結
本文引入FinWorld框架,支持金融AI研究與開發。詳細描述框架的各個層面:數據、模型、訓練、評估和任務。實證評估四個金融AI任務:時間序列預測、算法交易、投資組合管理和大語言模型應用。結果表明FinWorld有效支持金融AI研究與開發。未來將繼續優化框架,提升用戶體驗。
本文轉載自??靈度智能??,作者:靈度智能

















