STOCKBENCH: 大模型現實環境股票交易盈利及風險評估
大型語言模型(LLMs)在推理、工具使用和決策方面表現出色,但金融領域的研究仍然不足。現有金融基準主要測試靜態知識,未能反映交易的動態和迭代特性。
本文提出STOCKBENCH基準,旨在評估LLM在真實股票交易環境中的盈利能力和風險管理能力。評估結果顯示,大多數LLM智能體未能超越簡單的買入持有基準,表明靜態問答能力與動態市場交易策略之間存在差距。

摘要
大型語言模型(LLMs)在推理、工具使用和決策方面表現出色,但金融領域的研究仍然不足。現有金融基準主要測試靜態知識,未能反映交易的動態和迭代特性。
STOCKBENCH用于評估LLM在多月股票交易環境中的表現。智能體每天接收市場信號(價格、基本面、新聞),并需做出買、賣或持有的決策。評估指標包括累計回報、最大回撤和Sortino比率。
評估結果顯示,大多數LLM智能體未能超越簡單的買入持有策略,但部分模型在回報和風險管理上表現出潛力。研究表明,靜態金融知識的優秀表現不一定能轉化為成功的交易策略。STOCKBENCH作為開源資源發布,以支持可重復性和未來研究。
簡介
大型語言模型(LLMs)推動了自主智能體的發展,展現出在推理、工具使用和長期決策中的強大能力。現有金融智能體基準主要集中在靜態問答任務,未能反映實際交易場景。
本文提出STOCKBENCH基準,旨在評估LLM在真實股票交易環境中的盈利能力和風險管理能力。STOCKBENCH特點:真實市場互動、連續決策、數據無污染。評估結果顯示,大多數LLM智能體未能超越簡單的買入持有基準,表明靜態問答能力與動態市場交易策略之間存在差距。

STOCKBENCH
STOCKBENCH由兩個主要構建塊組成:
- 回測環境,包含歷史數據用于股票交易決策,模擬真實股票交易。
- 股票交易智能體工作流,評估LLM骨干作為智能體在回測環境中的表現。

環境
交易環境設計:模擬真實股票交易,交易智能體僅接觸決策時可用數據。
投資目標:選擇20只道瓊斯工業平均指數中權重最高的股票,確保評估結果穩定,避免短期情緒驅動的波動。

歷史市場數據:收集股票的開盤價及基本面指標(市值、P/E比率、股息收益率等),防止未來信息泄露。
新聞語料庫:每日收集過去48小時內的相關股票新聞,保留五篇最相關的文章,模擬零售投資者的反應。
數據收集時間窗口:評估窗口為2025年3月3日至6月30日,確保不與訓練數據重疊,涵蓋波動和趨勢反轉。
股票交易智能體工作流程
本文提供一個股票交易智能體工作流程,使大型語言模型(LLM)能與回測環境互動。設計目標:1) 簡化工作流程,避免引入偏見;2) 真實反映零售投資者的決策過程。
工作流程分為四個階段:
- 投資組合概覽:智能體掃描市場所有股票,獲取相關數據(新聞、持倉、歷史操作、開盤價)。
- 深入股票分析:選擇特定股票進行詳細分析,獲取基本面數據(市值、市盈率、股息收益率)。
- 決策生成:基于分析結果,生成對每只股票的決策(增加、減少或持有)。
- 執行與驗證:將決策轉化為股數,檢查流動性,確保決策可執行,鎖定新組合權重,進入下一天。
STOCKBENCH的特點
真實市場互動:通過精選投資目標、可靠的價格和基本數據、及時的新聞語料,模擬真實交易環境,避免不切實際的輸入。
持續決策:智能體進行投資組合概覽、深入股票分析,并基于分析生成每日交易決策,反映零售投資者的決策過程。
數據無污染:確保智能體在訓練期間未接觸測試數據,通過使用近期市場數據實現時間上的分離,避免與現代大語言模型的訓練數據重疊。
主要實驗
實驗設置
實驗設置:評估LLM智能體在STOCK BENCH交易工作流中的表現,包括交易環境、基準模型、被動基線和評估指標。
交易環境:選擇20只道瓊斯工業平均指數(DJIA)股票,評估期為2025年3月3日至6月30日,共82個交易日。模型以$100,000現金和零持倉開始,每日開盤交易,輸入包括過去7天的歷史操作、48小時內的新聞和基本面數據。
評估模型:基準包括多種LLM模型(如Qwen3、DeepSeek、Kimi-K2等)和閉源API(如OpenAI的O3、Anthropic的Claude-4-Sonnet),所有模型使用32,768個token上下文窗口,運行三次以確保結果可靠。
被動基線:實施等權重買入持有策略,初始資本均勻分配于所有股票,作為比較的基準。
評估指標:
- 最終回報:投資組合價值的百分比變化,反映整體盈利能力。
- 最大回撤:投資組合價值從峰值到谷底的最大下降,衡量下行風險。
- Sortino比率:風險調整回報指標,僅懲罰下行波動,適用于非對稱收益。
綜合排名:通過計算每個指標的z-score并平均,得出單一性能評分,平衡盈利能力與風險管理。
結果
LLM智能體在真實市場中能夠盈利,大多數模型超越了被動買入持有基準(0.4%回報,-15.2%最大回撤,Sortino比率0.0155),部分智能體回報超過2%,風險更低。
LLM智能體有效管理下行風險,所有模型的最大回撤均低于基準,最佳智能體的回撤在-11%至-14%之間。

理性模型不一定表現更佳,盡管Qwen3-235B-Think等模型在復雜推理任務中表現強勁,但在交易任務中,指令調優模型如Qwen3-235B-Ins表現更好,最大回撤更低(-11.2%對比-14.9%),顯示出推理能力與動態決策之間的差距。
分析
投資目標規模的影響
投資目標規模對智能體性能的影響顯著,隨著目標規模(5、10、20、30個DJIA成分股)的擴大,投資組合的權重差異增加,表現出更高的波動性。

可擴展性挑戰:所有模型在投資組合規模增加時表現下降,平均收益降低,收益波動性上升,表明多資產決策的復雜性。
模型規模的穩健性:較大規模模型Kimi-K2在中等投資組合規模(10-20只股票)下保持相對穩定的風險收益特征,正收益;而較小模型GPT-OSS-120B則表現出嚴重的性能下降和過度波動,說明模型容量的增加有助于提升多資產決策的泛化能力和穩定性。
錯誤對交易流程的影響
交易過程中常見的錯誤有:算術錯誤(計算買賣股數時出錯)和格式錯誤(未遵循JSON格式導致解析失敗)。

思維模型的算術錯誤發生率低于指令模型,符合其在數學推理任務中的優異表現。
思維模型的格式錯誤發生率高于指令模型,可能因其輸出過于復雜,導致偏離預期格式。
數據來源消融研究
LLM智能體依賴新聞文章和基本財務數據兩種信息源,前者反映市場情緒,后者提供關鍵財務指標。進行消融研究,逐步去除輸入,發現累計回報隨著信息源的減少而下降。Kimi-K2模型在去除新聞后仍較為穩健,但缺失兩者時表現顯著下降。GPT-OSS-120B對新聞和基本面信號依賴更強,表現下降更明顯。研究表明,LLM交易智能體能夠有效整合文本和數值信息,提升交易策略的有效性。

評價窗口的影響
研究不同市場條件下模型表現,使用2025年1月至4月的下行期和5月至8月的上行期進行實驗。模型包括Kimi-K2、DeepSeek系列、GPT-OSS系列和被動基準。

模型排名在下行期和上行期顯著變化,GPT-OSS120B在下行期排名靠后,上行期排名靠前,表明其適合牛市。Kimi-K2在兩個時期保持相對穩定的排名,顯示出對市場波動的魯棒性。在下行期,所有LLM智能體未能超越被動基準,而在上行期,大多數LLM智能體表現優于基準,表明LLM智能體在熊市中表現不佳,需改進。
總結
STOCKBENCH是一個新穎的基準,用于評估LLM智能體在真實股票交易場景中的表現。該基準模擬動態市場環境,要求在多個月的時間內進行持續決策,評估盈利能力和風險管理能力。實驗表明,當前LLM智能體能夠盈利,但難以持續超越簡單基線,顯示出該領域的挑戰。STOCKBENCH將為研究社區提供重要資源,推動智能金融智能體的發展。未來工作將增強基準,增加市場場景,并探索新智能體架構以提升交易表現。
本文轉載自??靈度智能??

















