STOCKBENCH: 大模型現實環境股票交易盈利及風險評估

靈度智能

發布于 2025-10-13 07:10

瀏覽

0收藏

大型語言模型（LLMs）在推理、工具使用和決策方面表現出色，但金融領域的研究仍然不足。現有金融基準主要測試靜態知識，未能反映交易的動態和迭代特性。

本文提出STOCKBENCH基準，旨在評估LLM在真實股票交易環境中的盈利能力和風險管理能力。評估結果顯示，大多數LLM智能體未能超越簡單的買入持有基準，表明靜態問答能力與動態市場交易策略之間存在差距。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

摘要

STOCKBENCH用于評估LLM在多月股票交易環境中的表現。智能體每天接收市場信號（價格、基本面、新聞），并需做出買、賣或持有的決策。評估指標包括累計回報、最大回撤和Sortino比率。

評估結果顯示，大多數LLM智能體未能超越簡單的買入持有策略，但部分模型在回報和風險管理上表現出潛力。研究表明，靜態金融知識的優秀表現不一定能轉化為成功的交易策略。STOCKBENCH作為開源資源發布，以支持可重復性和未來研究。

簡介

大型語言模型（LLMs）推動了自主智能體的發展，展現出在推理、工具使用和長期決策中的強大能力。現有金融智能體基準主要集中在靜態問答任務，未能反映實際交易場景。

本文提出STOCKBENCH基準，旨在評估LLM在真實股票交易環境中的盈利能力和風險管理能力。STOCKBENCH特點：真實市場互動、連續決策、數據無污染。評估結果顯示，大多數LLM智能體未能超越簡單的買入持有基準，表明靜態問答能力與動態市場交易策略之間存在差距。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

STOCKBENCH

STOCKBENCH由兩個主要構建塊組成：

回測環境，包含歷史數據用于股票交易決策，模擬真實股票交易。
股票交易智能體工作流，評估LLM骨干作為智能體在回測環境中的表現。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

環境

交易環境設計：模擬真實股票交易，交易智能體僅接觸決策時可用數據。

投資目標：選擇20只道瓊斯工業平均指數中權重最高的股票，確保評估結果穩定，避免短期情緒驅動的波動。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

歷史市場數據：收集股票的開盤價及基本面指標（市值、P/E比率、股息收益率等），防止未來信息泄露。

新聞語料庫：每日收集過去48小時內的相關股票新聞，保留五篇最相關的文章，模擬零售投資者的反應。

數據收集時間窗口：評估窗口為2025年3月3日至6月30日，確保不與訓練數據重疊，涵蓋波動和趨勢反轉。

股票交易智能體工作流程

本文提供一個股票交易智能體工作流程，使大型語言模型（LLM）能與回測環境互動。設計目標：1) 簡化工作流程，避免引入偏見；2) 真實反映零售投資者的決策過程。

工作流程分為四個階段：

投資組合概覽：智能體掃描市場所有股票，獲取相關數據（新聞、持倉、歷史操作、開盤價）。
深入股票分析：選擇特定股票進行詳細分析，獲取基本面數據（市值、市盈率、股息收益率）。
決策生成：基于分析結果，生成對每只股票的決策（增加、減少或持有）。
執行與驗證：將決策轉化為股數，檢查流動性，確保決策可執行，鎖定新組合權重，進入下一天。

STOCKBENCH的特點

真實市場互動：通過精選投資目標、可靠的價格和基本數據、及時的新聞語料，模擬真實交易環境，避免不切實際的輸入。

持續決策：智能體進行投資組合概覽、深入股票分析，并基于分析生成每日交易決策，反映零售投資者的決策過程。

數據無污染：確保智能體在訓練期間未接觸測試數據，通過使用近期市場數據實現時間上的分離，避免與現代大語言模型的訓練數據重疊。

主要實驗

實驗設置

實驗設置：評估LLM智能體在STOCK BENCH交易工作流中的表現，包括交易環境、基準模型、被動基線和評估指標。

交易環境：選擇20只道瓊斯工業平均指數（DJIA）股票，評估期為2025年3月3日至6月30日，共82個交易日。模型以$100,000現金和零持倉開始，每日開盤交易，輸入包括過去7天的歷史操作、48小時內的新聞和基本面數據。

評估模型：基準包括多種LLM模型（如Qwen3、DeepSeek、Kimi-K2等）和閉源API（如OpenAI的O3、Anthropic的Claude-4-Sonnet），所有模型使用32,768個token上下文窗口，運行三次以確保結果可靠。

被動基線：實施等權重買入持有策略，初始資本均勻分配于所有股票，作為比較的基準。

評估指標：

最終回報：投資組合價值的百分比變化，反映整體盈利能力。
最大回撤：投資組合價值從峰值到谷底的最大下降，衡量下行風險。
Sortino比率：風險調整回報指標，僅懲罰下行波動，適用于非對稱收益。

綜合排名：通過計算每個指標的z-score并平均，得出單一性能評分，平衡盈利能力與風險管理。

結果

LLM智能體在真實市場中能夠盈利，大多數模型超越了被動買入持有基準（0.4%回報，-15.2%最大回撤，Sortino比率0.0155），部分智能體回報超過2%，風險更低。

LLM智能體有效管理下行風險，所有模型的最大回撤均低于基準，最佳智能體的回撤在-11%至-14%之間。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

理性模型不一定表現更佳，盡管Qwen3-235B-Think等模型在復雜推理任務中表現強勁，但在交易任務中，指令調優模型如Qwen3-235B-Ins表現更好，最大回撤更低（-11.2%對比-14.9%），顯示出推理能力與動態決策之間的差距。

分析

投資目標規模的影響

投資目標規模對智能體性能的影響顯著，隨著目標規模（5、10、20、30個DJIA成分股）的擴大，投資組合的權重差異增加，表現出更高的波動性。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

可擴展性挑戰：所有模型在投資組合規模增加時表現下降，平均收益降低，收益波動性上升，表明多資產決策的復雜性。

模型規模的穩健性：較大規模模型Kimi-K2在中等投資組合規模（10-20只股票）下保持相對穩定的風險收益特征，正收益；而較小模型GPT-OSS-120B則表現出嚴重的性能下降和過度波動，說明模型容量的增加有助于提升多資產決策的泛化能力和穩定性。

錯誤對交易流程的影響

交易過程中常見的錯誤有：算術錯誤（計算買賣股數時出錯）和格式錯誤（未遵循JSON格式導致解析失敗）。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

思維模型的算術錯誤發生率低于指令模型，符合其在數學推理任務中的優異表現。

思維模型的格式錯誤發生率高于指令模型，可能因其輸出過于復雜，導致偏離預期格式。

數據來源消融研究

LLM智能體依賴新聞文章和基本財務數據兩種信息源，前者反映市場情緒，后者提供關鍵財務指標。進行消融研究，逐步去除輸入，發現累計回報隨著信息源的減少而下降。Kimi-K2模型在去除新聞后仍較為穩健，但缺失兩者時表現顯著下降。GPT-OSS-120B對新聞和基本面信號依賴更強，表現下降更明顯。研究表明，LLM交易智能體能夠有效整合文本和數值信息，提升交易策略的有效性。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

評價窗口的影響

研究不同市場條件下模型表現，使用2025年1月至4月的下行期和5月至8月的上行期進行實驗。模型包括Kimi-K2、DeepSeek系列、GPT-OSS系列和被動基準。

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估-AI.x社區

模型排名在下行期和上行期顯著變化，GPT-OSS120B在下行期排名靠后，上行期排名靠前，表明其適合牛市。Kimi-K2在兩個時期保持相對穩定的排名，顯示出對市場波動的魯棒性。在下行期，所有LLM智能體未能超越被動基準，而在上行期，大多數LLM智能體表現優于基準，表明LLM智能體在熊市中表現不佳，需改進。

總結

STOCKBENCH是一個新穎的基準，用于評估LLM智能體在真實股票交易場景中的表現。該基準模擬動態市場環境，要求在多個月的時間內進行持續決策，評估盈利能力和風險管理能力。實驗表明，當前LLM智能體能夠盈利，但難以持續超越簡單基線，顯示出該領域的挑戰。STOCKBENCH將為研究社區提供重要資源，推動智能金融智能體的發展。未來工作將增強基準，增加市場場景，并探索新智能體架構以提升交易表現。

本文轉載自??靈度智能??

標簽

大模型

LLM

智能體

已于2025-10-13 07:10:39修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

STOCKBENCH: 大模型現實環境股票交易盈利及風險評估

摘要

簡介

STOCKBENCH

環境

股票交易智能體工作流程

STOCKBENCH的特點

主要實驗

實驗設置

結果

分析

投資目標規模的影響

錯誤對交易流程的影響

數據來源消融研究

評價窗口的影響

總結

目錄