靜態知識≠動態交易:STOCKBENCH揭示LLM智能體在真實金融市場的表現真相

大家好,我是肆〇柒。今天我們來看一項來自清華大學和北京郵電大學聯合研究團隊的工作——STOCKBENCH。這項研究首次在無數據污染的真實市場環境中(2025年3-6月)系統測試了LLM智能體的股票交易能力,揭示了一個關鍵發現:靜態金融知識測試表現優異的模型(如GPT-5在金融QA基準上得分高),其真實交易能力可能僅比被動投資策略略好0.3%回報率。這一發現對金融AI應用具有重要啟示。
假設將10萬元交給AI智能體進行股票投資,一年后它能跑贏市場嗎?對算法工程師而言,這關乎模型能力邊界;對投資決策者來說,這直接關系到真金白銀的收益。隨著大語言模型(LLM)展現出日益強大的自主代理能力,這一問題變得愈發現實。STOCKBENCH的出現填補了關鍵空白——通過在真實市場環境中測試LLM智能體的交易表現,揭示了一個驚人事實:在金融QA基準上表現優異的模型,如GPT-5,其真實交易能力可能僅比被動投資策略略好。這一發現不僅挑戰了行業對LLM金融能力的普遍認知,更為金融AI應用提供了科學評估基礎,對行業實踐具有直接指導意義。
為什么我們需要全新的金融評估基準?
現有金融評估基準存在一個致命缺陷:它們測試的不是預測能力,而是記憶能力。FinQA、ConvFinQA等基準主要通過問答形式測試LLM的金融知識覆蓋范圍,但無法捕捉投資決策的迭代本質。更嚴重的是,這些基準大多使用2021年前的歷史數據,存在嚴重數據污染風險——研究顯示,當測試GPT-5時(不使用搜索功能),模型能準確預測2021年AAPL股票走勢,且模型響應與事實一致。這一現象揭示了數據污染的核心問題:若評估時間較早,模型可能獲取了評估時本不應合理獲得的未來信息,導致評估結果失真。
金融領域特別容易受數據污染影響,因為金融數據具有時間序列特性,歷史數據與未來表現高度相關。當模型在訓練過程中已學習到相關歷史信息,其表現反映的不是預測能力,而是記憶能力。例如,若模型在訓練時接觸過2021年AAPL股票數據,那么在評估中"預測"該股票走勢時,實際只是在"回憶"已學習的模式,而非進行真實預測。

現有金融基準對比
如上表現有金融基準對比所示,STOCKBENCH是唯一在"Market Simulation"、"Multi Month Horizon"、"Continuous Decision"、"Contamination Free"和"Direct Economic Value"五個關鍵維度全部滿足的基準。現有9個金融基準中僅有2個包含市場模擬(INVESTORBENCH和FinSearchComp),且無一同時滿足多月時間跨度和無污染數據要求。例如,INVESTORBENCH雖具備市場模擬和連續決策能力,但其評估窗口截止至2021年,無法避免數據污染問題;而FLUE、FinQA等主流基準則完全缺失市場模擬和連續決策要素,僅測試靜態知識。
針對這些局限,STOCKBENCH基于三大核心原則設計,確保評估的真實性和可靠性。首先,真實市場互動原則要求智能體在動態市場環境中運作,接收實時價格變動和新聞事件。其次,連續決策原則要求智能體在多月時間跨度內做出序列化買賣決策,反映投資策略的迭代本質。最重要的是無污染數據原則,STOCKBENCH使用2025年3月至6月的最新市場數據,確保與主流LLM訓練數據無重疊。通過聚焦近期時間窗口,STOCKBENCH模擬了真實場景中智能體只能基于當時公開信息做決策的約束,避免了類似"當測試GPT-5時,模型能準確預測2021年AAPL股票走勢"的數據污染問題,確保評估結果真實反映模型的預測能力而非記憶能力。
靜態知識與動態決策的斷層
STOCKBENCH的核心發現是靜態金融知識與動態交易能力之間存在顯著斷層。盡管LLM在金融問答基準上表現優異,但這種能力并不必然轉化為有效的交易策略。這一斷層在GPT-5的表現中尤為明顯——盡管在金融QA基準上表現優異,但在STOCKBENCH中僅獲得0.3%回報率,最大回撤-13.1%,Sortino比率0.0132,表現僅優于被動基線。
這一斷層為何如此重要?因為金融交易不僅需要理解"市盈率是什么",還需要知道"當市盈率突然變化時該怎么做"。真實交易環境的復雜性在于:市場動態性導致信息價值隨時間迅速衰減,噪聲干擾使信號識別變得困難,而決策鏈的復雜性要求模型不僅理解知識,還需將其轉化為適應動態環境的行動序列。這一發現挑戰了"金融知識測試表現好即能做好交易"的常見假設,表明評估LLM金融能力必須超越靜態知識測試,直接考察其在動態決策中的表現。
對算法工程師而言,這一斷層揭示了當前LLM在將知識轉化為行動方面的局限性;對投資決策者來說,這意味著不能僅憑模型在金融QA測試中的表現就信任其交易能力。正如素材中所揭示的,一個能通過CFA三級考試的AI,在真實市場中可能表現得像新手投資者一樣手足無措。
STOCKBENCH的設計與實現
STOCKBENCH的回測環境精心構建以模擬真實股票交易場景。投資目標方面,研究者從道瓊斯工業平均指數(DJIA)中選取權重最高的20只股票作為投資目標,確保覆蓋科技、金融、制造等多元行業,避免因股票選擇導致的結果波動。這些高權重DJIA股票代表全球股票市場,較少受短期非理性情緒驅動,同時信息透明度高,便于數據收集。

STOCKBENCH框架概覽
如上圖-STOCKBENCH框架概覽所示,該基準包含回測基準數據集和將LLM轉換為智能體的相關工作流程。交易智能體工作流程設計為四個關鍵階段:首先進行投資組合概覽,接收每只股票的相關數據,包括近期新聞、當前持倉、歷史操作和開盤價;隨后選擇特定股票進行深入分析,獲取市場資本化、市盈率和股息率等額外基本面數據;基于豐富上下文,為每只股票生成"增加"、"減少"或"持有"三種可能的操作決策;最后,系統將決策轉化為基于開盤價的股份數量,驗證決策是否在可用流動性范圍內可執行,確保模擬符合零售投資者決策過程的約束。
市場數據方面,STOCKBENCH收集并保存包含關鍵定量信息的歷史市場數據,為每只股票提供官方開盤價以及市值、市盈率(PE ratio)、股息率(dividend yield)和交易區間等基本面指標。這些信號為交易智能體提供公司健康狀況和估值的可靠快照,支持知情決策。此外,STOCKBENCH構建新聞語料庫,為股票提供市場敘事解讀。每天收集過去48小時內發布的相關新聞文章,通過新聞搜索API獲取并保留最相關的前5篇文章,平衡信息覆蓋與計算成本。這一設計確保智能體獲取及時、相關的市場信息,同時避免信息過載。
特別值得注意的是,執行驗證階段包含嚴格的流動性檢查機制。如果智能體的決策超出可用流動性,系統會標記問題并要求智能體重新調整決策,直到可在可用資源范圍內執行。這一設計確保了交易模擬的真實性,避免了不切實際的交易行為。"增加"、"減少"或"持有"三種操作決策比簡單的"買入"、"賣出"更符合實際投資場景,因為它考慮了資金分配約束和投資組合再平衡需求,模擬了真實投資者在有限資金下的決策過程。
實驗設計與評估指標
STOCKBENCH的實驗設置嚴格遵循科學評估原則。評估周期設定為2025年3月3日至6月30日的四個月期間,共82個交易日,涵蓋市場波動和趨勢反轉,同時確保數據與主流LLM知識截止日期之后,避免數據泄露。每個模型從10萬美元現金和零持倉開始,每日開盤時做出交易決策。關鍵輸入包括:過去七天持有的股票歷史操作、過去48小時內最多五篇新聞文章,以及選定股票的基本面數據。
評估模型涵蓋廣泛的LLM類型,包括OpenAI的GPT-5、Anthropic的Claude-4等專有模型,以及Qwen3、Kimi-K2、GLM-4.5等開源模型。為確保結果可靠性,每個LLM智能體使用不同隨機種子運行三次,報告平均性能。被動基線采用等權重買入持有策略,將初始資金平均分配到所有選定股票并在評估期結束前保持持倉不變,提供穩健的性能下限。
評估指標采用金融分析中廣泛使用的三項核心指標。最終回報率衡量整體盈利能力,計算為投資組合價值從初始金額到最終金額的百分比變化。最大回撤量化投資組合價值從峰值到谷值的最大跌幅,提供下行風險測量。Sortino比率作為風險調整回報指標,僅懲罰下行波動,定義為超額回報除以下行偏差。這一指標在回報分布不對稱時比Sharpe比率更合適,因為金融交易中的回報分布通常呈現非對稱性——投資者對損失的敏感度遠高于對收益的敏感度,而傳統Sharpe比率同等對待上行和下行波動,無法準確反映風險厭惡型投資者的實際體驗。

模型性能評估結果
如模型性能評估結果所示,綜合排名公式為:。這一設計確保評估既考慮盈利能力,也關注風險控制能力,更全面地反映交易策略的優劣。特別值得注意的是,Sortino比率在金融決策中尤為重要,因為它聚焦于負面波動,直接反映了投資者最關心的下行風險,而這一特性在評估高風險金融交易策略時尤為關鍵。
關鍵實驗結果

模型性能評估結果
如上表-模型性能評估結果所示,實驗結果顯示,多數LLM智能體僅能小幅超越被動基線,但確實展現出有限的盈利能力。被動基線實現0.4%的回報率,最大回撤-15.2%,Sortino比率為0.0155。相比之下,Kimi-K2實現1.9%回報率,Qwen3-235B-Ins達到2.4%,GLM-4.5獲得2.3%,均小幅超越基線。表現較差的模型包括GPT-OSS-20B(-2.8%)和GPT-OSS-120B(-0.9%)。
對投資者而言,這些數字背后隱藏著重要的價值信息:以10萬美元投資為例,Kimi-K2比被動基線多產生約1500美元回報,同時將最大回撤從-15.2%改善至-11.8%,意味著在市場下跌期間可能少損失3400美元。雖然絕對值看似不大,但在金融領域,這種"雙優"表現——既提高收益又降低風險——正是專業投資者夢寐以求的。
靜態金融知識與動態交易能力之間存在明顯斷層:盡管LLM在金融問答基準上表現優異,但這種能力并不必然轉化為有效的交易策略。這一斷層在GPT-5的表現中尤為明顯——盡管在金融QA基準上表現優異,但在STOCKBENCH中僅獲得0.3%回報率,最大回撤-13.1%,Sortino比率0.0132,表現僅優于被動基線。這與素材中"靜態金融知識測試表現好不等于動態決策能力強"的核心發現高度一致,挑戰了"金融知識測試表現好即能做好交易"的常見假設。
LLM智能體能夠實現盈利,但優勢有限,最佳回報率僅2.5%,表明當前技術在創造超額收益方面仍有局限。大多數測試模型的表現僅略優于被動買入持有基線,這一結果說明LLM智能體在金融交易中雖有潛力,但尚未達到革命性突破。
值得注意的是,所有測試模型的最大回撤均低于被動基線,最佳表現者Kimi-K2將最大回撤控制在-11.8%,相比基線的-15.2%明顯改善,表明智能體能夠有效緩解市場下跌期間的損失。對風險厭惡型投資者而言,這種風險控制能力可能比單純的回報率提升更為重要。
影響LLM交易表現的關鍵因素
投資目標規模對LLM智能體表現有顯著影響。當投資組合規模從5只股票擴大到30只時,所有模型表現均出現下降,表現為平均回報率降低和回報波動性增加。Kimi-K2在中等規模投資組合(10-20只股票)中保持相對穩定的回報風險特征,而GPT-OSS-120B則遭受嚴重性能下降和過度波動,表明模型規模與多資產決策環境中的泛化能力和穩定性正相關。

不同投資組合規模下的模型表現
如上表-不同投資組合規模下的模型表現所示,Kimi-K2在10只股票規模時達到最佳表現(3.2%回報率),但隨著規模擴大到30只,回報率降至-0.5%。相比之下,GPT-OSS-120B在10只股票規模時表現良好(2.5%回報率),但在20只以上規模時急劇惡化,回報率變為負值。當投資組合規模從10只擴大到20只時,GPT-OSS-120B的回報標準差從0.4%激增至3.9%,變異系數達到驚人的10.2,表明其決策極度不穩定。這一發現對實際投資具有重要啟示:中等規模投資組合(10-20只)可能是最優選擇,它在分散風險與管理復雜度之間取得了平衡。過度分散投資組合(30只以上)可能導致模型性能顯著下降,因為LLM處理過多股票信息時會面臨上下文限制和決策復雜性挑戰。

思考模型與指令模型錯誤分布
如上圖-思考模型與指令模型錯誤分布所示,錯誤類型分析揭示了思考模型(Think)與指令模型(Instruct)的差異。算術錯誤是指智能體在基于預算和股價計算買賣股份數量時出錯;模式錯誤則是指智能體未能遵循指定的JSON輸出格式,導致解析失敗。Qwen3-235B-THK在算術錯誤率為5.6%,顯著低于Qwen3-235B-INS的8%;但在模式錯誤方面,Qwen3-235B-THK達到14.5%,遠高于Qwen3-235B-INS的6.4%。這一現象與素材中指出的"思考模型傾向于過度思考并產生更復雜的輸出,導致偏離預期格式"完全一致。思考模型在算術錯誤方面表現更好,這與其在數學推理任務中的出色表現一致。然而,在模式錯誤方面,思考模型錯誤率更高,說明其在遵循嚴格格式要求方面存在挑戰。
從金融交易角度看,模式錯誤比算術錯誤更為危險:算術錯誤可能導致交易數量不精確,但系統仍可能部分執行交易;而模式錯誤會導致整個交易指令無法被系統解析,完全無法執行交易。在真實投資環境中,這種完全無法執行的情況可能導致錯過關鍵交易窗口,造成更大損失。因此,盡管思考模型在數學計算方面更準確,但在需要嚴格遵循格式的金融交易場景中,指令模型可能更具優勢。

模型回報方差分析
如上表-模型回報方差分析所示,模型決策穩定性分析顯示,不同模型在交易決策中表現出顯著差異。DeepSeek-V3的方差僅為0.074×10??,是GPT-OSS-120B(10.19×10??)的1/137,這一巨大差異凸顯了模型穩定性對金融決策的關鍵影響。DeepSeek-V3展現出最小的性能波動,是所有測試模型中最穩定的;而GPT-OSS-120B的方差高達10.19×10??,是DeepSeek-V3的137倍,表明其決策高度不可預測。
以10萬美元初始投資為例,GPT-OSS-120B可能導致單日價值波動高達±3900美元,而DeepSeek-V3的波動僅約±270美元。在金融決策等高風險環境中,這種穩定性差異尤為重要——回報率波動過大的模型可能導致投資者難以建立信任,即使其平均回報率較高。金融機構通常更關注穩定性而非絕對回報率,因為劇烈波動可能觸發風險控制機制,導致強制平倉等不利后果。因此,對風險厭惡型投資者而言,選擇穩定性高的模型可能比追求高回報更為重要。

數據源消融實驗結果
如上表-數據源消融實驗結果所示,數據源重要性測試表明,新聞和基本面數據對交易決策至關重要。移除新聞后,Kimi-K2的累積回報率從1.9%降至1.4%;進一步移除基本面數據后,回報率進一步降至0.6%。GPT-OSS-120B對數據源移除更為敏感,移除新聞后表現無變化(-1.2%),但移除所有非價格數據后急劇惡化至-3.4%,表明其更依賴顯式信號。這一發現證實,LLM智能體能夠有效整合異構輸入,將新聞中的文本信息與基本面中的數值指標結合,形成更全面的市場認知。
從實際投資角度看,0.5%的回報率差異看似微小,但對10萬美元投資在4個月內意味著約500美元的差異。更值得注意的是,Kimi-K2對新聞的敏感性表明其可能更擅長處理文本信息,而GPT-OSS-120B對基本面數據的依賴則反映其在數值分析方面的優勢。這一發現提示投資者可以根據模型特性優化數據輸入:對擅長處理文本的模型提供更多新聞分析,對擅長數值計算的模型則強化基本面數據支持。

不同市場周期模型排名變化
如上圖-不同市場周期模型排名變化所示,市場條件適應性分析顯示,模型在不同市場環境中的表現差異顯著。在下跌市場(2025年1-4月),所有LLM智能體均未能跑贏被動基線;而在上漲市場(2025年5-8月),多數LLM智能體表現優于基線。這與素材中"在下跌市場期間,所有LLM智能體均未能跑贏被動基線,而在上漲市場期間,大多數LLM智能體表現優于基線"的發現完全吻合。例如,GPT-OSS-120B在下跌市場排名墊底,但在上漲市場躍居首位,表明其更適合牛市條件。Kimi-K2則在兩種市場條件下保持相對穩定的排名,顯示其對市場波動的適應性。
這一發現揭示LLM在熊市中的決策能力存在明顯短板,可能是因為市場恐慌情緒難以量化,趨勢反轉信號識別困難。對投資者而言,這意味著不應在所有市場條件下完全依賴LLM智能體,而應考慮構建混合策略:在牛市使用LLM智能體進行主動管理,在熊市則切換為被動策略或人工干預。同時,投資者應開發識別市場狀態的機制,以便及時調整策略,避免在LLM表現不佳的市場環境中過度依賴自動化決策。
結論與啟示
STOCKBENCH研究表明,LLM智能體在真實股票交易中展現出有限但真實的潛力,尤其在風險管理方面表現突出。然而,"靜態金融知識測試表現好不等于動態決策能力強"這一核心發現尤為重要,挑戰了行業對LLM金融能力的普遍認知。盡管LLM在FinQA等金融問答基準上表現優異,但在STOCKBENCH中,GPT-5僅獲得0.3%回報率,最大回撤-13.1%,Sortino比率0.0132,表現僅優于被動基線。這一發現表明,真實交易需要將知識轉化為適應動態市場環境的決策能力,而這正是當前LLM智能體的短板。
對研究者的啟示在于,必須開發能真實評估動態決策能力的基準,而非僅測試靜態知識。現有金融QA基準雖有用,但無法反映真實交易環境的復雜性和迭代本質。現有基準主要測試靜態知識,但無法捕捉投資決策的迭代本質。未來研究應聚焦于構建更復雜的市場場景,包括極端市場條件、多資產類別和更長的評估周期。
對開發者而言:針對金融場景優化模型架構,特別是增強對非結構化文本的理解能力;在推理過程中加入嚴格的格式驗證機制,減少模式錯誤;開發適應不同市場條件的模型切換機制,提高整體穩定性。特別值得注意的是,模型規模與多資產決策能力呈正相關,但穩定性可能比絕對規模更重要。
對投資者而言:將LLM智能體作為輔助工具而非完全依賴,特別是在市場下跌時;選擇中等規模投資組合(10-20只股票),避免過度分散;優先考慮穩定性高的模型,而非僅關注平均回報率;根據模型特性定制數據輸入,發揮其優勢。投資者應認識到,當前LLM智能體在熊市中的表現存在明顯短板,需要人工監督和干預。
STOCKBENCH將持續更新以避免與當代LLM訓練語料重疊,推動金融LLM智能體向更穩健、適應性更強的方向發展。這一基準為開發真正能創造經濟價值的金融AI提供了科學評估基礎,標志著LLM智能體在真實金融場景應用評估的重要進步。


























