基于深度強化學習的跨式期權自動交易系統,平均收益率提高92.5%
高波動市場吸引了全球投資者,涉及超過40萬億美元的市值,交易者可利用跨式期權應對市場波動。深度強化學習在量化交易中取得成功,但高波動市場的特性限制了價格預測的準確性,可能導致極端損失。
本文提出基于強化學習和注意力機制的自動化跨式期權交易方法,適應高波動市場的不確定性。在中國股市、布倫特原油和比特幣市場的實驗中,注意力機制的Transformer-DDQN模型在最大回撤方面表現最佳,平均收益率超出其他模型92.5%。

摘要
跨式期權是一種金融交易工具,利用高波動市場中的波動溢價,不預測價格方向。深度強化學習在金融市場的交易自動化中表現強大,但現有研究多集中于價格趨勢預測,導致高計算成本和不穩定性。
本文提出基于強化學習和注意力機制的自動化跨式期權交易方法,適應高波動市場的不確定性。采用Transformer-DDQN中的自注意力和通道注意力機制處理時間序列數據和多周期信息。設計了考慮超額收益的新獎勵函數,關注長期利潤,忽略短期損失。識別阻力位以提供價格波動不確定時的參考信息。
在中國股市、布倫特原油和比特幣市場的實驗中,注意力機制的Transformer-DDQN模型在最大回撤方面表現最佳,平均收益率超出其他模型92.5%。
簡介
高波動市場吸引了全球投資者,涉及超過40萬億美元的市值,交易者可利用跨式期權應對市場波動。深度強化學習在量化交易中取得成功,但高波動市場的特性限制了價格預測的準確性,可能導致極端損失。跨式期權可通過交易波動性來降低因價格預測不準確而造成的潛在損失,已有研究證明其在高波動市場中的優越表現。
本文提出在算法交易中引入跨式期權,以追求長期穩定的超額收益,面臨兩個主要挑戰:尋找最佳交易時機和理解長期趨勢。采用Transformer-DDQN模型,設計新注意力網絡方法計算交易決策的Q值,動態調整以適應市場條件。主要貢獻包括:設計自注意力和通道注意力機制,輸入阻力位信息,采用延遲獎勵函數以避免局部最優,實驗結果顯示該模型在多個市場中優于六個基線模型。
相關工作
深度學習
AbdelKawy等人提出了一種多股票交易模型,采用同步多智能體DRL方法,動態提取金融數據特征,處理大規模歷史交易數據。Tran等人使用DRL(DDQN和貝葉斯優化)優化交易策略參數,在加密貨幣市場中實現了正收益,優于其他優化方法。Azhikodan等人開發了一個基于深度確定性策略梯度(DDPG)模型的擺動交易機器人,結合金融新聞情感分析預測股票趨勢。Kabbani等人應用雙延遲深度確定性策略梯度算法,構建部分可觀測馬爾可夫決策過程模型,獲得高夏普比率,超越傳統機器學習方法。
注意力網絡
注意機制提升了神經網絡在多任務中的性能、效率和可解釋性,能夠選擇性關注相關輸入特征。Transformer模型利用自注意力機制,替代遞歸或卷積層,實現并行化和長距離依賴處理。SAGAN模型將自注意力機制融入GAN框架,增強高分辨率圖像生成。SE-Nets通過自適應重校準通道特征響應,提升網絡的表征能力。本模型結合自注意力和通道注意力機制,快速捕捉市場信息,優化資產權重,平衡短期調整與長期趨勢,提升交易表現。
問題建模
模擬期權交易環境
歷史波動率計算:使用標準差測量資產價格波動,假設市場短期內漲跌概率為50%,因此平均市場回報為零。采用15分鐘蠟燭圖數據捕捉日內波動。


期權定價模型:基于Black-Scholes模型,期權價格受當前價格、到期時間和波動率影響。公式為C(S, t)和P(S, t),其中N(d)為標準正態分布的累積分布函數。


短期交易策略:研究月度期權交易,忽略股息對期權定價的影響,使用歷史波動率替代隱含波動率。
建立跨式期權頭寸規則:根據行權價區間選擇期權,確保投資組合的整體德爾塔接近零,優先選擇流動性好的近月合約。
阻力位識別
阻力位是技術分析中的關鍵概念,價格到達阻力位時買賣雙方博弈加劇,導致價格波動不確定性增加。通過識別歷史阻力位,結合錨定效應,可以為交易模型提供參考信息。
使用算法自動識別阻力和支撐位,定義阻力區域為±0.3%范圍內,價格進入該區域時發出阻力信號。市場狀態的特征由滑動窗口提取,包含蠟燭圖數據、浮動盈虧、歷史波動率和距離下一個交易日的天數。

狀態 S_t^1 包含時間序列 Seq_t、阻力信號和持倉時間,提供交易決策信息。觀察時間序列 obs_pt 關注市場趨勢,使用不同周期的蠟燭圖數據,形成市場狀態 S_t。

動作空間僅有持倉(1)和非持倉(0)兩種狀態,模型需執行完整的交易過程。

方法
市場狀態信息分為兩個部分:S t 1 和 S t 2,具有時間序列特性和序列間關系。Q值估計的神經網絡設計為兩個模塊:一個處理時間序列信息,另一個整合多期數據。
時間序列信息處理模塊
Transformer模型通過自注意力機制捕捉長序列中的長程依賴,適用于時間序列數據,如蠟燭圖數據。將時間序列數據Seq_t輸入Transformer-Encoder模塊以學習市場狀態信息,提取特征。


特征矩陣通過flatten層轉化為向量,隨后通過dense層壓縮信息。結合ResFlag和HoldTime,形成新的特征表示H_t^3。

最后,使用全連接層學習ResFlag和HoldTime信息,輸出H_t^4。對于觀察到的市場趨勢時間序列obs_pt,采用相同的處理流程。

多周期信息融合模塊
短期市場趨勢相似,但不同的中長期趨勢背景信息可能不同,因此交易需關注長期蠟燭圖信息。使用注意力機制增強模型處理不同周期數據的能力。

多周期信息融合模塊中,H_t^4作為查詢向量,其他周期的蠟燭數據O_t^p作為鍵和值向量。計算每個周期相對于H_t^4的注意力分數并進行歸一化。

融合多周期信息后,輸出集成查詢向量Q(S_t, a_t)。注意力分數計算中,操作符α(·)為a = p^T W_q。


獎勵功能的設計
獎勵函數設計是影響深度強化學習(DRL)模型性能的關鍵因素,常見的包括利潤最大化、損失最小化和風險調整回報最大化。在不同市場波動下,需優化獎勵函數以適應市場變化,調整風險偏好參數以平衡收益與風險。使用風險度量(如夏普比率和最大回撤)設計獎勵函數有助于風險控制與收益最大化的平衡,但不適合跨式期權交易。
本文采用延遲獎勵機制和止損系統來控制回撤風險,減少市場波動對模型訓練的干擾。獎勵機制細則:
- 開倉(0→1)時,獎勵為0。
- 持倉(1→1)時:
若收益大于止損,獎勵為0;
- 若收益小于止損,獎勵為e^(收益-1)。
- 平倉(1→0)時:
- 若在止損閾值平倉,獎勵為a(a>0);
- 否則,獎勵為e^(收益-1),若偏離開倉點超過g%,則給予雙倍獎勵。
- 不持倉(0→0)時,獎勵為0。
該獎勵函數設計使模型有效管理跨式期權頭寸,保持穩定并響應市場波動。
實驗
數據集
研究數據來源于上海證券交易所的主要指數,包括SSE 50、CSI 300和CSI 500。為驗證方法的普適性,還對布倫特原油和比特幣數據進行了實驗。數據時間范圍為2018年1月4日至2024年3月31日,包含15分鐘的K線數據,內容包括開盤價、最高價、最低價、收盤價、成交量和交易價值。A股市場中,跟蹤的指數期權產品包括在SSE上市的ETF期權和在中國金融期貨交易所(CFFEX)交易的指數期權,統稱為指數期權。
環境設置
訓練集:2018年1月1日至2021年12月31日的15分鐘K線數據;測試集:2022年1月1日至2024年3月31日。模型回溯20天,歷史波動率基于過去5天計算。
交易成本:CFFEX指數期權每合約15元,按點收費0.15元;Binance比特幣期權手續費為0.02%(不超過期權溢價的10%);倫敦ICE布倫特原油期權每合約1.5美元。初始資本100萬元,ETF交易成本0.05%。期權最大持有期5天,止損閾值15%。
評估指標:年化平均對數收益(AVGR)、夏普比率(SP)、最大回撤(MDD)。
其他設置
研究比較了提議模型與兩種基于規則的交易策略(市場自身回報和雙移動平均策略)、兩種機器學習股票價格預測模型(XGBoost和LSTM網絡)以及兩種深度強化學習自動交易模型(GRU-DDQN和DDPG)。
進行了消融研究,測試不同模型組件對結果的影響,選取了三種模型變體:
- NoRes-Transformer-DDQN:屏蔽阻力水平信息。
- DR-Transformer-DDQN:使用常見績效指標(回報)作為獎勵函數。
- LSTM-DDQN:用LSTM網絡替代Transformer編碼器來估計Q值。
結果和分析
本文提出的Transformer-DDQN模型在交易價格方向的各項性能指標上優于基線方法,尤其在高波動的A股市場中。傳統的規則基礎交易策略在波動條件下表現不佳,雙移動平均策略在趨勢條件下效果較好。原油市場因需求穩定和對沖交易,價格波動小,盈利能力較差;而加密貨幣市場因投機者主導,價格波動劇烈,盈利能力高。

Xgboost-Predict和LSTM-Predict因只關注預測準確性而忽視交易賠率,導致交易表現不佳。GRU-DDQN和DDPG訓練失敗,因市場高波動導致頻繁的收益和損失切換,增加學習難度。Transformer-DDQN在不同數據集上的表現差異,SSE 50和CSI 300的盈利能力較弱,CSI 500因中小盤股波動性大而盈利能力強。

三種模型變體的表現均不及完整的Transformer-DDQN模型。
- NoRes-Transformer-DDQN缺乏阻力信息,導致對波動的誤解。
- DRTransformer-DDQN在橫盤時利潤波動大,干擾學習過程,未能有效捕捉正常市場波動。
- LSTM-DDQN交易頻率高,導致交易費用增加,盡管在極端波動條件下表現較好,但忽視歷史波動信息。
- Transformer相較于LSTM更好地捕捉長期依賴,能有效過濾市場噪音,但在市場波動降低時反應較慢,可能導致部分利潤回吐。


總結
本文提出Transformer-DoubleDQN模型,用于學習跨式期權量化交易策略,關注交易資產的波動性。該模型旨在在正常市場波動中實現穩定收益,在極端市場運動中獲得超額收益。主要風險來源是期權時間價值的衰減,而非資產價格波動,有助于更好地管理風險暴露。隱含波動率是期權定價的重要因素,通常圍繞歷史波動率波動,但在實際市場中難以預測。本文假設隱含波動率近似歷史波動率,未來研究方向是將隱含波動率信息整合進深度強化學習模型。
本文轉載自???靈度智能???,作者:靈度智能

















