突破性數據同化技術:RL-DAUNCE如何通過強化學習實現物理約束下的高效狀態估計
引言:數據同化的新范式
在現代科學計算和預測系統中,數據同化作為一種關鍵技術,其重要性不言而喻。它通過系統性地結合觀測數據與模型預測,為物理系統狀態提供更精確的估計。從最初為數值天氣預報開發的技術,如今已擴展到參數估計、動態插值、控制輔助和模型識別等廣泛應用領域。近年來,數據同化更成為數字孿生和多模型預報系統的核心組件。
傳統數據同化方法如集合卡爾曼濾波器(EnKF)在處理高度非線性和非高斯系統時面臨諸多挑戰,包括計算效率低下和物理約束難以保持等問題。這些挑戰促使研究人員探索將機器學習技術與數據同化相結合的新方法。雖然監督學習已成為標準方法,但強化學習(RL)憑借其順序決策框架提供了獨特優勢,能夠自然地適應數據同化的迭代特性,通過動態平衡模型預測與觀測數據來優化結果。
本文介紹的RL-DAUNCE(基于強化學習的帶不確定性感知約束集成數據同化)方法,代表了數據同化領域的一項重大創新。這種方法不僅繼承了機器學習的計算效率,還特別設計了智能體結構以模擬傳統數據同化方法中的集成成員,同時通過強化學習的自適應能力增強了系統性能。
RL-DAUNCE方法的核心創新
RL-DAUNCE方法在三個關鍵方面實現了數據同化的突破性進展:
1. 計算效率與傳統兼容性的平衡
RL-DAUNCE自然繼承了機器學習的計算效率,同時獨特地構建其智能體以模擬傳統數據同化方法中的集成成員。這種設計使其能夠保持與標準工作流程的兼容性,同時利用強化學習的自適應能力。通過將每個集成成員建模為獨立的強化學習智能體,RL-DAUNCE創建了一個能夠捕捉系統動態行為不確定性的集成。
與傳統的EnKF相比,RL-DAUNCE在計算效率方面表現出顯著優勢。實驗表明,約束型EnKF每次同化步驟需要約22.96秒,主要是由于解決帶非線性約束的優化問題所帶來的計算開銷。即使是無約束的EnKF仍需5.61秒每步,且常常由于缺乏物理約束而產生不符合物理規律的后驗估計。相比之下,RL-DAUNCE每步僅需1.1秒即可完成,同時保持與約束型EnKF相當的物理一致性。這意味著RL-DAUNCE比約束型EnKF快20倍,比無約束EnKF快5倍,為實時或大規模數據同化任務提供了極具吸引力的解決方案。
2. 不確定性量化的增強
與現有專注于端到端狀態估計的強化學習輔助數據同化方法不同,RL-DAUNCE通過推進多個集成成員來強調不確定性量化,超越了簡單的平均狀態優化。它通過讓每個智能體獨立演化,使集成統計能夠捕獲超出平均狀態估計的完整分布信息,從而提供更全面的不確定性感知狀態估計。
在實際應用中,這種能力尤為重要,因為它允許系統不僅提供點估計,還能評估估計的可靠性,這在處理高度不確定的系統時至關重要。例如,在處理馬登-朱利安振蕩(MJO)這樣的間歇性大氣現象時,RL-DAUNCE能夠準確捕捉極端事件并提供可靠的不確定性量化。
3. 物理約束的有效執行
RL-DAUNCE的集成作為智能體設計天然促進了在同化過程中執行物理約束,這對于改進狀態估計和后續預測至關重要。通過將原始-對偶優化策略納入強化學習框架,RL-DAUNCE能夠動態地懲罰獎勵函數,以確保在整個學習過程中滿足約束條件。此外,通過限制RL動作空間來尊重狀態變量邊界,進一步確保了物理一致性。
這種約束執行機制對于處理具有強物理約束的系統尤為重要。例如,在MJO模型中,對流活動的正值約束和能量守恒是保持系統穩定性和物理可解釋性的關鍵。RL-DAUNCE通過硬約束確保對流活動保持正值,同時通過軟約束維持系統能量在可接受范圍內波動。
理論基礎:強化學習與集合卡爾曼濾波器的結合
集合卡爾曼濾波器(EnKF)概述
集合卡爾曼濾波器通過有限的狀態實現集合來將標準卡爾曼濾波器推廣到非線性系統。與經典卡爾曼濾波器不同,EnKF不是傳播分析均值和協方差估計,而是通過兩步預測-分析程序傳播N個狀態向量的集合。
在預測步驟中,EnKF利用預測模型更新背景集合,然后在分析步驟中,給定觀測值,每個集合成員都會根據卡爾曼增益進行更新。這種方法在氣象學、土壤和土地研究、地下水建模以及更廣泛的地球物理應用中取得了成功。
然而,EnKF面臨幾個計算挑戰。這些問題的高維度通常會減慢計算速度,特別是因為這些方法需要多次運行預測模型來生成集合。在實踐中,可用的集合數量有限,因此通常需要額外的經驗調整,如噪聲膨脹和局部化,以確保這些數據同化方法的數值穩定性。
約束型EnKF
標準EnKF通過基于觀測數據更新系統狀態集合,為狀態估計提供了有效框架。然而,它并不能內在地執行物理約束,如正值保持或能量守恒,這些在科學和工程應用中往往至關重要。為解決這一限制,EnKF更新步驟可以重新表述為約束最小化問題。
通過將同化過程置于優化框架中,我們可以明確施加約束并利用數值優化技術獲得物理上一致的更新,同時保持EnKF的統計特性。約束型EnKF為每個集合成員解決優化問題,以執行物理約束,同時最小化成本函數。
強化學習(RL)與EnKF的概念并行
強化學習是一種機器學習范式,其中智能體通過與環境交互并接收獎勵形式的反饋來學習決策。RL旨在確定最大化長期累積獎勵的最優策略。與提供標記數據的監督學習不同,RL通過試錯操作,平衡探索(嘗試新動作)和利用(選擇產生高獎勵的動作)。
盡管近端策略優化(PPO)和EnKF來自不同領域,但它們共享幾個基本原則。例如,兩種方法都依賴于采樣技術:PPO從學習的策略分布中采樣動作,而EnKF從集合中采樣狀態實現。此外,兩者都包含不確定性量化:PPO通過隨機策略和探索機制,EnKF通過集成統計。盡管它們的目標不同,PPO旨在最大化長期獎勵,而EnKF旨在最小化估計誤差;它們的更新機制(策略梯度與卡爾曼增益)在迭代細化智能體行為或狀態估計方面起著類似的作用。
RL-DAUNCE框架
RL-DAUNCE框架建立了一種創新的方法,將強化學習與數據同化相結合,同時保持物理約束。該框架的核心是將每個集成成員建立為獨立的RL智能體,通過單獨的策略網絡實現。這些智能體在由約束型EnKF模擬生成的數據集上進行訓練,以學習其各自集成成員的時間演化。
定義與EnKF一致的RL智能體
為了設計一個反映EnKF功能的RL智能體,RL-DAUNCE采用了基于集成的公式。具體來說,RL智能體被建模為N個策略網絡的集成,每個策略網絡對應一個集成成員。這種設置使得每個策略作為策略分布的獨立樣本,有效地捕捉了學習系統動態行為的不確定性。
此外,學習任務被表述為約束優化問題,以納入物理約束,如能量守恒。這確保了學習的策略不僅最小化預測誤差,還尊重系統的基本物理特性。
帶動態調整拉格朗日乘子的原始-對偶優化
原始-對偶方法為在RL中執行約束提供了一個穩健而靈活的框架。該方法解決了最大化預期獎勵的原始RL問題,同時通過不等式或等式形式地納入約束。對每個約束引入對偶變量或拉格朗日乘子,使得能夠制定拉格朗日函數,結合原始目標和約束。
為了在RL-DAUNCE數據同化框架中執行線性或非線性約束,使用拉格朗日乘子根據提供的觀測動態地懲罰約束違反。拉格朗日乘子根據每個行進步驟違反的嚴重程度進行更新,確保有效的約束執行,同時防止拉格朗日乘子無限增長。
最終,該算法結構可以寫為兩個步驟:
- 策略(原始)步驟:通過對拉格朗日函數執行(近似)梯度上升來更新策略。
- 對偶步驟:通過對對偶目標執行梯度上升來更新拉格朗日乘子。
這種方法確保了學習的策略在滿足約束的情況下最大化獎勵,為數據同化提供了一個強大的框架。
約束增強貝爾曼算子
在RL中,貝爾曼算子通過遞歸定義值函數起著基礎性作用。在RL-DAUNCE中,引入了約束增強貝爾曼算子,允許使用懲罰約束違反的方式施加軟約束。
這種公式化解釋了參數λ如何控制約束和獎勵最大化之間的平衡。隨著λ增加,最優策略更加強調約束滿足相對于獎勵最大化。在極限λ→∞的情況下,智能體完全優先考慮約束滿足。
帶約束的RL-DA
最終,RL-DAUNCE框架通過將更新后的拉格朗日乘子納入獎勵函數來保持物理約束,從而懲罰約束違反。最大化原始-對偶獎勵函數確保了約束得到執行,同時動態地調整拉格朗日乘子。
為了直接對下一時間步的變量狀態施加硬約束(例如,任何估計狀態的下界或上界),定義了一個約束動作空間,在其中這些邊界被嚴格執行。這確保了結果狀態保持在下界之上和上界之下,確保約束在每個時間步絕對執行。
一旦智能體集成經過訓練,通過從集成策略中采樣進行推斷,這不僅保持了與EnKF的集成預測理念的一致性,還為基于RL的濾波器中的不確定性量化提供了原則性方法。

圖1:用于約束數據同化的提議RL框架概述。RL智能體集成學習基于EnKF生成的數據提出物理上一致的動作,通過訓練過程中的原始-對偶優化應用約束。系統隨時間順序演化,學習的動作受到正值性、守恒和其他約束的約束。
應用案例:馬登-朱利安振蕩(MJO)
為了驗證RL-DAUNCE的有效性,研究人員將其應用于馬登-朱利安振蕩(MJO)的狀態估計。MJO是熱帶季節內變異性的主導模式,特征是一個緩慢移動的行星尺度對流包絡體,向東穿越赤道印度洋和西部/中部太平洋。它影響熱帶和熱帶外天氣模式,并在調節大尺度氣候現象如厄爾尼諾-南方振蕩中發揮關鍵作用。
MJO及其隨機骨架模型
MJO骨架模型描述了MJO的大尺度動力學,捕捉了MJO的幾個關鍵特征,包括:
- 緩慢的東向傳播速度(約5 m/s)
- 具有接近零群速度的特殊色散關系
- 大尺度環流中的四極結構
- MJO事件的間歇性生成
- MJO事件組織成展示增長和衰減的波列
該模型從三維原始方程推導而來,通過在垂直維度上投影到第一斜壓模式,然后投影到第一經向模式,得到一個簡化模型,僅依賴于赤道上的縱向坐標和時間。
約束來源:對流活動的正值性和能量守恒
MJO骨架模型中的第一個約束是對流活動A的正值性,這是由于其物理表示。第二個特征涉及其能量,在沒有隨機強制和平衡源項的情況下,模型保持正總能量。值得注意的是,當出現隨機噪聲時,總能量不會嚴格守恒,這也與自然一致,小尺度擾動和阻尼效應會在一定程度上修改能量。盡管如此,施加這種軟約束仍然可以在改進數據同化技能方面發揮關鍵作用。
EnKF和RL-DAUNCE的設置
MJO的隨機和非線性特性使其成為數據同化的引人注目的測試案例。在同化過程中保持能量和A的正值對于獲得準確結果至關重要。然而,這是高度非平凡的。例如,作為后處理手動強制A為正值會導致不穩定解決方案。RL-DAUNCE框架增強了在保持物理上一致解決方案的同時估計MJO狀態的能力。
在數值模擬中,使用64個網格點離散化空間域,對應于40,000公里的赤道長度。觀測變量僅涉及對流活動a,這與調查和監測現實世界MJO的情況一致。由于A+ā是正的,因此使用具有零均值和方差0.0063的對數正態分布添加噪聲。觀測每28.8小時記錄一次,在所有空間網格點上觀察A。
為了確保能量變化保持在可接受范圍內,對預測系統的總能量施加了約束。具體來說,定義了一個容差區間ε=[0.015,0.08],代表能量偏差的允許范圍。這與物理一致,因為阻尼和隨機強制會隨時間改變總能量,盡管能量在某一水平附近大致穩定。在RL過程中的每個訓練步驟,更新拉格朗日乘子λ以懲罰RL預測動作的總能量與這個指定區間的偏差。
此外,作為硬約束執行A+ā的正值保持至關重要,因為這對于估計過程的穩定性和對流活動的物理可解釋性至關重要。為了實現這一點,對應于狀態變量A的動作空間從下方被限制為-ā。
評估結果
RL-DAUNCE與約束型EnKF在恢復MJO大尺度特征方面表現出相似的均方根誤差(RMSE)和相關性(Corr),表明兩種方法在重建MJO大尺度特征方面具有相似能力。

圖2:狀態變量K、R、Z、A和MJO在固定空間位置的時間軌跡。每個子圖比較了地面真值(黑色)、約束型EnKF的均值和不確定性(藍色)以及RL-DAUNCE框架的均值和不確定性(紅色)。RL-DAUNCE預測在均值狀態和不確定性方面緊密跟隨約束型EnKF,展示了RL-DAUNCE復制類似EnKF同化性能的能力。
在時間軌跡方面,RL-DAUNCE產生的不確定性區域與約束型EnKF的緊密匹配,表明RL-DAUNCE嚴格捕捉了底層不確定性結構。此外,所有變量的平均狀態軌跡與約束型EnKF保持一致,緊密跟隨真實狀態,即使可觀測的只涉及A的噪聲信號。特別是,RL-DAUNCE成功恢復了出現在對流活動A信號中的間歇性極端事件。

圖3:MJO變量在空間-時間域中的Hovm?ller圖。
Hovm?ller圖展示了狀態變量和MJO在空間和時間上的演化。RL-DAUNCE重建與EnKF結果和真實狀態表現出強烈一致性,成功捕捉了主導波模式、傳播特性、空間-時間域中的變異性和間歇性現象。

圖4:不同方法間集成總能量的比較。RL-DAUNCE通過部署約束執行算法成功保持總能量。然而,如果不應用約束執行,即使RL使用約束型EnKF數據進行訓練,總能量也不會被保持。這突顯了約束執行在保持物理特性方面的關鍵作用。每條虛線代表一個集成的能量演化。
在總能量方面,當RL-DAUNCE使用由約束型EnKF生成的數據進行訓練,并在預測過程中應用約束執行算法時,所有集成的總能量有效地保持在區間內。此外,RL-DAUNCE和約束型EnKF中波動范圍是相當的。相比之下,如果在RL訓練過程中省略約束執行,即使RL模型在相同的ENKF數據上進行訓練,總能量也不再被保持。這種比較突顯了約束執行在確保學習模型尊重底層物理定律方面的基本作用。
結論與未來方向
RL-DAUNCE代表了數據同化領域的重大進步,通過將強化學習與物理約束相結合,提供了一種計算效率高且物理上一致的方法。與經驗性的事后修正不同,RL-DAUNCE通過兩種內在機制執行基本定律:(1)在訓練過程中動態懲罰約束違反的原始-對偶優化策略,和(2)對RL動作空間的硬邊界以保持狀態變量有效性。
RL-DAUNCE的獨特特性使其成為處理非線性、多變量和間歇性現象的強大工具。它的集成啟發架構使RL智能體能夠鏡像集成成員,保持與傳統數據同化的兼容性,同時利用RL的自適應學習。通過讓每個智能體獨立演化,RL-DAUNCE促進了不確定性量化,捕獲了超出平均狀態估計的完整分布信息。
未來研究方向包括進一步降低計算成本,特別是探索跨類似動力系統的轉移學習,以顯著降低訓練成本。此外,RL-DAUNCE在解決多模型數據同化問題和處理結構模型不確定性方面顯示出潛力。結合深度RL的計算策略,RL-DAUNCE有望解決實際應用中遇到的高維問題。
總的來說,RL-DAUNCE代表了數據同化領域的重要進步,為處理復雜系統提供了一種計算效率高且物理上一致的方法,特別是在傳統方法面臨挑戰的情況下。
論文:https://arxiv.org/abs/2505.05452
本文轉載自?????頓數AI????,作者:蔥蔥

















