入口控制:多智能體強化學習在自動駕駛中的應(yīng)用研究 精華
隨著自動駕駛技術(shù)的快速發(fā)展,人們對于自主車輛的期待也在不斷提高。然而,盡管現(xiàn)有的技術(shù)已經(jīng)能夠?qū)崿F(xiàn)車輛在高速公路上的自動駕駛,以及無人駕駛出租車在主要城市開始運營,技術(shù)上所謂的“L5”全自動駕駛?cè)晕赐耆珜崿F(xiàn)。實現(xiàn)這一目標需要解決多個技術(shù)難題,其中之一便是提供能夠在高速公路匝道入口安全、可靠運行的全自動控制功能。
現(xiàn)階段的自動駕駛技術(shù)雖然取得了顯著進展,但仍面臨許多挑戰(zhàn)。社會普遍認為自動駕駛汽車需要比人類駕駛更安全、更不易出錯,實現(xiàn)這一目標并非易事。近期隨著對自動駕駛技術(shù)的審查力度增加,一些大公司已經(jīng)削減了開發(fā)資金并關(guān)閉了相關(guān)技術(shù)合作伙伴關(guān)系。此外,公眾對于自動駕駛技術(shù)的信任度下降,呼吁加強監(jiān)管的聲音日益高漲。這些都表明當前的自動駕駛技術(shù)在實際應(yīng)用中仍存在諸多不足,需要進一步優(yōu)化和改進。
在這樣的背景下,來自Flex 和密歇根大學的研究團隊開啟多智能體深度強化學習(MA DRL)在高速公路匝道入口控制中的應(yīng)用。通過博弈論和多智能體方法,他們希望實現(xiàn)車輛在合并到主路交通流中的自主控制,最大限度地減少碰撞風險。特別是他們使用基于深度強化學習的控制器,在虛擬環(huán)境中通過自我對弈的方式,讓合并車輛學習如何在匝道入口的漸變式合并過程中控制縱向位置,從而確保其安全性和穩(wěn)健性。11 月 24 日,他們的論文《A Systematic Study of Multi-Agent Deep Reinforcement Learning for Safe and Robust Autonomous Highway Ramp Entry》發(fā)表于arXiv 學術(shù)交流平臺。
研究團隊由來自Flex的Larry Schester和密歇根大學迪爾伯恩分校的Luis E. Ortiz組成。Larry Schester在全球領(lǐng)先的技術(shù)制造服務(wù)公司Flex工作,擁有豐富的自動駕駛和智能系統(tǒng)領(lǐng)域的經(jīng)驗。而Luis E. Ortiz則是密歇根大學迪爾伯恩分校的教授,在多智能體系統(tǒng)和機器學習方面有著深厚的研究背景。兩位研究人員的專業(yè)知識和實踐經(jīng)驗為本研究提供了堅實的基礎(chǔ)。
自動駕駛的挑戰(zhàn)
一直以來,行業(yè)內(nèi)對自動駕駛技術(shù)的質(zhì)疑聲不斷增強,并且監(jiān)管也在逐步加強。近年來多起涉及自動駕駛汽車的事故,引發(fā)了公眾和監(jiān)管機構(gòu)對其安全性的擔憂。這些事故不僅損害了公眾對自動駕駛技術(shù)的信任,也促使政府加大了對自動駕駛技術(shù)的審查和監(jiān)管力度。例如,一些重大公司在意識到自動駕駛技術(shù)面臨的挑戰(zhàn)后,撤回了資金支持,暫停了相關(guān)項目。此外由于自動駕駛汽車在事故發(fā)生時的責任界定問題尚未解決,一旦發(fā)生事故,制造商通常將責任歸咎于駕駛員,進一步引發(fā)了對其安全性的質(zhì)疑。
自動駕駛技術(shù)在實際應(yīng)用中也暴露出許多不足之處。當前,大多數(shù)自動駕駛系統(tǒng)仍依賴于遠程人類操作來處理復雜和緊急情況,顯示出技術(shù)在完全自主駕駛方面的局限性。特別是在高速公路匝道入口等高風險場景下,自動駕駛系統(tǒng)需要應(yīng)對多種動態(tài)交通狀況,這對其感知、決策和控制能力提出了極高的要求。此外,現(xiàn)有的技術(shù)標準和測試方法尚未完全覆蓋所有潛在的交通場景和突發(fā)情況,導致自動駕駛汽車在面對復雜路況時表現(xiàn)出不穩(wěn)定性。
改進方向包括進一步優(yōu)化自動駕駛系統(tǒng)的算法和控制器,以提高其在各種交通環(huán)境中的表現(xiàn)。同時,加強對自動駕駛技術(shù)的測試和驗證,特別是在真實世界中的測試,以確保其在不同場景下的安全性和可靠性。此外,需要完善相關(guān)的法律法規(guī),明確自動駕駛汽車在事故中的責任界定,為其大規(guī)模應(yīng)用創(chuàng)造有利的法律環(huán)境。

圖1:三車高速公路合并:目標線為綠色。Ego合并車輛(藍色)和兩輛交通車輛(紅色)。

圖2:全場景高速公路合并:兩輛車在合并車道上,兩輛或更多輛車在行車道上。
入口控制的研究方法
在探索自動駕駛技術(shù)的多智能體深度強化學習(MA DRL)應(yīng)用時,研究團隊采用了一些前沿的方法和技術(shù)。
博弈論是研究戰(zhàn)略性互動的數(shù)學方法,它在多智能體系統(tǒng)中尤為重要。博弈論幫助分析智能體(在本研究中為自動駕駛車輛)之間的競爭和合作關(guān)系,以便找到最佳策略。在高速公路匝道入口場景中,每輛車(智能體)都需要決定如何調(diào)整速度和位置,以便在不發(fā)生碰撞的情況下順利并入主路交通流。這種情境下,博弈論提供了理論基礎(chǔ),幫助智能體預估其他車輛的動作,并做出相應(yīng)的決策。
多智能體系統(tǒng)涉及多個獨立智能體,這些智能體彼此之間可以進行通信、協(xié)調(diào)和競爭。在自動駕駛的應(yīng)用中,多智能體系統(tǒng)可以模擬復雜的交通環(huán)境,每個智能體都能根據(jù)實時信息和預測調(diào)整其行為,以實現(xiàn)整體最優(yōu)的交通流。通過這種方法,可以更好地理解和優(yōu)化車輛在高速公路匝道入口的合并行為。
深度強化學習(DRL)結(jié)合了深度學習和強化學習的優(yōu)勢,使得智能體能夠通過與環(huán)境的交互學習最優(yōu)策略。在自動駕駛中,DRL被廣泛應(yīng)用于解決各種復雜的控制和決策問題。DRL的核心思想是通過獎勵和懲罰機制,引導智能體學習一系列動作,以最大化累計獎勵。
在高速公路匝道入口控制中,DRL的優(yōu)勢在于其能夠處理高維度的輸入數(shù)據(jù),并且能在動態(tài)環(huán)境中進行自適應(yīng)學習。通過使用深度神經(jīng)網(wǎng)絡(luò),DRL能夠從大量的傳感器數(shù)據(jù)中提取關(guān)鍵特征,并學習到復雜的非線性映射關(guān)系,從而實現(xiàn)對車輛行為的精確控制。這使得自動駕駛系統(tǒng)能夠在復雜的交通環(huán)境中進行實時決策,提高行駛的安全性和穩(wěn)定性。
本研究中使用了深度確定性策略梯度(DDPG)算法,這是DRL的一種,該算法特別適用于連續(xù)動作空間。DDPG通過actor-critic架構(gòu),分別優(yōu)化策略網(wǎng)絡(luò)(actor)和價值網(wǎng)絡(luò)(critic),從而實現(xiàn)對智能體行為的高效學習與優(yōu)化。
為了驗證多智能體深度強化學習在高速公路匝道入口控制中的有效性,研究團隊在虛擬環(huán)境中進行了自我對弈訓練及數(shù)據(jù)模擬。虛擬環(huán)境提供了一個安全且可控的測試平臺,智能體可以在其中不斷嘗試和調(diào)整策略,以適應(yīng)不同的交通狀況。
在自我對弈訓練中,智能體通過模擬與其他車輛(智能體)的互動,不斷學習和改進其控制策略。每個智能體在訓練過程中通過自我對弈(self-play),模擬真實交通場景,積累經(jīng)驗數(shù)據(jù)。在每個訓練步驟中,智能體根據(jù)當前狀態(tài)采取行動,并根據(jù)環(huán)境反饋更新其策略。這種訓練方式不僅提高了智能體的學習效率,還增強了其對復雜交通場景的適應(yīng)能力。
通過自我對弈訓練,研究團隊能夠生成大量的模擬數(shù)據(jù),這些數(shù)據(jù)用于訓練深度強化學習模型。模擬數(shù)據(jù)的使用不僅減少了真實車輛測試的風險和成本,還可以在短時間內(nèi)測試和優(yōu)化各種可能的交通情景和策略。虛擬環(huán)境中的自我對弈訓練為實現(xiàn)安全、可靠的高速公路匝道入口控制提供了堅實的基礎(chǔ)。
三車輛仿真實驗
在本研究中,為了驗證多智能體深度強化學習(MA DRL)在高速公路匝道入口控制中的有效性,研究團隊設(shè)計了一系列三車輛仿真實驗。這些實驗旨在通過模擬不同的交通場景,評估自動駕駛車輛的控制策略,并確保其在復雜環(huán)境中能夠安全、穩(wěn)健地運行。

圖3:三個車輛參與者-評論家神經(jīng)網(wǎng)絡(luò)圖。
實驗設(shè)計
三車輛仿真實驗?zāi)P桶ê喜④嚨郎系囊惠v“自合并車輛”(ego vehicle)和交通車道上的兩輛“交通車輛”(traffic vehicles)。此模型旨在模擬高速公路匝道入口的典型場景,其中自合并車輛必須在應(yīng)對前后交通車輛的同時,避免與其他車輛發(fā)生碰撞。
實驗設(shè)置的主要參數(shù)包括匝道長度、車輛加速度范圍以及初始位置和速度等。在仿真中,匝道長度設(shè)置為256米,這是美國交通運輸部推薦的高速公路匝道長度。所有車輛的加速度范圍為-5至4米每秒平方(??/??2),這些參數(shù)能夠真實模擬車輛在匝道入口的動態(tài)行為。
狀態(tài)變量與獎勵函數(shù)的詳細介紹
在仿真實驗中,狀態(tài)變量用于描述自合并車輛和交通車輛的狀態(tài)。這些狀態(tài)變量包括閉合間隙、閉合速度等,它們能夠準確反映車輛相對于其他車輛和目標位置的距離和速度。例如,自合并車輛的狀態(tài)集合包括與后方交通車輛、前方交通車輛和目標位置相關(guān)的閉合間隙和閉合速度。

圖4:頂部:四個單獨勘探值的累積獎勵平均值。底部:最佳變量的累積獎勵平均值和移動平均值:0.999995探索。
獎勵函數(shù)在強化學習中起著關(guān)鍵作用,它指導智能體(自動駕駛車輛)采取合適的行動以最大化累計獎勵。在本研究中,獎勵函數(shù)對不同的行為給予不同的獎勵或懲罰。例如,加速和減速動作會受到小的懲罰,成功合并則會得到較大的獎勵,而發(fā)生碰撞則會受到更大的懲罰。具體來說,成功合并的獎勵為103,碰撞的懲罰在-10?到-10?之間,加速或減速的任何動作都根據(jù)其大小受到懲罰。這種設(shè)計的目的是為了讓算法學到自動駕駛應(yīng)比人類駕駛更安全,并盡量減少碰撞。

圖5:三輛車場景的標準測試性能,數(shù)據(jù)按訓練順序排序。藍色和橙色條表示每個測試實例的平均減速度和加速度。綠線是加速和減速發(fā)生之間的差異。紅線是次軸(右),表示總碰撞。水平軸值表示以25??的間隔進行的測試。
訓練過程及控制器的性能表現(xiàn)
在三車輛仿真實驗中,深度確定性策略梯度(DDPG)強化學習算法用于訓練自合并車輛的神經(jīng)網(wǎng)絡(luò)控制器(NN)。DDPG是一種適用于連續(xù)動作空間的算法,通過actor-critic架構(gòu),分別優(yōu)化策略網(wǎng)絡(luò)(actor)和價值網(wǎng)絡(luò)(critic)。訓練過程中,自合并車輛在每一劇集的每一步都更新其NN控制器,根據(jù)當前狀態(tài)采取行動,并根據(jù)環(huán)境反饋不斷改進其策略。
仿真訓練總共進行250萬劇集,但最佳表現(xiàn)大約在35萬劇集。訓練過程中,智能體的表現(xiàn)會有所波動,但總體上會逐漸提高并達到峰值。在訓練初期,智能體會嘗試各種不同的策略,以找到最優(yōu)解。當訓練達到一定階段時,智能體的表現(xiàn)趨于穩(wěn)定,累積獎勵在一個較小的波動范圍內(nèi)穩(wěn)定下來。
控制器的性能通過標準測試進行評估。在測試中,智能體需要在不同的初始條件和交通情境下進行操作,以驗證其在真實交通場景中的表現(xiàn)。標準測試結(jié)果顯示,使用DRL訓練的控制器能夠有效避免碰撞,并在復雜交通環(huán)境中表現(xiàn)出較高的穩(wěn)健性。
標準測試結(jié)果分析:碰撞避免與獎勵機制
通過對標準測試結(jié)果的分析,可以看出使用深度強化學習訓練的控制器在不同交通情境下的表現(xiàn)。智能體在碰撞避免方面表現(xiàn)出色,能夠在大多數(shù)情況下成功合并進入交通流。
在標準測試中,智能體的成功率與初始條件和交通情境密切相關(guān)。例如,在間隙較大的情況下,自合并車輛更容易找到合適的合并時機,從而避免碰撞。而在間隙較小時,智能體需要更精細的控制策略,以確保安全合并。實驗結(jié)果還表明,獎勵函數(shù)的設(shè)計在智能體的學習過程中起到重要作用。通過給予成功合并較大的獎勵和碰撞較大的懲罰,智能體能夠?qū)W到有效的控制策略,最大限度地減少碰撞風險。
在實際應(yīng)用中,這種基于深度強化學習的控制策略有助于提高自動駕駛系統(tǒng)在復雜交通環(huán)境中的安全性和可靠性。未來,通過進一步優(yōu)化模型和訓練方法,可以進一步提高控制器的性能,并推廣到更廣泛的自動駕駛應(yīng)用中。
三車輛仿真實驗驗證了多智能體深度強化學習在高速公路匝道入口控制中的有效性。通過精確的狀態(tài)變量描述和合理的獎勵函數(shù)設(shè)計,智能體能夠?qū)W到有效的控制策略,并在復雜交通環(huán)境中表現(xiàn)出較高的安全性和穩(wěn)健性。這為實現(xiàn)全自動駕駛提供了重要的理論支持和實踐基礎(chǔ)。
全場景仿真實驗
在探索多智能體深度強化學習(MA DRL)在高速公路匝道入口控制中的應(yīng)用時,研究團隊設(shè)計并實施了全場景仿真實驗。這些實驗旨在驗證在更復雜交通環(huán)境中,多車輛模型的表現(xiàn),以及所訓練控制器的性能和可靠性。
實驗設(shè)計
全場景仿真實驗?zāi)P捅热囕v仿真更加復雜,包含了兩個合并車道的車輛和多個交通車道的車輛。這種設(shè)計更加接近實際高速公路的交通狀況,旨在模擬真實環(huán)境中的多車互動與合并行為。研究團隊通過系統(tǒng)性地擴展道路場景,加入額外的交通和自合并車輛,構(gòu)建了這一多智能體場景。
實驗中的自合并車輛必須同時處理前后交通車輛的動態(tài)變化,并避免碰撞。設(shè)置的主要參數(shù)包括車道數(shù)量、車輛間距、加速度范圍和初始速度等。實驗中,所有車輛的加速度范圍仍然設(shè)置為-5至4米每秒平方(??/??2),以確保仿真結(jié)果的可比性。
控制器的訓練與性能表現(xiàn)
與三車輛仿真類似,全場景仿真實驗也采用了深度確定性策略梯度(DDPG)強化學習算法訓練控制器。在這個設(shè)置中,兩輛合并車道的自合并車輛在每一劇集的每一步都更新其神經(jīng)網(wǎng)絡(luò)控制器(NN),而所有具有反應(yīng)策略的交通車輛也在每一步更新其控制器。訓練過程中,自合并車輛和交通車輛的NN使用不同的權(quán)重參數(shù),以適應(yīng)各自的控制需求。

圖6:移動平均和累積訓練圖。平均獎勵。在7??事件附近,合并和交通車輛的加速動作都會持續(xù)選擇-5??/??的動作極限值2加速度,不考慮狀態(tài)值。
圖6顯示了前后合并車輛和交通車輛的累積獎勵和移動平均訓練圖。在訓練過程中,累積獎勵值隨著訓練的進行逐漸提高,并在達到峰值后趨于穩(wěn)定。實驗結(jié)果表明,最佳性能出現(xiàn)在訓練到4.2至4.5百萬劇集之間,訓練總計達到10百萬劇集。在達到最佳性能后,控制器的表現(xiàn)趨于穩(wěn)定,累積獎勵在一個較小的波動范圍內(nèi)保持穩(wěn)定。
值得注意的是,在訓練的早期階段,智能體的表現(xiàn)會有所波動,但總體上會逐漸提高并達到峰值。隨著訓練的進行,累積獎勵值趨于穩(wěn)定,表明智能體已經(jīng)學會了在復雜交通環(huán)境中采取合適的控制策略。
標準測試結(jié)果分析
為了評估所訓練控制器在實際交通情境中的表現(xiàn),研究團隊進行了標準測試。在測試中,使用了不同的間隙設(shè)置,包括5米、15米和25米,以模擬各種不同的初始條件和交通狀況。
測試結(jié)果表明,所訓練的控制器在不同間隙設(shè)置下的表現(xiàn)各異??傮w來看,間隙較大的情況下(例如15米和25米),自合并車輛能夠更容易地找到合適的合并時機,從而避免碰撞。在這些情況下,控制器表現(xiàn)出接近最佳的性能。然而,在間隙較小的情況下(例如5米),自合并車輛需要更加精確的控制策略才能成功合并,碰撞的風險也相對較高。

圖7:全場景碰撞測試表。恒定和隨機策略標準測試表,具有5??、15 ??和25 ??的多個間隙設(shè)置。
圖7顯示了全場景仿真中的隨機和恒定策略測試結(jié)果。在每個標準測試劇集中,交通車道的車輛使用相同的策略(恒定、反應(yīng)或隨機),以評估控制器在不同策略下的性能。測試結(jié)果表明,即使在復雜的全場景仿真中,所訓練的控制器仍能夠有效避免碰撞,并表現(xiàn)出較高的魯棒性。
在總結(jié)這些結(jié)果時,可以看出全場景仿真實驗成功驗證了多智能體深度強化學習在高速公路匝道入口控制中的應(yīng)用潛力。通過在更復雜的交通環(huán)境中進行測試,研究團隊證明了其所設(shè)計的控制器能夠在實際交通情境中保持良好的性能和穩(wěn)健性。這為進一步推廣和應(yīng)用多智能體深度強化學習技術(shù)提供了重要的理論依據(jù)和實踐經(jīng)驗。未來,通過進一步優(yōu)化模型和訓練方法,可以進一步提高控制器的性能,并推廣到更廣泛的自動駕駛應(yīng)用中。
結(jié)果與討論
在分析多智能體深度強化學習(MA DRL)在高速公路匝道入口控制中的應(yīng)用效果時,研究團隊進行了三車輛和全場景兩種仿真實驗。通過對這兩種實驗結(jié)果的比較和分析,可以深入理解不同交通情境下的控制策略及其表現(xiàn)。
三車輛仿真實驗?zāi)M的是一個較為簡單的場景,包括一輛自合并車輛和兩輛交通車輛。在這種設(shè)置中,自合并車輛僅需應(yīng)對前后兩輛交通車輛,控制策略相對單一。實驗結(jié)果顯示,自合并車輛在多數(shù)情況下能夠成功合并,避免與其他車輛發(fā)生碰撞。該實驗驗證了MA DRL在處理較簡單交通場景時的有效性。
相比之下,全場景仿真實驗包含了更多的交通車輛,情境更加復雜。兩個合并車道的車輛和多個交通車道的車輛使得控制策略的復雜性顯著增加。在這種設(shè)置中,自合并車輛不僅需要處理更多的交通車輛,還需要應(yīng)對車道內(nèi)的車輛動態(tài)變化。實驗結(jié)果表明,即使在復雜的全場景仿真中,所訓練的控制器仍然能夠有效避免碰撞,并表現(xiàn)出較高的魯棒性。
通過對比這兩種實驗可以發(fā)現(xiàn),全場景仿真實驗的控制策略更為復雜,但其結(jié)果更接近實際交通狀況。研究團隊通過系統(tǒng)性地增加交通和自合并車輛,驗證了MA DRL在更復雜環(huán)境中的應(yīng)用效果,從而證明了其在實際應(yīng)用中的潛力。
研究結(jié)果表明,多智能體深度強化學習在高速公路匝道入口控制中具有顯著的優(yōu)勢。通過訓練,智能體能夠?qū)W習到在不同交通情境下的最優(yōu)控制策略,從而提高車輛合并的成功率和安全性。特別是在復雜的全場景仿真實驗中,所訓練的控制器展示了較高的魯棒性和可靠性,這為未來自動駕駛技術(shù)的應(yīng)用提供了有力支持。
此外研究還發(fā)現(xiàn),獎勵函數(shù)的設(shè)計在智能體的學習過程中起到了關(guān)鍵作用。通過合理的獎勵和懲罰機制,可以引導智能體學習到有效的控制策略,從而最大限度地減少碰撞風險。這一發(fā)現(xiàn)為進一步優(yōu)化自動駕駛系統(tǒng)的設(shè)計提供了重要參考。
盡管研究結(jié)果令人鼓舞,但現(xiàn)有模型仍存在一些局限性,需要進一步優(yōu)化。首先,訓練過程中智能體的表現(xiàn)會出現(xiàn)波動,可能是由于隨機初始化和訓練參數(shù)設(shè)置造成的。為了提高模型的穩(wěn)定性,可以考慮使用更先進的優(yōu)化算法和參數(shù)調(diào)整方法。
當前的仿真實驗主要基于虛擬環(huán)境,雖然提供了安全、可控的測試平臺,但與實際交通環(huán)境仍有差距。未來的研究應(yīng)更多地關(guān)注真實世界中的測試和驗證,以確保所設(shè)計的控制策略在不同交通情境下都能可靠運行。
研究還可以擴展到更多維度,例如考慮不同天氣條件、道路狀況和駕駛行為對控制策略的影響。此外,進一步探索多智能體系統(tǒng)之間的協(xié)同控制,以實現(xiàn)更高效的交通流和更安全的駕駛體驗,也將是未來研究的重要方向。
總體而言,本研究通過深入分析三車輛和全場景仿真實驗,驗證了多智能體深度強化學習在高速公路匝道入口控制中的應(yīng)用效果。研究結(jié)果不僅為提升自動駕駛技術(shù)的安全性和可靠性提供了重要支持,也為未來的優(yōu)化方向和實際應(yīng)用提供了寶貴的經(jīng)驗和啟示。通過持續(xù)的研究和改進,相信多智能體深度強化學習將在自動駕駛領(lǐng)域發(fā)揮越來越重要的作用,為實現(xiàn)安全、高效的智能交通系統(tǒng)做出更大貢獻。(END)
參考資料:https://arxiv.org/pdf/2411.14593
本文轉(zhuǎn)載自 ??大噬元獸??,作者: FlerkenS

















