行人軌跡預(yù)測有哪些有效的方法和普遍的Base方法?頂會(huì)論文分享!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
軌跡預(yù)測近兩年風(fēng)頭正猛,但大都聚焦于車輛軌跡預(yù)測方向,自動(dòng)駕駛之心今天就為大家分享頂會(huì)NeurIPS上關(guān)于行人軌跡預(yù)測的算法—SHENet,在受限場景中人類的移動(dòng)模式通常在一定程度上符合有限的規(guī)律。基于這個(gè)假設(shè),SHENet通過學(xué)習(xí)隱含的場景規(guī)律來預(yù)測一個(gè)人的未來軌跡。文章已經(jīng)授權(quán)自動(dòng)駕駛之心原創(chuàng)!
筆者的個(gè)人理解
由于人類運(yùn)動(dòng)的隨機(jī)性和主觀性,當(dāng)前預(yù)測一個(gè)人的未來軌跡仍然是一個(gè)具有挑戰(zhàn)性的問題。 然而,由于場景限制(例如平面圖、道路和障礙物)以及人與人或人與物體的交互性,在受限場景中人類的移動(dòng)模式通常在一定程度上符合有限的規(guī)律。因此,在這種情況下,個(gè)人的軌跡也應(yīng)該遵循其中一個(gè)規(guī)律。換句話說,一個(gè)人后來的軌跡很可能已經(jīng)被其他人走過了。基于這個(gè)假設(shè),本文的算法(SHENet)通過學(xué)習(xí)隱含的場景規(guī)律來預(yù)測一個(gè)人的未來軌跡。具體來說我們將場景中人和環(huán)境的過去動(dòng)態(tài)所固有的規(guī)律性稱為場景歷史。進(jìn)而將場景歷史信息分為兩類:歷史群體軌跡和個(gè)體與環(huán)境的交互。為了利用這兩種類型的信息進(jìn)行軌跡預(yù)測,本文提出了一種新穎的框架場景歷史挖掘網(wǎng)絡(luò)(SHENet),其中以簡單而有效的方法利用場景歷史。特別是設(shè)計(jì)的兩個(gè)組件:群體軌跡庫模塊,用于提取代表性群體軌跡作為未來路徑的候選者;交叉模態(tài)交互模塊,用于對(duì)個(gè)體過去軌跡與其周圍環(huán)境之間的交互進(jìn)行建模,以進(jìn)行軌跡細(xì)化。 此外為了減輕由上述人體運(yùn)動(dòng)的隨機(jī)性和主觀性引起的真值軌跡的不確定性,SHENet將平滑度納入訓(xùn)練過程和評(píng)估指標(biāo)中。 最終我們?cè)诓煌瑢?shí)驗(yàn)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,與SOTA方法相比,展示了卓越的性能。
介紹
人類軌跡預(yù)測(HTP)旨在從視頻片段中預(yù)測目標(biāo)人的未來路徑。 這對(duì)于智能交通至關(guān)重要,因?yàn)樗管囕v能夠提前感知行人的狀態(tài),從而避免潛在的碰撞。 具有HTP功能的監(jiān)控系統(tǒng)可以協(xié)助安全人員預(yù)測嫌疑人可能的逃跑路徑。 盡管近年來已經(jīng)做了很多工作,但很少有足夠可靠和可推廣到現(xiàn)實(shí)世界場景中的應(yīng)用,這主要是由于任務(wù)的兩個(gè)挑戰(zhàn):隨機(jī)性和人體運(yùn)動(dòng)的主觀性。 然而,在受限的現(xiàn)實(shí)世界場景中,挑戰(zhàn)并非絕對(duì)棘手。 如圖 1 所示,給定該場景中先前捕獲的視頻,目標(biāo)人的未來軌跡(紅色框)變得更加可預(yù)測,因?yàn)槿祟惖囊苿?dòng)模式通常符合該場景中目標(biāo)人將遵循的幾個(gè)基本規(guī)律。 因此,要預(yù)測軌跡,我們首先需要了解這些規(guī)律。 我們認(rèn)為,這些規(guī)律性隱含地編碼在歷史人類軌跡(圖 1 左)、個(gè)體過去的軌跡、周圍環(huán)境以及它們之間的相互作用(圖 1 右)中,我們將其稱為場景歷史。

圖 1:利用場景歷史的示意圖:歷史群體軌跡和個(gè)體環(huán)境交互,用于人類軌跡預(yù)測。
我們將歷史信息分為兩類:歷史群體軌跡(HGT)和個(gè)體與環(huán)境相互作用(ISI)。 HGT是指一個(gè)場景中所有歷史軌跡的群體代表。 使用HGT的原因是,鑒于場景中的新目標(biāo)人,由于上述隨機(jī)性,他/她的路徑更有可能與其中一個(gè)群體軌跡比歷史軌跡的任何單個(gè)實(shí)例具有更多相似性、主觀性、規(guī)律性。 然而,群體軌跡與個(gè)體過去的狀態(tài)和相應(yīng)環(huán)境的相關(guān)性較小,也會(huì)影響個(gè)體未來的軌跡。 ISI 需要通過提取上下文信息來更全面地利用歷史信息。 現(xiàn)有的方法很少考慮個(gè)體過去軌跡和歷史軌跡之間的相似性。 大多數(shù)嘗試僅探索個(gè)體與環(huán)境的交互,其中花費(fèi)了大量精力對(duì)個(gè)體軌跡、環(huán)境的語義信息以及它們之間的關(guān)系進(jìn)行建模。 盡管MANTRA使用以重構(gòu)方式訓(xùn)練的編碼器來對(duì)相似性進(jìn)行建模,而 MemoNet通過存儲(chǔ)歷史軌跡的意圖來簡化相似性,但它們都在實(shí)例級(jí)別而不是組級(jí)別上執(zhí)行相似性計(jì)算,從而使其對(duì)受過訓(xùn)練的編碼器的能力敏感。 基于上述分析,我們提出了一個(gè)簡單而有效的框架,場景歷史挖掘網(wǎng)絡(luò)(SHENet),聯(lián)合利用 HGT 和 ISI 進(jìn)行 HTP。 特別是,該框架由兩個(gè)主要組成部分組成:(i)群體軌跡庫(GTB)模塊,以及(ii)跨模式交互(CMI)模塊。 GTB從所有歷史個(gè)體軌跡中構(gòu)建代表性群體軌跡,并為未來軌跡預(yù)測提供候選路徑。 CMI 對(duì)觀察到的個(gè)體軌跡和周圍環(huán)境分別進(jìn)行編碼,并使用跨模態(tài)轉(zhuǎn)換器對(duì)它們的交互進(jìn)行建模,以細(xì)化搜索到的候選軌跡。
此外,為了減輕上述兩個(gè)特征(即隨機(jī)性和主觀性)的不確定性,我們?cè)谟?xùn)練過程和當(dāng)前評(píng)估指標(biāo),平均和最終位移誤差(即 ADE 和 FDE)中引入曲線平滑(CS),從而得到兩個(gè)新指標(biāo) CS-ADE 和 CS-FDE。 此外,為了促進(jìn) HTP 研究的發(fā)展,我們收集了一個(gè)具有不同運(yùn)動(dòng)模式的新的具有挑戰(zhàn)性的數(shù)據(jù)集,名為 PAV。 該數(shù)據(jù)集是通過從 MOT15 數(shù)據(jù)集中選擇具有固定攝像機(jī)視圖和復(fù)雜人體運(yùn)動(dòng)的視頻來獲得的。
這項(xiàng)工作的貢獻(xiàn)可以總結(jié)如下:1)我們引入群體歷史來搜索 HTP 的個(gè)體軌跡。 2)我們提出了一個(gè)簡單而有效的框架,SHENet,聯(lián)合利用兩種類型的場景歷史(即歷史群體軌跡和個(gè)體與環(huán)境的交互)進(jìn)行HTP。 3)我們構(gòu)建了一個(gè)新的具有挑戰(zhàn)性的數(shù)據(jù)集PAV; 此外,考慮到人類移動(dòng)模式的隨機(jī)性和主觀性,提出了一種新穎的損失函數(shù)和兩種新的指標(biāo),以實(shí)現(xiàn)更好的基準(zhǔn) HTP 性能。 4)我們對(duì)ETH、UCY和PAV進(jìn)行了全面的實(shí)驗(yàn),以證明SHENet的優(yōu)越性能以及每個(gè)組件的功效。
相關(guān)工作
單模態(tài)方法 單模態(tài)方法依賴于從過去的軌跡中學(xué)習(xí)個(gè)體運(yùn)動(dòng)的規(guī)律性來預(yù)測未來的軌跡。 例如,Social LSTM通過social pooling模塊對(duì)個(gè)體軌跡之間的交互進(jìn)行建模。 STGAT使用注意力模塊來學(xué)習(xí)空間交互并為鄰居分配合理的重要性。 PIE 使用時(shí)間注意力模塊來計(jì)算每個(gè)時(shí)間步觀察到的軌跡的重要性。
多模態(tài)方法 此外,多模態(tài)方法還考察了環(huán)境信息對(duì) HTP 的影響。 SS-LSTM提出了一個(gè)場景交互模塊來捕獲場景的全局信息。 Trajectron++使用圖結(jié)構(gòu)對(duì)軌跡進(jìn)行建模,并與環(huán)境信息和其他個(gè)體進(jìn)行交互。 MANTRA利用外部存儲(chǔ)器來建模長期依賴關(guān)系。 它將歷史單智能體軌跡存儲(chǔ)在內(nèi)存中,并對(duì)環(huán)境信息進(jìn)行編碼,以從該內(nèi)存中細(xì)化搜索到的軌跡。
與之前工作的區(qū)別 單模態(tài)和多模態(tài)方法都使用場景歷史的單個(gè)或部分方面,而忽略歷史組軌跡。 在我們的工作中,我們以更全面的方式整合場景歷史信息,并提出專用模塊來分別處理不同類型的信息。 我們的方法與之前的工作,特別是基于內(nèi)存的方法和基于聚類的方法之間的主要區(qū)別如下:i)MANTRA 和MemoNet 考慮歷史個(gè)體軌跡,而我們提出的SHENet關(guān)注歷史群體軌跡,這在不同場景下更具有普遍性。 ii) 還有一部分工作將人-鄰居分組以進(jìn)行軌跡預(yù)測;將軌跡聚類為固定數(shù)量的類別以進(jìn)行軌跡分類; 我們的 SHENet 生成代表性軌跡作為個(gè)人軌跡預(yù)測的參考。
方法
整體介紹
所提出的場景歷史挖掘網(wǎng)絡(luò)(SHENet)的架構(gòu)如圖 2 所示,它由兩個(gè)主要組件組成:群組軌跡庫模塊(GTB)和交叉模態(tài)交互模塊(CMI)。 形式上,給定該場景的觀察視頻中的所有軌跡 、 場景圖像以及目標(biāo)人 在最后時(shí)間步中的過去軌跡,其中表示第 p 個(gè)人在時(shí)間步 t 的位置, SHENet 要求預(yù)測行人在接下來的幀中的未來位置,使得盡可能接近真值軌跡。 提出的 GTB 首先將 壓縮為代表群體軌跡。 然后,將觀測到的軌跡作為key,在中搜索最接近的代表群體軌跡,作為候選未來軌跡 。 同時(shí),將過去的軌跡和場景圖像分別傳到軌跡編碼器和場景編碼器,以分別產(chǎn)生軌跡特征和場景特征。 編碼后的特征被輸入到交叉模態(tài)transformer中,以學(xué)習(xí)和真值軌跡之間的偏移 。 通過將 添加到 ,我們得到最終的預(yù)測 。 在訓(xùn)練階段,如果到的距離高于閾值,則人的軌跡(即和)將被添加到軌跡庫中。 訓(xùn)練完成后,bank被固定用于推理。

圖 2:SHENet 的架構(gòu)由兩個(gè)組件組成:群組軌跡庫模塊 (GTB) 和跨模態(tài)交互模塊 (CMI)。 GTB將所有歷史軌跡聚類成一組代表性組軌跡,并為最終軌跡預(yù)測提供候選。 在訓(xùn)練階段,GTB可以根據(jù)預(yù)測軌跡的誤差,將目標(biāo)人的軌跡納入群體軌跡庫中,以擴(kuò)展表達(dá)能力。 CMI將目標(biāo)人的過去軌跡和觀察到的場景分別作為軌跡編碼器和場景編碼器的輸入進(jìn)行特征提取,然后通過跨模態(tài)轉(zhuǎn)換器有效地對(duì)過去軌跡與其周圍環(huán)境之間的交互進(jìn)行建模并進(jìn)行細(xì)化提供候選軌跡。

圖 3:交叉模態(tài)transformer圖示。 軌跡特征和場景特征被輸入到交叉模態(tài)transformer中,以學(xué)習(xí)搜索軌跡和真值軌跡之間的偏移。
群組軌跡庫模
群體軌跡庫模塊(GTB)用于構(gòu)建場景中具有代表性的群體軌跡。 GTB的核心功能是bank初始化、軌跡搜索和軌跡更新。
軌跡庫初始化 由于大量記錄的軌跡存在冗余,我們不是簡單地使用它們,而是生成一組稀疏且有代表性的軌跡作為軌跡庫的初始值。 具體來說,我們將訓(xùn)練數(shù)據(jù)中的軌跡表示為 并將每個(gè) 分成一對(duì)觀測軌跡 和未來軌跡 ,從而將 分成觀測集 以及相應(yīng)的未來集合 。 然后,我們計(jì)算,中每對(duì)軌跡之間的歐氏距離,并通過K-medoids聚類算法獲得軌跡簇。 的初始成員是屬于同一集群的軌跡的平均值(參見算法 1,步驟 1)。中的每條軌跡都代表了一群人的移動(dòng)模式。
軌跡搜索和更新 在組軌跡庫中,每個(gè)軌跡都可以被視為過去-未來對(duì)。 在數(shù)值上, ,其中 代表過去軌跡和未來軌跡的組合, 是 中過去未來對(duì)的數(shù)量。 給定軌跡 ,我們使用觀察到的 作為關(guān)鍵來計(jì)算其與 中過去軌跡 的相似度得分,并找到代表性軌跡 根據(jù)最大相似度得分(參見算法 1,步驟 2)。 相似度函數(shù)可以表示為:

通過將偏移量 (參見公式 2)添加到代表性軌跡 中,我們獲得了被觀察者的預(yù)測軌跡 (參見圖 2)。 雖然初始軌跡庫在大多數(shù)情況下效果很好,但為了提高庫 的泛化性(參見算法 1,步驟 3),我們根據(jù)距離閾值 θ 決定是否更新 。
跨模態(tài)交互模塊
該模塊重點(diǎn)關(guān)注個(gè)體過去軌跡與環(huán)境信息之間的交互。 它由兩個(gè)單模態(tài)編碼器組成,分別用于學(xué)習(xí)人體運(yùn)動(dòng)和場景信息,以及一個(gè)跨模態(tài)轉(zhuǎn)換器來建模它們的交互。
軌跡編碼器 軌跡編碼器采用來自 Transformer 網(wǎng)絡(luò) 的多頭注意力結(jié)構(gòu),其具有 自注意力(SA)層。 SA 層以 的大小捕獲不同時(shí)間步長的人體運(yùn)動(dòng),并將運(yùn)動(dòng)特征從維度 投影到 ,其中 是軌跡編碼器的嵌入維度。 因此,我們使用軌跡編碼器獲得人體運(yùn)動(dòng)表示:。
場景編碼器 由于預(yù)訓(xùn)練的 Swin Transformer在特征表示方面具有引人注目的性能,我們采用它作為場景編碼器。 它提取大小為 的場景語義特征,其中 (預(yù)訓(xùn)練場景編碼器中的 )是語義類的數(shù)量,例如人和道路, 和 是空間分辨率。 為了使后續(xù)模塊能夠方便地融合運(yùn)動(dòng)表示和環(huán)境信息,我們將語義特征從大小()重改為(),并通過多層感知層將它們從維度()投影到() 。 結(jié)果,我們使用場景編碼器 獲得場景表示 。
交叉模態(tài)Transformer 單模態(tài)編碼器從其自身模態(tài)中提取特征,忽略人體運(yùn)動(dòng)和環(huán)境信息之間的相互作用。 具有 層的交叉模態(tài)transformer旨在通過學(xué)習(xí)這種交互來細(xì)化候選軌跡 (參見第 3.2 節(jié))。 我們采用雙流結(jié)構(gòu):一個(gè)用于捕獲受環(huán)境信息約束的重要人體運(yùn)動(dòng),另一個(gè)用于挑選與人體運(yùn)動(dòng)相關(guān)的環(huán)境信息。 交叉注意 (CA) 層和自注意 (SA) 層是跨模態(tài)轉(zhuǎn)換器的主要組成部分(見圖 3)。 為了捕獲受環(huán)境影響的重要人體運(yùn)動(dòng)并獲取與運(yùn)動(dòng)相關(guān)的環(huán)境信息,CA層將一種模態(tài)視為query,將另一種模態(tài)視為與兩種模態(tài)交互的key和value。SA 層用于促進(jìn)更好的內(nèi)部連接,計(jì)算場景約束運(yùn)動(dòng)或運(yùn)動(dòng)相關(guān)環(huán)境信息中元素(query)與其他元素(key)之間的相似性。 因此,我們通過交叉模態(tài)transformer 獲得多式聯(lián)運(yùn)表示()。 為了預(yù)測搜索軌跡 和真實(shí)軌跡 之間的偏移 ,我們采用 的最后一個(gè)元素 (LE) 和全局池化層 (GPL) 之后的輸出 的 。 偏移量 可以表述如下:

其中 [; ] 表示向量串聯(lián),MLP 為多層感知層。
我們端到端地訓(xùn)練 SHENet 的整體框架,以最小化目標(biāo)函數(shù)。 在訓(xùn)練過程中,由于場景編碼器已經(jīng)在ADE20K 上進(jìn)行了預(yù)訓(xùn)練,因此我們凍結(jié)其分割部分并更新MLP頭的參數(shù)(參見第3.3節(jié))。 遵循現(xiàn)有的工作,我們計(jì)算了 ETH/UCY 數(shù)據(jù)集上的預(yù)測軌跡與真值軌跡之間的均方誤差(MSE): 。
在更具挑戰(zhàn)性的 PAV 數(shù)據(jù)集中,我們使用曲線平滑(CS)回歸損失,這有助于減少個(gè)體偏差的影響。 它計(jì)算軌跡平滑后的 MSE。 CS損失可以表述如下:
其中CS代表曲線平滑的函數(shù)[2]。

實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集 我們?cè)?ETH、UCY 、PAV 和斯坦福無人機(jī)數(shù)據(jù)集 (SDD)數(shù)據(jù)集上評(píng)估我們的方法。單模態(tài)方法僅關(guān)注軌跡數(shù)據(jù),然而,多模態(tài)方法需要考慮場景信息。
與 ETH/UCY 數(shù)據(jù)集相比,PAV 更具挑戰(zhàn)性,具有多種運(yùn)動(dòng)模式,包括 PETS09-S2L1 (PETS) 、ADL-Rundle-6 (ADL) 和 Venice-2 (VENICE),這些數(shù)據(jù)被捕獲來自靜態(tài)攝像機(jī)并為 HTP 任務(wù)提供足夠的軌跡。 我們將視頻分為訓(xùn)練集(80%)和測試集(20%),PETS/ADL/VENICE 分別包含 2,370/2,935/4,200 個(gè)訓(xùn)練序列和 664/306/650 個(gè)測試序列。 我們使用 個(gè)觀察幀來預(yù)測未來 幀,這樣我們就可以比較不同方法的長時(shí)預(yù)測結(jié)果。
與 ETH/UCY 和 PAV 數(shù)據(jù)集不同,SDD 是在大學(xué)校園中鳥瞰捕獲的大規(guī)模數(shù)據(jù)集。 它由多個(gè)交互主體(例如行人、騎自行車的人和汽車)和不同的場景(例如人行道和十字路口)組成。 按照之前的工作,我們使用過去的 8 幀來預(yù)測未來的 12 幀。

圖 4:我們提出的指標(biāo) CS-ADE 和 CS-FDE 的圖示。

圖 5:曲線平滑后一些樣本的可視化。
評(píng)估指標(biāo) 對(duì)于ETH和UCY數(shù)據(jù)集,我們采用HTP的標(biāo)準(zhǔn)指標(biāo):平均位移誤差(ADE)和最終位移誤差(FDE)。 ADE 是所有時(shí)間步上預(yù)測軌跡與真值軌跡之間的平均 誤差,F(xiàn)DE 是最終時(shí)間步預(yù)測軌跡與真值軌跡之間的 誤差。 PAV 中的軌跡存在一些抖動(dòng)現(xiàn)象(例如急轉(zhuǎn)彎)。 因此,合理的預(yù)測可能會(huì)產(chǎn)生與使用傳統(tǒng)指標(biāo) ADE 和 FDE 進(jìn)行不切實(shí)際的預(yù)測大致相同的誤差(見圖 7(a))。 為了關(guān)注軌跡本身的模式和形狀,并減少隨機(jī)性和主觀性的影響,我們提出了CS-Metric:CS-ADE和CS-FDE(如圖4所示)。 CS-ADE 計(jì)算如下:

其中CS是曲線平滑函數(shù),定義與3.4節(jié)中的Lcs相同。 與CS-ADE類似,CS-FDE計(jì)算軌跡平滑后的最終位移誤差:

圖 5 顯示了訓(xùn)練數(shù)據(jù)中的一些樣本,將粗糙的真值軌跡轉(zhuǎn)換為平滑的軌跡。
實(shí)現(xiàn)細(xì)節(jié) 在SHENet中,組軌跡庫的初始大小設(shè)置為。 軌跡編碼器和場景編碼器都有 4 個(gè)自注意力(SA)層。 跨模態(tài) Transformer 有 6 個(gè) SA 層和交叉注意(CA)層。 我們將所有嵌入維度設(shè)置為 512。對(duì)于軌跡編碼器,它學(xué)習(xí)大小為 的人體運(yùn)動(dòng)信息(ETH/UCY 中 ,PAV 中 )。 對(duì)于場景編碼器,它輸出大小為 150 × 56 × 56 的語義特征。我們將大小從 150 × 56 × 56 改為 150 × 3136,并將它們從維度 150 × 3136 投影到 150 × 512。我們訓(xùn)練 在 4 個(gè) NVIDIA Quadro RTX 6000 GPU 上建立 100 個(gè)周期的模型,并使用固定學(xué)習(xí)率 1e ? 5 的 Adam 優(yōu)化器。
消融實(shí)驗(yàn)
在表 1 中,我們?cè)u(píng)估了 SHENet 的每個(gè)組件,包括組軌跡庫(GTB)模塊和跨模態(tài)交互(CMI)模塊,該模塊包含軌跡編碼器(TE)、場景編碼器(SE)和跨模態(tài)交互(CMI)模塊。

GTB 的影響 我們首先研究 GTB 的性能。 與 CMI(即 TE、SE 和 CMT)相比,GTB 在 PETS 上的 FDE 提高了 21.2%,這是一個(gè)顯著的改進(jìn),說明了 GTB 的重要性。 然而,僅靠 GTB(表 1 第 1 行)是不夠的,甚至比 CMI 的表現(xiàn)還要差一些。 因此,我們探討了CMI模塊中各個(gè)部分的作用。TE 和 SE 的影響 為了評(píng)估 TE 和 SE 的性能,我們將從 TE 中提取的軌跡特征和從 SE 中提取的場景特征連接在一起(表 1 中的第 3 行),并以較小的運(yùn)動(dòng)提高 ADL 和 VENICE 的性能(與 單獨(dú)使用 TE。 這表明將環(huán)境信息納入軌跡預(yù)測可以提高結(jié)果的準(zhǔn)確性。CMT 的效果 與表 1 的第三行相比,CMT(表 1 的第 4 行)可以顯著提高模型性能。 值得注意的是,它的性能優(yōu)于 PETS 上串聯(lián)的 TE 和 SE,ADE 提高了 7.4%。 與單獨(dú)的 GTB 相比,完整的 CMI 比 ADE 平均提高了 12.2%。
與SOTA比較
在 ETH/UCY 數(shù)據(jù)集上,將我們的模型與最先進(jìn)的方法進(jìn)行比較:SS-LSTM、Social-STGCN、MANTRA、AgentFormer、YNet。 結(jié)果總結(jié)在表 2 中。我們的模型將平均 FDE 從 0.39 降低到 0.36,與最先進(jìn)的方法 YNet 相比,提高了 7.7%。 特別是,當(dāng)軌跡發(fā)生較大移動(dòng)時(shí),我們的模型在 ETH 上顯著優(yōu)于以前的方法,其 ADE 和 FDE 分別提高了 12.8% 和 15.3%。
表 2:ETH/UCY 數(shù)據(jù)集上最先進(jìn) (SOTA) 方法的比較。 * 表示我們使用比單模態(tài)方法更小的集合。 采用前20中最好的方式進(jìn)行評(píng)估。

表 3:在 PAV 數(shù)據(jù)集上與 SOTA 方法的比較。

為了評(píng)估我們的模型在長期預(yù)測中的性能,我們?cè)?PAV 上進(jìn)行了實(shí)驗(yàn),其中每條軌跡 個(gè)觀察幀, 個(gè)未來幀。 表 3 顯示了與之前的 HTP 方法的性能比較:SS-LSTM、Social-STGCN、Next、MANTRA、YNet。 與 YNet 的最新結(jié)果相比,所提出的 SHENet CS-ADE 和 CS-FDE 平均分別提高了 3.3% 和 10.5%。 由于 YNet 預(yù)測軌跡的熱圖,因此當(dāng)軌跡有小幅運(yùn)動(dòng)時(shí)(例如 VENICE),它的表現(xiàn)會(huì)更好一些。 盡管如此,我們的方法在 VENICE 中仍然具有競爭力,并且在具有較大運(yùn)動(dòng)和交叉點(diǎn)的 PETS 上比其他方法要好得多。 特別是,與 YNet 相比,我們的方法在 PETS 上將 CS-FDE 提高了 16.2%。 我們還在傳統(tǒng)的 ADE/FDE 指標(biāo)取得了巨大的進(jìn)步。
分析
距離閾值 θ θ用于確定軌跡庫的更新。 θ的典型值根據(jù)軌跡長度設(shè)定。 當(dāng)真值軌跡以像素計(jì)越長時(shí),預(yù)測誤差的絕對(duì)值通常越大。 然而,它們的相對(duì)誤差是可比的。 因此,當(dāng)誤差收斂時(shí),θ被設(shè)置為訓(xùn)練誤差的75%。 實(shí)驗(yàn)中,我們?cè)?PETS 中設(shè)置 θ = 25,在 ADL 中設(shè)置 θ = 6。 從實(shí)驗(yàn)結(jié)果得到“75%的訓(xùn)練誤差”,如表4所示。
表 4:PAV 數(shù)據(jù)集上不同參數(shù) θ 的比較。 結(jié)果是三種情況的平均值。

表 5:PAV 數(shù)據(jù)集上初始簇?cái)?shù) K 的比較。

K 中心點(diǎn)中的簇?cái)?shù) 我們研究了設(shè)置不同數(shù)量的初始簇K的效果,如表5所示。 我們可以注意到,初始簇?cái)?shù)對(duì)預(yù)測結(jié)果并不敏感,尤其是當(dāng)初始簇?cái)?shù)為 24-36 時(shí)。 因此,我們?cè)趯?shí)驗(yàn)中可以將K設(shè)置為32。
Bank復(fù)雜度分析 搜索和更新的時(shí)間復(fù)雜度分別為O(N)和O(1)。 它們的空間復(fù)雜度是O(N)。 群體軌跡數(shù)N≤1000。聚類過程的時(shí)間復(fù)雜度為ββ,空間復(fù)雜度為ββ。 β 是聚類軌跡的數(shù)量。 是聚類的數(shù)量, 是聚類方法的迭代次數(shù)。

圖 6:我們的方法和最先進(jìn)方法的定性可視化。 藍(lán)線是觀察到的軌跡。 紅線和綠線顯示預(yù)測軌跡和真實(shí)軌跡。

圖 7:不使用/使用 CS 的定性可視化。
定性結(jié)果
圖 6 展示了 SHENet 和其他方法的定性結(jié)果。 相比之下,我們驚訝地注意到,在一個(gè)人走到路邊然后折返(綠色曲線)的極具挑戰(zhàn)性的情況下,所有其他方法都不能很好地處理,而我們提出的 SHENet 仍然可以處理它。 這應(yīng)該歸功于我們專門設(shè)計(jì)的歷史群體軌跡庫模塊的作用。 此外,與基于記憶的方法 MANTRA [20] 相比,我們搜索群體的軌跡,而不僅僅是個(gè)體。 這更加通用,可以應(yīng)用于更具挑戰(zhàn)性的場景。 圖 7 包括 YNet 和我們的 SHENet 的定性結(jié)果,不帶/帶曲線平滑 (CS)。 第一行顯示使用 MSE 損失 的結(jié)果。 受過去帶有一些噪聲的軌跡(例如突然和急轉(zhuǎn)彎)的影響,YNet的預(yù)測軌跡點(diǎn)聚集在一起,不能呈現(xiàn)明確的方向,而我們的方法可以根據(jù)歷史群體軌跡提供潛在的路徑。 這兩個(gè)預(yù)測在視覺上是不同的,但數(shù)值誤差 (ADE/FDE) 大致相同。相比之下,我們提出的 CS 損失 的定性結(jié)果如圖 7 的第二行所示。可以看到,提出的 CS 顯著降低了隨機(jī)性和主觀性的影響,并通過YNet 和我們的方法產(chǎn)生了合理的預(yù)測。
結(jié)論
本文提出了 SHENet,這是一種充分利用 HTP 場景歷史的新穎方法。 SHENet 包括一個(gè) GTB 模塊,用于根據(jù)所有歷史軌跡構(gòu)建一個(gè)群體軌跡庫,并從該庫中檢索被觀察者的代表性軌跡;還包括一個(gè) CMI 模塊(在人體運(yùn)動(dòng)和環(huán)境信息之間相互作用)來細(xì)化該代表性軌跡。 我們?cè)?HTP 基準(zhǔn)上實(shí)現(xiàn)了 SOTA 性能,并且我們的方法在具有挑戰(zhàn)性的場景中展示了顯著的改進(jìn)和通用性。 然而,當(dāng)前框架中仍然存在一些尚未探索的方面,例如bank構(gòu)建過程目前僅關(guān)注人體運(yùn)動(dòng)。 未來的工作包括使用交互信息(人體運(yùn)動(dòng)和場景信息)進(jìn)一步探索軌跡庫。

原文鏈接:https://mp.weixin.qq.com/s/GE-t4LarwXJu2MC9njBInQ




























