自動駕駛數(shù)據(jù)集管理解決方案 原創(chuàng)
自動駕駛 AI 訓(xùn)練場景智能駕駛正在重塑交通格局,為人們帶來更舒適高效的駕駛體驗。當(dāng)下,智能駕駛?cè)诤狭讼冗M的傳感技術(shù)、大數(shù)據(jù)和人工智能算法,為了確保車輛能夠在各種復(fù)雜環(huán)境中安全、高效地運行,智能駕駛 AI 訓(xùn)練涉及大量的數(shù)據(jù)處理、算法開發(fā)和模型訓(xùn)練。

自動駕駛技術(shù)的發(fā)展離不開海量且高質(zhì)量的數(shù)據(jù)集,而數(shù)據(jù)集的質(zhì)量和一致性管理則是推進這一領(lǐng)域發(fā)展的關(guān)鍵。dgp(Dataset Governance Policy)項目正是為此而生,它為Toyota Research Institute(TRI)的自動駕駛數(shù)據(jù)集提供了可追蹤性、可再現(xiàn)性和標(biāo)準(zhǔn)化管理的解決方案。
dgp 是一個開源項目,旨在為自動駕駛數(shù)據(jù)集的創(chuàng)建、管理和使用制定一套統(tǒng)一的規(guī)范。通過編碼化的數(shù)據(jù)模式(schema)和維護策略,dgp 確保了所有數(shù)據(jù)集的一致性和高效性,這對于機器學(xué)習(xí)模型的訓(xùn)練和評估至關(guān)重要。

自動駕駛數(shù)據(jù)可以分為四大類:
自動駕駛車輛產(chǎn)生的數(shù)據(jù)首先是 原始數(shù)據(jù)。主要是傳感器數(shù)據(jù)、車輛自身數(shù)據(jù)、駕駛行為數(shù)據(jù)等。這些數(shù)據(jù)的特點是數(shù)據(jù)量極大、類型多樣、以非結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)為主。無論對存儲、傳輸、處理都構(gòu)成比較大的挑戰(zhàn)。
為了在深度學(xué)習(xí)中使用數(shù)據(jù),我們還需要大量 標(biāo)注數(shù)據(jù)。主要有紅綠燈數(shù)據(jù)集,障礙物數(shù)據(jù)集(2D、3D),語義分割數(shù)據(jù)集,自由空間數(shù)據(jù)集,行為預(yù)測數(shù)據(jù)集等等。
為了刻畫自動駕駛行為,我們還需要將數(shù)據(jù)抽象成 邏輯數(shù)據(jù)。主要是完美感知數(shù)據(jù),環(huán)境抽象數(shù)據(jù),車輛動力學(xué)模型等。
最后,我們會用為仿真構(gòu)建 仿真數(shù)據(jù),主要是參數(shù)模糊化數(shù)據(jù),三維重建數(shù)據(jù),互動行為數(shù)據(jù)等。

數(shù)據(jù)平臺是支撐智能汽車的“云 + 端”研發(fā)迭代新模式的核心平臺。
由數(shù)據(jù)采集與傳輸,自動駕駛數(shù)據(jù)倉庫,自動駕駛計算平臺三個部分構(gòu)成。
首先是數(shù)據(jù)采集與傳輸部分。使用 Data-Recorder 會按 Apollo 數(shù)據(jù)規(guī)范產(chǎn)生,完整的、精確記錄的數(shù)據(jù)包,可以完成問題復(fù)現(xiàn),也同時完成數(shù)據(jù)積累。通過傳輸接口,可以將數(shù)據(jù)高效地傳輸?shù)竭\營點和云集群中。
接著是自動駕駛數(shù)據(jù)倉庫部分,會將全部海量數(shù)據(jù)成體系地組織在一起,快速搜索,靈活使用,為數(shù)據(jù)流水線和各業(yè)務(wù)應(yīng)用提供數(shù)據(jù)支撐。
自動駕駛計算平臺部分,基于云資源異構(gòu)計算硬件提供超強算力,通過細粒度容器調(diào)度提供多種計算模型,來支撐起各業(yè)務(wù)應(yīng)用。如訓(xùn)練平臺、仿真平臺、車輛標(biāo)定平臺等等。

以百度Apollo為例, 開源數(shù)據(jù)集分為以下三大部分:
- 標(biāo)注數(shù)據(jù)集,包括 6 部分?jǐn)?shù)據(jù)集:激光點云障礙物檢測分類,紅綠燈檢測,Road Hackers,基于圖像的障礙物檢測分類,障礙物軌跡預(yù)測,場景解析。
- 演示數(shù)據(jù)集,包括車載系統(tǒng)演示數(shù)據(jù),標(biāo)定演示數(shù)據(jù),端到端演示數(shù)據(jù),自定位模塊演示數(shù)據(jù);
- 仿真數(shù)據(jù)集,包括自動駕駛虛擬場景和實際道路真實場景;
除開放數(shù)據(jù)外,還配套開放云端服務(wù),包括數(shù)據(jù)標(biāo)注平臺,訓(xùn)練學(xué)習(xí)平臺以及仿真平臺和標(biāo)定平臺,為 Apollo 開發(fā)者提供一整套數(shù)據(jù)計算能力的解決方案,加速迭代創(chuàng)新。

數(shù)據(jù)開放平臺的首頁由幾個小節(jié)構(gòu)成,分別是仿真場景數(shù)據(jù)、標(biāo)注數(shù)據(jù)、演示數(shù)據(jù)、相關(guān)產(chǎn)品與服務(wù)、上傳我的數(shù)據(jù)。
開發(fā)者可以直接使用 Apollo 已經(jīng)開放的數(shù)據(jù),也可以通過 Apollo 的 Data-Recorder 記錄數(shù)據(jù)上傳到云上使用。
通過選擇特定數(shù)據(jù),可以進入特定數(shù)據(jù)的應(yīng)用。
開發(fā)者可以在標(biāo)定平臺中標(biāo)定車輛參數(shù),通過上傳數(shù)據(jù),申請數(shù)據(jù)加工,使用數(shù)據(jù)標(biāo)注服務(wù),在訓(xùn)練平臺中訓(xùn)練 Model,將前幾步應(yīng)用平臺的結(jié)果合并到 Github 的 Apollo 代碼中,將編譯結(jié)果或源碼提交到仿真平臺中完成評估,這樣就通過“云 + 端”完成了自有車載系統(tǒng)的研發(fā)迭代。
接下來是標(biāo)注數(shù)據(jù)。

標(biāo)注數(shù)據(jù)是為滿足深度學(xué)習(xí)訓(xùn)練需求,經(jīng)人工標(biāo)注而生成的數(shù)據(jù),目前我們開放了多種標(biāo)注數(shù)據(jù),同時在云端配套提供相應(yīng)的計算能力,供開發(fā)者在云端訓(xùn)練算法,提升算法迭代效率。
Apollo 開放了 6 個標(biāo)注數(shù)據(jù)集和社區(qū)中比較流行的算法,以便開發(fā)者調(diào)試云端環(huán)境:
- 激光點云障礙物檢測分類,我們提供基于規(guī)則算法的 Demo(傳統(tǒng)機器學(xué)習(xí));
- 紅綠燈檢測,我們提供基于SSD 算法的 Demo(Paddle、Caffe);
- Road Hackers,我們提供基于 CNN+LSTM 的 Demo(Keras、TensorFlow);
- 基于圖像的障礙物檢測分類我們提供基于 SSD 算法的 Demo(Caffe);
- 障礙物軌跡預(yù)測,我們提供基于 MLP 算法的 Demo(TensorFlow);
- 場景解析
綜上所述,開發(fā)者可以在標(biāo)定平臺中標(biāo)定車輛參數(shù),通過上傳數(shù)據(jù),申請數(shù)據(jù)加工,使用數(shù)據(jù)標(biāo)注服務(wù),在訓(xùn)練平臺中訓(xùn)練 Model,將前幾步應(yīng)用平臺的結(jié)果合并到 Github 的 Apollo 代碼中,將編譯結(jié)果或源碼提交到仿真平臺中完成評估,這樣就通過“云 + 端”完成了自有車載系統(tǒng)的研發(fā)迭代。
本文轉(zhuǎn)載自?????數(shù)字化助推器????? 作者:天涯咫尺TGH

















