英偉達開源15T數據集:32萬個機器人訓練軌跡
全球AI領導者英偉達開源了,用于實體機器人和自動化駕駛的超大訓練數據合集——NVIDIA Physical AI Dataset。
這個數據集一共15T,涵蓋了超過320,000個機器人訓練軌跡,以及多達1,000個通用場景描述,還包括一個SimReady集合。
此外,用于支持端到端自動駕駛汽車(AV)開發的專用數據即將推出,這些數據將包括來自美國1,000多個城市和歐洲二十多個國家的多樣化交通場景的20秒剪輯,這對于訓練自動化駕駛非常珍貴。

開源地址:??https://huggingface.co/collections/nvidia/physical-ai-67c643edbb024053dcbcd6d8??
Physical AI Dataset包含NVIDIA用于訓練、測試和驗證物理AI的真實世界和合成數據的一個子集,這些數據用于NVIDIA Cosmos世界模型開發平臺、NVIDIA DRIVE AV軟件棧、NVIDIA Isaac AI機器人開發平臺以及NVIDIA Metropolis智能城市應用框架。
能夠幫助開發者在預訓練階段擴展AI性能,因為更多的數據有助于構建更健壯的模型;同時,在后訓練階段,AI模型通過在額外數據上訓練來提高其針對特定用例的性能。
收集、策劃和注釋一個涵蓋多樣化場景并準確表示現實世界物理和變化的數據集是耗時的,這成為了大多數開發者的瓶頸。

對于學術研究人員和小型企業來說,運行一個車隊數月以收集自動駕駛汽車AI的數據是不切實際且成本高昂的,而且由于收集到的大部分鏡頭都是平淡無奇的,通常只有10%的數據被用于訓練。但這種規模的數據收集對于構建安全、準確、商業級模型是必不可少。
例如,NVIDIA Isaac GR00T機器人模型需要數千小時的視頻剪輯進行后訓練,而NVIDIA DRIVE AV端到端AI模型則需要數萬小時的駕駛數據來開發。
該數據集還包含了數千小時的多攝像頭視頻,其多樣性和地理覆蓋范圍是前所未有的,它將特別有利于安全研究領域,通過支持新的工作來識別異常值和評估模型泛化性能。這一努力也對NVIDIA Halos的全棧自動駕駛安全系統做出了貢獻。
除了利用NVIDIA Physical AI Dataset來滿足他們的數據需求外,開發者還可以通過像NVIDIA NeMo Curator這樣的工具進一步提升AI開發,這些工具可以高效地處理大量數據集以進行模型訓練和定制。使用NeMo Curator,在NVIDIA Blackwell GPU上僅需兩周時間就能處理2,000萬小時的視頻,相比之下,未優化的CPU管道則需要3.4年。
目前,已經有很多著名機構使用該數據集來訓練AI產品,在圣地亞哥加州大學的機器人實驗室中,包括專注于醫療應用、人形機器人和家庭輔助技術的團隊,通過該數據集的機器人數據可以幫助開發能夠理解空間上下文的語義AI模型,例如家庭、酒店房間和醫院。

在自動駕駛汽車領域,圣地亞哥實驗室將該數據集應用于訓練AI模型,以理解各種道路使用者的意圖,并預測最佳行動方案。還可以使用該數據集來支持開發數字孿生模型,模擬邊緣案例和惡劣天氣條件。這些模擬可以用于在現實世界環境中罕見的情況下訓練和測試自動駕駛模型。
在伯克利深度駕駛中心,這是一個領先的自動駕駛系統AI研究中心,該數據集可以支持開發自動駕駛汽車的策略模型和世界基礎模型。
卡內基梅隆大學安全AI實驗室的研究人員計劃使用該數據集,來推進他們評估和認證自動駕駛汽車安全性的研究工作。該團隊計劃測試在該數據集上訓練的物理AI基礎模型在模擬環境中罕見條件下的表現,并將其性能與在現有數據集上訓練的自動駕駛汽車模型進行比較。
英偉達表示,未來將繼續擴展Physical AI Dataset,將其建設成世界最大、統一的開源數據集,可用于AI模型、醫療、自動化駕駛等不同領域,加速AI、實體機器人的訓練效率。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區

















