Nature子刊 | 上交突破極限,端到端無人機高速避障,可微分物理實現
想象一下:在未知森林、城市廢墟甚至障礙密布的室內空間,一群無人機像飛鳥般快速穿梭,不依賴地圖、不靠通信、也無需昂貴設備。這一設想,如今成為現實!
上海交通大學研究團隊提出了一種融合無人機物理建模與深度學習的端到端方法,該研究首次將可微分物理訓練的策略成功部署到現實機器人中,實現了一套真正意義上的「輕量、可部署、可協同」無人機集群端到端自主導航方案,并在魯棒性、機動性上大幅領先現有的方案。:
該成果已于《Nature Machine Intelligence》在線發表,其中張宇昂碩士、胡瑜、宋運龍博士為共同第一作者,鄒丹平與林巍峣教授為通信作者。

論文地址:https://www.nature.com/articles/s42256-025-01048-0
項目地址:https://henryhuyu.github.io/DiffPhysDrone_Web/
核心理念
大道至簡
過去的無人機自主導航往往依賴:
- 高復雜度定位與建圖、軌跡規劃與生成、軌跡跟蹤等串聯模塊算法設計
- 昂貴笨重傳感器+高性能CPU/GPU計算平臺
- 多機間通信或集中規劃
研究團隊提出的新方法設法探索出一條嶄新的途徑:使用12×16超低分辨率深度圖作為輸入,使用僅3層CNN的超小神經網絡實現端到端自主飛行,可部署于150元廉價嵌入式計算平臺。
該方法拋棄了復雜無人機動力學,用極簡質點動力學模型,通過可微物理引擎訓練端到端網絡。
最終實現「訓練一次,多機共享權重」,零通信協同飛行!
驚艷表現
現實世界中疾馳穿越
在單機場景中,將網絡模型部署在無人機上后在不同的真實環境中進行測試,包括樹林、城市公園,以及含有靜態和動態障礙的室內場景。
該網絡模型在未知復雜環境中的導航成功率高達90%,相比現有最優方法展現出更強的魯棒性。

在真實樹林環境中,無人機飛行速度高達20米/秒,是基于模仿學習的現有方案速度的兩倍。所有測試環境均實現zero-shot零樣本遷移。該系統無需GPS或者VIO提供定位信息即可運行,并能適應動態障礙物。

圖1 多機飛行
多機協同場景中,將網絡模型部署到6架無人機上執行同向穿越復雜障礙和互換位置任務。
該策略在同向穿越門洞、動態障礙物和復雜靜態障礙物的場景中展示了極高的魯棒性。在多機穿越門洞互換位置的實驗中,展現出了無需通信或集中規劃的自組織行為。

圖2 多機自組織協作

圖3 動態避障
思路關鍵
嵌入物理原理,無人機「自己學會飛」
端到端可微仿真訓練:策略網絡直接控制無人機運動,通過物理模擬器實現反向傳播。
輕量設計:整套端到端網絡參數僅2MB,可部署在150元的計算平臺(不到GPU方案的5%成本)。
高效訓練:在RTX 4090顯卡上僅需2小時即可收斂。

圖4 低成本算力平臺
訓練總體框架如下圖所示,通過與環境交互來訓練策略網絡,在每一個時間步,策略網絡接收深度圖像作為輸入,并通過策略網絡輸出控制指令(推力加速度和偏航角)。
可微物理模擬器根據控制指令模擬無人機的質點運動,進行狀態更新:


在新的狀態下可以渲染新的深度圖像并計算代價函數。
代價函數由多個子項組成,包括速度跟蹤項、避障項、平滑項等。在軌跡采集完畢后,代價函數可通過鏈式法則(圖1中紅色箭頭)計算梯度實現反向傳播,從而直接優化策略參數。
「簡約即美」的訓練訣竅
- 簡單模型:使用質點動力學替代復雜飛行器建模。
- 簡單圖像:低分辨率渲染 + 顯式幾何建模,提升仿真效率。
- 簡單網絡:三層卷積 + GRU時序模塊,小巧高效。
此外,訓練過程中通過引入局部梯度衰減機制,有效解決訓練中梯度爆炸問題,讓無人機“專注于眼前”的機動策略自然涌現。
方法對比
強化學習、模仿學習,還是物理驅動?
當前具身智能的主流訓練范式主要分為兩類:強化學習(Reinforcement Learning, RL)與模仿學習(Imitation Learning, IL)。然而,這兩類方法在效率與可擴展性方面均存在明顯瓶頸:
強化學習(如PPO) 多采用 model-free 策略,完全不考慮環境或控制對象的物理結構,其策略優化主要依賴基于采樣的策略梯度估計,這不僅導致數據利用率極低,還嚴重影響訓練的收斂速度與穩定性。
模仿學習(如Agile[Antonio et al.(2021)])則依賴大量高質量的專家演示作為監督信號。獲取這類數據通常代價昂貴,且難以覆蓋所有可能場景,從而影響模型的泛化能力及擴展性。
相比之下,該研究提出的基于可微分物理模型的訓練框架,有效融合了物理先驗與端到端學習的優勢。
通過將飛行器建模為簡單的質點系統,并嵌入可微分仿真過程,能夠直接對策略網絡的參數進行梯度反向傳播,從而實現高效、穩定且物理一致的訓練過程。
研究在實驗中系統對比了三種方法(PPO、Agile、本研究方法),主要結論如下:
訓練效率:在相同硬件平臺上,本方法在約2小時內即可實現收斂,訓練時
遠低于PPO與Agile所需的訓練周期。、數據利用率:僅使用約10%的訓練數據量,本方法在策略性能上就超越了使用全量數據的PPO+GRU方案。
收斂性能:在訓練過程中,本方法展現出更低的方差與更快的性能提升,收斂曲線顯著優于兩類主流方法。
部署效果:在真實或近似真實的避障任務中,本方法的最終避障成功率顯著高于PPO與Agile,表現出更強的魯棒性與泛化能力。
這一對比結果不僅驗證了“物理驅動”的有效性,也表明:當我們為智能體提供正確訓練方法時,強智能不一定需要海量數據與昂貴試錯。

圖5 該研究方法以10%的訓練數據量即超過現有方法(PPO+GRU),收斂性能遠高于現有方法

圖6 模型部署避障成功率對比
霧里看花
可解釋性探究
盡管端到端神經網絡在自主飛行避障任務中表現出強大性能,其決策過程的不透明性仍是實際部署中的一大障礙。
為此,研究人員引入Grad-CAM激活圖工具,對策略網絡在飛行過程中的感知注意力進行了可視化分析。
圖7展示了不同飛行狀態下輸入的深度圖(上排)及其對應的激活圖(下排)。

圖7 通過觀察激活圖,激活區域與最危險障礙強相關
可以觀察到,網絡的高響應區域高度集中在飛行路徑中最可能發生碰撞的障礙物附近,例如樹干、柱體邊緣。這表明,盡管訓練過程中沒有顯式監督這些“危險區域”,網絡已自發學會將注意力集中在潛在風險最大的區域上。這一結果傳遞出兩個重要信息:
網絡不僅在行為層面實現了成功避障,其感知策略本身也具有一定的結構合理性與物理解釋性;而可解釋性工具也有助于我們進一步理解端到端策略背后的「隱性規則」。
思考與啟發
大模型時代中的「小模型」
在這個幾乎一切技術路徑都奔向「大」的時代,基礎模型、通用智能、Scaling Law正逐漸成為信仰。
人們談論的是參數規模、數據體量、計算資源——仿佛智能的本質就在于“越大越好”,而“小”則成了被遺忘的方向,甚至被誤解為「不足為道」。
然而,自然界從不遵循單一尺度的美學。
它既孕育了人類這樣擁有億級神經元的智慧生物,也賦予了果蠅、螞蟻、蜜蜂等微小生靈以驚人的生存智慧。
它們不靠算力、不依賴高精度傳感器,卻能在復雜世界中做出迅速而精妙的反應。這種“生存意義上的智能”,或許恰是我們今日在追求「強智能」時最容易忽略的維度。
從該研究中,可以得到了三個深刻的啟發:
1)小模型有其存在的合理性,甚至是理解「大模型」的入口
人類認知系統復雜而龐大,但理解人類大腦的第一步,并不是直接對人腦建模,而是回到果蠅這樣神經回路清晰、結構機制簡單的生物個體。從某種意義上說,果蠅不僅不是神經科學的例外,它是神經科學的起點。
同樣道理,小模型不是大模型的對立面,而是其結構理解與機制抽象的鏡像反射。它們提供了一個更透明的窗口,讓我們看清決策、感知與控制之間最本質的耦合關系。在這項工作中,我們用一個參數量不到2MB的小網絡,實現了多機間無需通信的自組織協同。這不僅是工程簡約的勝利,更是系統智慧本源的回歸。
2)不是所有智能都必須建立在大規模數據之上
我們在一個完全仿真的世界中采集數據——沒有龐大的數據集,沒有互聯網語料,也沒有數百萬小時的飛行日志。
相反,只依靠可控、可微的物理引擎,用少量任務場景與目標函數,在一個僅由簡單幾何體構成的仿真環境中就訓練出了能在現實世界中零樣本遷移、應對復雜障礙的小型基于視覺的飛行控制策略。
這是一種反常識的成果。它提醒我們,智能的來源不必拘泥于數據體量的絕對值,而更應關注「結構匹配」與「機制嵌入」。
一個真正懂物理的網絡,也許比一個背誦萬卷飛行日志的網絡更可靠。
3)粗糙的感知,也能支撐精準的智能行為
果蠅的視覺系統由約800個簡單的復眼構成,其成像能力甚至不及低配監控攝像頭。然而就是這樣一個「低分辨率生物」,可以在高速飛行中完成復雜的空間規避、空中懸停與捕食等任務。精度低,并不等于智能低。
我們也使用了類似“果蠅之眼”的設置:12×16分辨率的深度圖像輸入,結合簡單的物理模型和策略網絡,就能驅動無人機以高達20米/秒的速度自主飛行。這一實驗結果無聲地提出了一個顛覆性假設:
真正決定導航能力的,并非傳感器的精度,而是智能體對物理世界的內在理解程度。
或許未來的智能,不再是一味「堆大」,而是對「小」的重新理解與深度挖掘。
后續研究
端到端單目自主FPV無人機
研究團隊后續改進與拓展了可微物理引擎框架與訓練方法,進一步實現了國際首個基于單目FPV攝像頭的端到端視覺避障系統,在真實室外環境中實現最高6m/s飛行速度,無需建圖即可自主導航,該研究已在《IEEE Robotics and Automation Letters》發表[1]。

圖8 端到端FPV(第一人稱視角攝像頭)自主飛行
























