將智能植根于運動之中——從AI模型到具身智能的下一個躍遷 精華
語言可以建模,圖像可以合成,聲音可以模仿。但唯獨“動作”,這個看似直觀、日常而簡單的維度,卻一直是人工智能最“心虛”的領域。
你有沒有注意到:生成模型已經可以輸出篇章結構清晰的文章,甚至能“畫”出栩栩如生的圖像,但它依然難以生成一次“自然的跌倒”,一個“真實的擊掌”,或是一個符合物理規律的“擁抱”。
原因并不復雜——我們在追逐人工通用智能時,或許遺漏了最根本的一點:智能從來不是懸浮在代碼和數據上的抽象邏輯,它根植于身體,發生在動作中。
《Grounding Intelligence in Movement》這篇由賓夕法尼亞大學團隊撰寫的論文并不是給出一個新的模型或算法,而是提出一種新的智能建模觀念:讓“運動”成為AI基礎模型的第一類公民。
智能,從來不是靜止的
在自然世界中,幾乎所有的信息處理最終都指向同一個終端:運動。
無論是動物看到掠食者后轉身逃跑,還是人類在社交中用手勢與表情溝通,甚至是嬰兒在還不會說話前用“踢腿”探索世界——運動既是感知的輸出,也是智能的呈現。
更進一步,所有大腦對語言、視覺、聽覺的加工,都可以看作是為了更好地發出一個動作“指令”。這種以運動為本體的智能觀,在神經科學和行為學中早已根深蒂固。但在AI世界中,運動卻常被看作“視頻的一部分”或“任務的附屬行為”,而不是一個需要獨立建模的通用維度。
研究團隊強調,運動不僅是行為的結果,更是我們理解世界、預測意圖、建立交互的基礎窗口。
“簡單”的運動,為什么成了AI最難的題?
這就是經典的Moravec 悖論,在AI中,最容易被認為是“低級”的技能(如走路、揮手)反而是最難建模的,而看起來“高級”的認知任務(下棋、算數)卻更容易被算法掌握。
運動建模并不是缺乏數據。恰恰相反,我們擁有大量關于姿態、軌跡、加速度、神經信號的視頻與傳感器數據。但問題在于:這些數據碎片化嚴重,被鎖定在各類具體任務中,缺乏統一建模框架,也少有人將運動視為類似語言和圖像那樣的“基礎模態”。
更何況,運動不是一種單一的數據類型,而是視覺、力學、時間序列、生理信號等復雜模態的交匯點。沒有合適的結構化表示,就很難抽象出真正可泛化的運動規律。
越來越多的學科同時在呼喚“理解運動”的AI
這并不僅僅是AI模型精度的問題,它直接決定了多個關鍵領域的技術突破路徑。
在神經科學 中,理解微小運動的模式可能揭示帕金森、孤獨癥、腦癱等疾病的早期信號;
在機器人學 中,動作理解是實現類人運動與自主交互的基石;
在行為心理學與社會神經科學 中,動作是情緒、意圖與社交動機的主要載體;
在數字醫療與康復系統 中,動作質量的追蹤與反饋是個性化治療與輔助系統的核心指標;
甚至在數字生態與動物研究 中,動物運動數據已成為生態監測與保護的重要來源。
當多個學科開始將注意力集中到“運動”這個維度,AI 社區再不行動,或許就真的錯過了下一個通用建模的突破口。

圖1:以生物運動為核心的領域。生物運動在神經科學、醫學、計算機視覺和傳感器建模中至關重要——每個領域都提供了獨特但相互關聯的視角,以了解運動是如何被跟蹤、建模和理解的。
核心研究團隊團隊來自賓夕法尼亞大學,成員橫跨神經科學、機器學習、生物工程與社會神經科學。
主導者 Konrad Kording 教授,是“Neuromatch”平臺的創始人,倡導開放、因果導向的 AI 神經研究;
Michael Platt 教授則將靈長類行為研究與神經科學聯系在一起,探索社會動機的神經機制;
Melanie Segado、Felipe Parodi、Eva Dyer 等成員則將精度醫學、動作捕捉與自監督學習等方法深度融合;
團隊成員不僅關注人類運動,還深入研究非人靈長類動物行為,并跨模態整合視頻、傳感器與神經數據。
這是一組試圖真正“統一感知與行動”的科學家們,他們比任何人都清楚:如果智能系統不能理解“走路、跌倒、揮手、震顫”,它就永遠無法真正理解“生命”。
1.現有運動模型圖譜,通往具身智能的三段路徑
第一段:姿態估計與形體建模,從二維關節點到全身結構,還原“誰在動”和“怎么動”
運動智能的第一步,是讓機器能看懂“姿勢”。這一領域的躍遷,幾乎可以用“革命性”來形容。
曾經,我們只能通過造價高昂、布滿反光標記的 MoCap 系統來獲得身體的三維動作信息。這種方式雖精準,卻極度受限于實驗環境,注定無法走入自然世界。
如今,以 SuperAnimal 和 ViTPose 為代表的基礎視覺模型,正在掀起新的浪潮。得益于 transformer 架構和大規模訓練,這些模型在“零樣本”設定下就能識別出不同物種、不同姿態的動作特征。不管是嬰兒揮手還是雪豹奔跑,模型都能捕捉核心結構——這為跨物種的統一運動建模奠定了基礎。
但僅靠二維關鍵點還不夠。運動是空間中的形變過程,這就需要 mesh 重建。從 PromptHMR 到 SMPLer-X,從手部模型(MANO)到羽毛覆蓋的鳥體網格(Penn Avian Mesh),學界逐漸學會如何從視頻中“復原”一個具身體積的生物體。不僅是骨骼,還有肌肉、表情、頭發、衣物——所有這些都會影響動作的真實表現形式。
這種對“形”的建模,正是為了讓機器能更好地理解“動”。
第二段:動作識別與多模態融合——動作是什么?不僅要看,還得聽、測、推斷
讓機器知道一個身體“做了什么”,并不是一件容易的事。
目前 VideoMAE V2 已能識別 700 多種人類動作;而動物界的動作識別,比如 MammalNet 或 ChimpACT,識別的類別還遠遠落后。這些模型通過學習視頻片段中動作的演化,在像素的流動里尋找模式。
但人類行為從不只是一個動作序列,它往往有著情境中的目標與動機。為此,多模態融合成為趨勢:視覺數據開始與文本(動作標簽)、音頻(環境線索)、IMU(慣性)、EMG(肌電)信號協同訓練。
典型如 LLaVAction 系統,將 LLM 與視頻融合推理;又如 emg2pose,可以從 EMG 信號預測肢體姿態,用于義肢控制等高敏感場景。感知與解釋的界限正在被打破。
然而,挑戰依舊明顯。當前模型往往只能將動作分類為“跳躍”“走路”“投擲”,卻無法區分“我主動握手”與“我不自主震顫”,更談不上理解一個動作背后的情緒、意圖或病理征兆。
當代運動感知技術尚停留在“描述動作”,而非“理解行為”的階段。
第三段:從語言到動作的“編譯器”,可控且符合物理法則的身體合成
除了感知與分類,AI 也正努力邁出它的“下一步”——自主生成動作。
在最新思路中,動作被視為一種語言結構:由一個個姿態片段(token)組合而成。MotionGPT 和 ChatPose 將連續的運動轉化為可學習的詞元序列,然后用類 GPT 的策略進行生成、預測與補全。這不僅可用于動畫生成,還打開了“文字生成動作”的新篇章。
同時,擴散模型也卷入這場“身體寫作”的競賽。Human Motion Diffusion Model(MDM)等系統通過逐步去噪的方式合成平滑的全身骨架動畫,MotionDiffuse 更進一步,引入足部接觸點、骨骼限制等,使生成動作更貼近真實動態。
但身體不是紙面符號,它受力、交互、失衡、摩擦……所有這一切,都需要模擬器的支撐。OpenSim、Mujoco 等生物力學平臺使得 AI 不再“漂浮作畫”,而是學會“踩地發力”,生成“可落地”的動作。
不過需要指出:當前自動回歸模型容易輸出“平均化動作”,忽略了動作中的微觀差異與動態節奏。生物的動作之美,往往藏在毫秒之間——這是機器尚未企及的精妙。
2.在世界模型框架中學習運動
——讓智能在動態環境中“動起來”
在人工智能發展的長河中,若說有什么方法能讓AI真正“行動”起來,那么強化學習(Reinforcement Learning, RL)無疑是那把鑰匙。它不僅教會機器“做什么”,更在試錯中引導它“怎么做得更好”。而當 RL 遇上世界模型(World Models),AI 不再只是環境的被動響應者,而是真正具備了“預見未來”的能力。

圖2:跨物種和傳感器運動建模的統一框架。ML社區已經開發了所有這些組件。需要的是協調努力,將它們組合成一個專門構建的框架,直接從聚合的運動數據中學習運動特征。
強化學習,智能體的動作本能
強化學習的本質是行為驅動:給予獎勵,設定目標,讓智能體反復試驗,逐步學會如何最優地行動。這種“行為即學習”的機制,讓 AI 系統在復雜地形中導航、操控物體時展現出驚人的靈活性。
尤其在運動任務中,RL 極其擅長處理那些無法預編程的動作序列。它可以訓練出會越野奔跑的四足機器人,也可以塑造出能夠在非結構化空間中完成抓取的機械臂。正因如此,RL 被視為讓 AI 學會“如何動”的重要支撐框架。
但強化學習也并非萬能。它的最大短板是:沒有目標,它就無法前進;目標模糊,它就無所適從。這對于那些含有豐富語義與社交情境的動作,尤其是人類行為建模,構成了巨大的障礙。
世界模型讓AI“演練未來”
相比 RL 的“邊做邊學”,世界模型強調的是“未卜先知”。它通過建立環境的動態預測模型,讓智能體在“腦海中”模擬行動可能帶來的后果,然后再選擇最優路徑。
例如,NVIDIA 的 Cosmos 和Google 的 Genie 系列模型,正致力于訓練 AI 能夠預測各種操作在未來時刻會帶來哪些變化——這相當于把現實世界“搬”進AI的認知中,讓它提前在“腦中演練”。
當世界模型與 RL 合作時,AI 就能實現更高效、更策略化的學習,避免代價高昂的實際試錯。這種組合尤其適合訓練“懂得避障、協調肢體、應對環境反饋”的高階運動系統。
成功案例與隱藏瓶頸
大家耳熟能詳的 Spot 機器人,是這一范式成功落地的最佳例證。它可以靈活地跨越崎嶇地形、應對復雜障礙,幾乎具備“感知-計劃-行動”的閉環能力,這其中正有賴于 RL + 世界模型對多種運動策略的整合訓練。
然而,真正的問題往往藏在“邊界”里。
盡管 Spot 行走穩定,但你有沒有注意到它在人類環境中的表現往往顯得“木訥”?它難以理解并回應“人類手勢”或“情緒線索”,在與人協作的細節上,常常“跟不上節奏”。
這是因為當前訓練范式高度依賴具體定義的目標與獎勵函數,而現實世界中的意圖、社交互動或情緒驅動,往往難以被量化。當目標變模糊,模型的行為就容易走偏。
深度點評:從獎勵設計到物種遷移
研究團隊指出三個關鍵瓶頸。
獎勵函數之痛:現實中的動作目標復雜多變,要將其轉換為數值目標,對設計者而言仍是噩夢。
“仿真—現實”鴻溝:哪怕在模擬器中學得再好,一旦投放到現實世界,智能體面臨的物理變數、摩擦系數、偶發擾動都會讓學到的策略崩塌。
缺乏泛化的能力:一個能精準模仿成人步態的模型,面對嬰兒的“無目的抖動”卻一籌莫展;同樣,它也無法無縫應用于動物物種,不重新建模便難以適配不同的形態結構和動作邏輯。
這意味著:目前的世界模型和 RL 系統,在結構上仍過于“定制化”,難以承載“統一運動建模”的重任。
3.邁向統一的運動建模框架
從碎片數據到具身認知主干的整合工程
聚合“運動數據資產”:從分散的動作捕捉走向統一神經運動生態
如果說通用運動模型是智能系統的運動“大腦”,那第一步就是為它匯聚足夠“豐富”的運動“記憶”。
目前已有的運動數據資源可謂琳瑯滿目。
像 AMASS、Human3.6M 這樣的高質量動作捕捉庫,為三維姿態建模提供黃金標準;
Motion-X 不僅匯聚了現有數據,還擴展了網絡爬取來源,正在構建“互聯網級動作數據集”;
EgoBody 則開啟“第一人稱動作數據”范式,讓模型理解社交互動中的視角差異。
而在動物研究領域,MammAlps 通過野外攝像頭實現對哺乳動物自然行為的觀察,MmCows 更整合了農用傳感器、氣候與視頻,構建“奶牛行為大數據”。
這些數據雖豐富,卻像散落的拼圖片段。正因如此,研究團隊提出要推動標準格式(如類 BIDS)和靈活加載器的建立,并強調:“運動數據不僅要看,還要知道它在什么背景下發生”。 也就是說,所有的運動都應攜帶上下文——時刻、場景、物體、社會關系、甚至天氣——否則只是空洞的動作軌跡而已。
預訓練多模態主干,建造“動作界的GPT”,需要怎樣的骨架與血肉?
構建一個類似語言領域 GPT-4 的“動作大腦”,并不是簡單堆疊模態和算力,而是要把以下幾點做到極致。
結構設計:引入“共教師機制”。即模型不必去理解整個世界,而是通過“對象提示”、環境音、交互文本等“協同信號”幫助其學習動作的潛在動機,就像人類寶寶通過父母的引導學習抓握。
隱私友好:打造“聯邦學習易用套件”。尤其是在 NICU 新生兒監測、康復訓練等場景下,數據往往只能留在醫院或設備端,模型要“拜訪數據”,而不是讓數據“走出醫院”。
感知增強:精細動作數據需要精細工具。傳統的數據增強操作如加噪或左右翻轉,可能會扭曲如震顫、偏側缺陷等關鍵信號。模型訓練前的“加工方式”必須重新定義,聽懂病理動作不能靠糊弄。
擬真損失:向物理與生理規律看齊。模型輸出若違反骨長恒定、接觸力邏輯、加速度約束,就可能生成“漂浮踢腿”或“脫臼式奔跑”的錯誤動作。因此,優化目標必須嵌入物理現實。
高影響應用場景評估:評估不止于正確率,更關乎后果
運動模型的真正價值,不在于是否能贏下 benchmark 榜單,而在于:它能否在關鍵場景里“救人、助生、護物種”。
在醫療康復中,模型能否準確檢測帕金森病早期細微步態改變?在生態監測中,它能否識別出威脅物種的行為模式?在人機交互中,它能否理解用戶的肢體反饋進行自然適配?這些問題是對模型的終極檢驗。
為此,論文呼吁建立新的評估體系。
具備“因果性驗證”:即模型是否能推理出如果發生某種身體限制,動作會如何變;
支持“跨域泛化”:一個模型能否跨越年齡、物種、體型,從嬰兒抓握學到牛群導航;
強調“隱私魯棒性”:確保數據加密、身份保護下模型依然可靠運行。
從技術到現實:打造產業落地鏈條的“韌帶與骨架”
當前運動模型的開發,多停留在“實驗室demo”和“論文benchmark”的層面,但要真正走進康復設備、交互系統、農業監測、機器人生態,就必須解決:
- 模型部署的軟硬件兼容性;
- 通用主干與定制模塊的模塊化拼接;
- 數據采集、標注與增量學習的閉環系統;
- 以及模型生命周期中的安全、倫理與更新機制。
只有把科研成果“骨肉化”,建立完整“運動智能工程鏈”,才能真正釋放其價值。
4.替代觀點與專業反駁
為什么我們不能只靠“越來越大的模型”?
不是更大,而是更對
有觀點認為:“既然視頻生成模型、RL智能體都能處理動作問題,為何不繼續擴大它們就行?”
研究團隊明確反駁:規模并不是萬能解藥。
即便是像 Google Veo、OpenAI Sora 這樣頂級的視頻模型,仍然無法生成一次符合物理邏輯的“高五”或“絆倒”——它們像是在“動畫世界”工作,而非“真實世界”。
相反,一個專為“動作理解”打造的模型,應當像GPT-4、Gemini、LLaMA 等語言模型一樣,專注且深刻地建構某一智能維度的結構性表征。它不僅僅是“能學”,更是“知道怎么學”,這需要對動作的物理性、結構性和語義性有深度建模。
為什么“運動”更像 GPT,而不是 GATO
一些人將廣義“多任務模型”類比為GATO——一個嘗試什么都做但什么都一般的AI。而本文提出的“統一運動模型”,更像GPT-4 對語言的建模。
原因在于:語言與動作都具備強結構性、語用依賴性與跨任務遷移特性。正因如此,打造一個“運動領域的主干模型”,比搞一個什么都沾但啥都淺的一體機更可行。
重塑格局:從重復建設到共享“運動知識基座”
今天的現實是:每一個康復工程師、機器人開發者、神經科學家都要搭建屬于自己的運動模型管道。這種重復造輪子的模式不但低效,也形成了“高門檻、低再用”的行業壁壘。
統一模型框架的真正意義在于降低入門門檻,讓非機器學習專家也能調用高質量運動表示;減少資源浪費,避免“換物種換模型”的重復訓練;構建類似“代碼即語言”的新范式,讓動作建模真正普惠于各行各業。
5.結語與展望
讓智能“動”起來,才算真正活過來
當我們談論“通用人工智能”,往往聚焦語言推理、圖像感知或知識抽取。可若沒有對“運動”的建模,AI注定只能停留在屏幕里的幽靈,無法走進現實世界的真實交互場景。
這項研究提醒我們:運動是智能的語法,是理解環境、表達意圖、體現個性與適應復雜任務的關鍵。未來的 AI,不應只是能“看圖說話”或“邏輯縝密地寫論文”,它必須能“看人走路就讀懂情緒”、“看動物奔逃就預測生態趨勢”,乃至“看你顫抖就提前感知疾病”。
這意味著,運動模型不再只是服務動畫師和機器人專家的“工具箱”,而將成為數字醫療、個性化人機交互、智能監測與生態建模等應用中的基礎設施。
智能,不僅僅是知道“說什么”——它更在于知道“什么時候動、怎么動、為何而動”。
協同共建:讓數據共享從“API”變為“DAO”
研究團隊提到一種迫切而現實的問題,運動數據極其敏感,尤其涉及醫療場景、生理信號和用戶身體隱私。正因如此,它常常被封鎖在醫院服務器、實驗室硬盤,研究無法擴展,模型難以迭代。
這一挑戰給Web3生態和DAO機制提供了理想落點。
分布式存儲與加密計算可以確保個人運動數據不被直接提取卻可供模型參與訓練;
DAO式研究協作可通過社區共識決定“共享何種數據、由誰調用、為何目的”;
數據質押與代幣激勵為醫療機構、患者或設備制造者帶來貢獻回報,鼓勵合法、安全的數據流通。
換句話說,讓模型“動”起來,也許需要一種“自下而上”的數據社會機制,它既保障個體隱私,又推動運動智能的協同演化。這是傳統科研范式難以完成的事,但 Web3 可以。
未來十年,看懂一個“抖動”的智能系統
當下的AI系統多數是靜態的,它們“在看”、“在說”、但很少“在做”。而真正的智能,不會止步于思考本身,而要在真實環境中起身、轉身、感知世界、再重新判斷。
未來值得關注的研究方向正是那些能讓AI“動起來、穩下來、感知外部、理解內在”的系統。
具身因果建模(Embodied Causal Modeling):AI不僅要觀察動作,還要理解它為什么發生、如果環境改變會如何演化。
實時交互感知系統:打造能在物理世界中“即興反應”的智能體,而不是只會在訓練數據中回放。
多物種、多體態的動作生態圖譜:從人類、動物到機器人,構建統一的身體語義表征,使跨個體的行為建模成為可能。
運動驅動的情感與社交模擬:理解一個眼神的停留、一只手的停頓背后的情緒波動,將成為人機情感交互的新里程碑。(END)
參考資料:???https://arxiv.org/abs/2507.02771??
本文轉載自??波動智能???????,作者:FlerkenS

















