空間智能覺醒!螞蟻ViLaSR-7B突破人類思維屏障,讓大模型首次具備人類空間思維能力! 原創
當AI在測量手機尺寸時,不是依賴像素計算,而是主動尋找顯示器作為參考物進行比例換算;面對迷宮導航任務,它像人類一樣在圖像上繪制輔助線和標記框,動態追蹤空間關系。這是螞蟻技術研究院聯合中科院自動化所、香港中文大學開源的ViLaSR-7B模型展現的類人空間推理能力。
?

?
這項突破標志著大模型首次跨越了抽象語義理解與具象空間認知的鴻溝,在五大空間推理基準上實現性能躍升,與谷歌Gemini-1.5 Pro旗鼓相當。
?
長久以來,傳統視覺語言模型(LVLM)受困于“視覺轉文本”的推理范式:將圖像壓縮為token序列后交由語言模型處理,導致空間信息在編碼階段大量丟失。當處理迷宮方向判斷或多視角物體關聯任務時,模型常因混淆空間關系而失敗。
?
OpenAI今年4月發布的o3/o4-mini模型雖通過“Thinking with Images”范式(主動裁剪/旋轉圖像輔助推理)取得進展,但其閉源特性限制了生態發展。
?
ViLaSR-7B的創新在于提出“Drawing to Reason in Space”(空間繪圖推理)機制,讓模型在推理過程中動態繪制邊界框、參考線和跨幀標記,引導視覺編碼器聚焦關鍵空間特征。這種邊看邊畫、邊畫邊想的交互模式,模擬了人類解決空間問題時用草圖輔助思考的本能行為,顯著提升了時空信息的保留效率。
?
實現這一突破的核心是三階段訓練框架的系統化培養方案:
- 冷啟動訓練利用合成數據教會模型基礎繪圖操作(如標注邊界框),建立視覺空間認知的“肌肉記憶”;
- 反思拒絕采樣階段引入自我修正機制——模型生成多條推理路徑后,篩選出主動修改錯誤標注的高質量樣本進行強化訓練,培養“發現并修正誤判”的反思能力;
- 強化學習階段則通過雙獎勵函數(結果準確性+邏輯合理性)優化操作效率,避免冗余繪圖。消融實驗證明,移除反思機制會使模型推理步驟減少23%,而缺乏強化學習將導致繪圖操作激增。
?
這一進展恰逢空間智能研究的關鍵爆發期。李飛飛、謝賽寧團隊去年末發布的VSI-Bench基準(涵蓋288個真實場景視頻、5000+問答對)首次量化了AI的空間認知缺陷:在物體相對方向、距離估計等任務中,15個主流MLLM的**錯誤率高達71%源于空間推理短板,而非視覺識別或語言理解。
?
更值得注意的是,研究揭示大模型在空間記憶時僅形成碎片化的局部世界模型而非統一全局認知,且傳統語言提示技術(如思維鏈CoT)反而損害其空間表現——這與語義推理任務形成鮮明對比。上海交大團隊今年5月推出的SpatialScore評測體系進一步整合11項數據集,證明當前模型在深度估計、相機運動分析等幾何感知任務中仍舉步維艱。
?
ViLaSR-7B的突破不僅是技術里程碑,更是AI理解物理世界的臨界點。當模型能主動構建空間心智表征,機器人導航、AR交互、工業檢測等場景將迎來質變。隨著“繪圖推理”范式與VSI-Bench等評估工具的雙輪驅動,AI終于開始用人類的視角丈量世界——從識別物體到理解空間,這場感知革命才剛剛開始。
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















