從VLA到RoboOmni,全模態具身新范式讓機器人察言觀色、聽懂話外音
復旦?學、上海創智學院與新加坡國立?學聯合推出全模態端到端操作?模型 RoboOmni,統?視覺、?本、聽覺與動作模態,實現動作?成與語?交互的協同控制。開源 140K 條語? - 視覺 - ?字「情境指令」真機操作數據,引領機器?從「被動執??類指令」邁向「主動提供服務」新時代。
在?常?活中,?類很少發出?硬的命令式指令?「把杯子放到桌上」。更多時候,我們的真實意圖隱藏在對話、語?、甚?環境聲音中。
「這果汁好酸啊」,其實意味著想換別的飲料;聽到雷聲驟起,就知道該去關窗收?;從聲音辨出是爺爺在說話,會主動問他是否想喝最愛的熱茶?不是可樂;在多?同時說話的場景中,還要分清誰才是發出指令的?。
現在,機器?終于能聽懂這些「潛臺詞」了!復旦、上海創智學院、與新加坡國立大學聯合發布 RoboOmni,不僅重新定義了機器?交互的「情境指令」新范式,更通過全模態端到端的統?架構,讓機器??次具備了「察?觀?」的認知能力。

- 論文標題:RoboOmni: Proactive Robot Manipulation in Omni-modal Context
- 論?地址:https://arxiv.org/pdf/2510.23763
- 代碼地址:https://github.com/OpenMOSS/RoboOmni
- 模型 & 數據地址: https://huggingface.co/collections/fnlp/roboomni
- 項?主?:https://OpenMOSS.github.io/RoboOmni
具身交互范式革命:從「顯式指令」到「情境指令」

圖 1:根據指令類型與輸?對機器?操控模型的分類。RoboOmni 通過整合跨模態情境指令,實現了端到端多模態交互與動作執行的?體化。
當前主流的 VLA 模型存在兩?局限:(1)現有模型?多依賴于精確、顯式的指令(如「拿起蘋果」),?法理解隱含的意圖。(2)現有?法的指令輸?嚴重依賴于?本,即便使?語音,也需要先通過 ASR (Automatic Speech Recognition)技術轉成?字,這丟失了語調、情感、說話?身份等副語?關鍵信息,更?法感知?鈴、雷聲等環境聲音的語義。
這意味著,過去的機器?是?個需要「精確編程」的遲鈍執?者,???個能「察?觀?」的智能伙伴。
復旦聯合新國立提出的「跨模態情境指令」 (contextual instrcution) 新范式,旨在徹底改變這?現狀。它要求機器?能像??樣,主動融合語音對話、環境聲音和視覺觀察,從多模態上下?中推斷出?戶的真實意圖。
- 從被動到主動:不再是等待明確的「關窗」指令,?是在聽到雷聲、看到陽臺?開著時,主動詢問:「需要我關窗嗎?」
- 從單模態到全模態:同時理解語音中的情感傾向(如不滿的語?)、說話?身份(是媽媽的需求還是??的?)、環境聲音(?鈴、警報、廚房噪音)以及視覺觀察(畫?中的物體狀態和?物關系)的語義。
這不再是簡單的指令執?,?是讓機器?具備了真正的情境理解能力。它就像?個貼?的私?助理,能夠從?句嘀咕、?段對話和周圍的環境中讀懂潛臺詞,讓服務變得?然、主動且精準。
RoboOmni 架構:全模態端到端統一模型設計

圖 2:RoboOmni 采? Perceiver-Thinker-Talker-Executor 的模型結構,通過在共享表征空間內統?視覺、?本、聽覺與動作模態,實現動作?成與語音輸出的協同控制。
為解決傳統?案的局限,研究團隊提出了 RoboOmni??個基于全模態?模型的端到端框架,真正實現了從意圖識別、交互確認到動作執?的完整閉環。與需要將語音轉?字(ASR)的「拼接」系統不同,RoboOmni 在?套統?的模型中,直接融合語音、環境聲音和視覺信號來推斷意圖,并能通過語音交互進?確認,輸出動作 token 執?操作。
其核心是「感知-思考-回應- 執行」(Perceiver-Thinker-Talker-Executor) 的統?端到端架構:
- 統一感知 (Perceiver):作為「眼睛」和「?朵」,它將攝像頭看到的畫?、?克?聽到的語?和環境聲?,統?編碼到同?個語義空間里。這意味著,?聲 「雷響」和畫?中的「開著的窗戶」被關聯起來理解,為后續推理打下基礎。
- 中央思考 (Thinker):作為「大腦」,它基于強?的 Qwen2.5-Omni 模型構建。它接收融合后的多模態信息,在?個統?的詞表空間?進?推理,并?成交互?為。輸出內容包含文本回復和機器?動作 token 的序列,實現了感知、語?與控制的深度融合。
- 自然回應 (Talker):作為「嘴巴」,它讓機器人能夠直接進?語?交流。它接收 Thinker 的潛空間表示,?成?然、流暢的語?波形,從?實現與?的多輪、?縫語?對話。
- 精準執? (Executor): 作為「雙?」,它負責將 Thinker ?成的動作 token 解碼為機器?可以執?的精確命令。它采? FAST + 動作編碼技術,能夠流暢地控制 7 ?由度機械臂完成各種復雜操作。
簡??之,RoboOmni 通過統?端到端架構設計實現了:
- 全模態統?建模:從根源上避免了 ASR 轉寫的信息損失,能更好地保留語調、情感和環境語義,從?實現真正的「情境理解」。
- 閉環具身智能:將「全模態」的概念從感知和認知,真正拓展到了?動層?,在?個模型內完成了「感知 - 推斷 - 確認 - 執?」全流程。
- 雙向自然交互:?持語?回應與動作執?的雙通道輸出,機器?不僅能聽會說,還能在對話中確認意圖并執?任務,實現了?然的?機協作。
OmniAction:為「具身情境認知」量身打造的大規模數據集
主動式機器?必須從?頻和視覺觀察中推斷隱含意圖,但現有數據集缺乏包含視覺 - ?頻模態組合以及意圖推理所需的推斷指令。
為了彌補這?不?,研究團隊構建了 OmniAction??個大規模具身情境指令數據集,包含基于語?、環境?頻、聲?事件和視覺的情境指令和動作軌跡。

圖 3:OmniAction 數據集構建流程。
海量規模與豐富多樣性
- 141,162 條多模態樣本,覆蓋 112 種技能與 748 種物體。
- 5,096 種獨特音色,精細覆蓋?年 / 中年 / ?童和男性 / ?性的不同身份組合,還原真實多樣的?戶??。
- 2,482 種環境音效與 640 種生活背景噪音,構建出從廚房翻炒到客廳電視的真實聽覺場景。
六大情境指令:精心設計的「認知考題」
OmniAction 的核?在于其六大情境指令類型,它們共同構成了考驗機器?「情商」與「智商」的?體維度:

高標準數據構建流水線
為確保數據的真實性與?質量,研究團隊采?三階段嚴謹流程:
- 文本劇本生成:基于真實機器?任務,利??模型將直接指令改寫為富含情境的多??然對話。
- 高保真聽覺實現:采? MOSS-TTSD、CosyVoice 等語?合成與聲?克隆技術,?成帶有真實?吻、語?和重疊對話的?頻,并精準混?環境?與背景噪?。
- 嚴格人工驗證:經過嚴格的??校驗,確保任務意圖能夠被準確恢復,?致率?達 98.7%。
推出 OmniAction-LIBERO 仿真基準
為推動領域發展,研究團隊還基于 LIBERO 基準發布了 OmniAction-LIBERO 仿真基準。它提供了 240 個涵蓋不同指令類型的評估任務,并包含真實志愿者錄?版本,為公平、系統地評估模型的「情境理解」能力樹?了新標桿。
實驗結果:全面超越傳統級聯方案,從指標到體驗的跨越
為全?評估 RoboOmni,研究團隊設置了嚴謹的對?實驗。基線模型涵蓋了當前最具代表性的開源 VLA 模型,并采?兩種主流范式進?對?:其?是真值文本基線(直接輸?原始?本,避免了 ASR 帶來的?字識別錯誤),其?是 ASR 文本基線(語?先經 Whisper 轉?字再輸?,代表當前語?交互的常??案)。這兩種基線旨在驗證端到端全模態處理的必要性。
核心突破:情境指令任務完成率碾壓級領先

表 1:RoboOmni 在 OmniAction-LIBERO 基準上的性能表現,在四?任務套件、六種情境指令下均?幅領先。
如圖表 1 所示,在涵蓋四大任務類型、六種情境指令的 OmniAction-LIBERO 基準上,RoboOmni 取得了 85.6% 的綜合成功率,展現出壓倒性優勢,遠超 OpenVLA (3.9%)、
(4.4%)、NORA(25.9%)。在其他傳統 ASR 級聯?案成功率?多低于 10% 的情況下,RoboOmni 在全部六種情境指令上均保持了 76% 以上的?成功率。
關鍵發現:
- 端到端音頻處理的必要性:級聯基線(即便使?真值?本)?法捕捉??、語調、重疊語?等副語?信息,? RoboOmni 通過直接處理?頻信號,完整保留了這些關鍵情境線索。
- 意圖模糊下的魯棒識別:在包含多個可操作物體和動作選擇的意圖復雜任務中(Goal 和 Object 任務),基線模型性能急劇下降(最佳基線僅 16.3%),? RoboOmni 在這些任務中仍保持 85.8% 和 84.0% 的?成功率。
- 不同情境指令的認知難度差異:對模型??,雙?對話和重疊語?任務相對簡單(約 88%),??語?線索任務最具挑戰(約 82%),因其需要識別環境聲?并與其他模態信息整合。
真實世界表現:從仿真到現實的完美遷移

圖 4:RoboOmni 在 WidowX 250S 真實機器?上的成功案例演示。
真機演示(圖 4)進?步驗證了其能力可?縫遷移到現實世界。RoboOmni 展現出三重核心能力:
- 精準的意圖識別能力:能夠準確融合視覺和聽覺線索來推斷?戶意圖。例如通過語?內容識別?標物體,同時通過視覺場景判斷正確的放置位置(如識別出當前場景為吃?鍋,需要放置容器是?鍋??其他)。
- 有效的主動交互機制:在推斷出?戶的潛在意圖后,會主動提出澄清性問題(如「是否需要我……?」),并在獲得?戶確認后才執?動作,確保每個?動都經過深思熟慮且符合?戶真實意圖。
- 可靠的物理執行性能:能夠在存在多個?擾物的復雜場景中準確定位?標物體,并將其精確放置到指定位置,展現了在真實環境中的穩健操作能力。
主動服務能力:不僅是執行,更是主動服務

圖 5:主動服務能?的定性與定量評估。左圖顯示意圖識別準確率,右圖為交互案例對?。
真正的智能體現在協作中。如圖 5 所示,在專?的主動協助能力評估中,RoboOmni 的意圖識別準確率?達 88.9%,顯著優于其他模型(GPT-4o+ASR 僅為 55.6%)。
更值得稱道的是其「認知智能」:(1)主動澄清機制:當遇到「蛋餃」等模糊指令時,不會盲?執?,?是主動詢問「要我把蛋餃放進?鍋嗎?」;(2)多模態完美融合:在?鈴場景中,能夠結合對話上下?和環境聲?信號,提出「我聽到?鈴了?應該把?丸放進?鍋嗎?」;(3)自然對話流維護:始終使?「您希望我…… 嗎?」等尊重性、協作性的語?模式,與基線模型常常發出的直接命令或陳述形成鮮明對?。這?系列能力使得 RoboOmni 不再是簡單的指令執?器,?是能夠真正理解情境、主動提供服務的智能伙伴。
架構優勢:效率與性能兼得

圖 6:(a) 使? OmniAction 預訓練能極?提升訓練效率 (b) 端到端建模顯著提升推理效率,延遲僅為級聯方案的?半。
RoboOmni 的優勢不僅在于效果,更在于效率。深?分析表明,其架構設計和?規模預訓練帶來了巨?增益:如圖 6 (a) 所示,經過 OmniAction 預訓練的模型,僅需 2K 步微調即可達到近 90% 準確率,展現了卓越的訓練效率;如圖 6 (b) 所示,端到端架構消除了 ASR 瓶頸,其推理速度是傳統級聯?案的近兩倍(延遲僅為 0.49 倍)。
未來展望:通向通用具身智能之路
RoboOmni 的出現標志著機器?交互范式從「服從命令的?具」向「洞察意圖的伙伴」的根本轉變。這?轉變體現在三個層?:
- 在交互上,從「精確指令 - 呆板執?」變為「?然交流 - 主動理解 - 確認執?」;
- 在感知上,從單模態?本拓展到語音、視覺、環境聲音的全模態融合;
- 在架構上,從存在信息損失的級聯系統演進為端到端的統?模型。
RoboOmni 所代表的不僅是技術突破,更是交互范式的?新。當機器?能夠理解 「?外之意」,能夠「察?觀?」,?與機器的關系將從單向命令變為雙向協作。它讓技術隱于?形,智能融于?然,最終實現讓技術適應?、??讓?適應技術的終極?標。































