下一代目標(biāo)檢測模型:3B參數(shù)MLLM Rex-Omni首度超越Grounding DINO,統(tǒng)一10+視覺任務(wù)
多模態(tài)大語言模型(MLLM)在目標(biāo)定位精度上被長期詬病,難以匹敵傳統(tǒng)的基于坐標(biāo)回歸的檢測器。近日,來自 IDEA 研究院的團(tuán)隊(duì)通過僅有 3B 參數(shù)的通用視覺感知模型 Rex-Omni,打破了這一僵局。

該模型將所有視覺感知任務(wù)統(tǒng)一為「下一個(gè)點(diǎn)預(yù)測」,并結(jié)合高效的 4-Token 坐標(biāo)編碼和兩階段 GRPO 強(qiáng)化學(xué)習(xí)后訓(xùn)練。在 COCO、LVIS 等核心檢測基準(zhǔn)的零樣本評(píng)估下,Rex-Omni 的性能超越了 Grounding DINO,DINO 等基于坐標(biāo)回歸模型的。它系統(tǒng)解決了 MLLM 的定位和行為缺陷,在目標(biāo)檢測、指代、點(diǎn)選、GUI 定位、OCR、版面分析等 10 多項(xiàng)任務(wù)上實(shí)現(xiàn) SOTA 的性能,預(yù)示著下一代強(qiáng)語言理解的感知系統(tǒng)的到來。

- 主頁:https://rex-omni.github.io/
- 論文鏈接:https://arxiv.org/pdf/2510.12798
- 開源代碼:https://github.com/IDEA-Research/Rex-Omni
目標(biāo)檢測的「金杯」與兩大模型范式核心困境

傳統(tǒng)模型與 MLLM 模型在目標(biāo)檢測上各自的困境
目標(biāo)檢測領(lǐng)域的一個(gè)長遠(yuǎn)目標(biāo),就是構(gòu)建一個(gè)能夠根據(jù)任意自然語言提示,檢測任意物體或概念,且無需任何微調(diào)的通用模型,這便是目標(biāo)檢測的「金杯」。長期以來,目標(biāo)檢測一直由基于回歸的模型主宰,例如 DETR 和 Grounding DINO 等。這類模型的優(yōu)勢在于極高的定位精確度,但其本質(zhì)受限于相對(duì)較淺的語言理解能力。例如,當(dāng)用戶提示 Grounding DINO 檢測「紅蘋果」時(shí),它仍然只能檢測出圖像中的所有蘋果。簡單地依賴這種基于類別級(jí)別的開放集檢測方法,無法滿足對(duì)復(fù)雜語義和精細(xì)描述的理解要求,難以實(shí)現(xiàn)真正的「金杯」。
另一方面,MLLM(如 Qwen2.5-VL, SEED1.5-VL) 因其底層的 LLM 具有強(qiáng)大的語言理解和推理能力,為實(shí)現(xiàn)這一目標(biāo)帶來了希望。它們將坐標(biāo)視為離散的 Token,用交叉熵進(jìn)行分類預(yù)測。然而,這種概念上優(yōu)雅的方法在實(shí)踐中面臨兩大根本挑戰(zhàn),導(dǎo)致其定位能力遠(yuǎn)未達(dá)到傳統(tǒng)回歸檢測器的水平,并容易出現(xiàn)低召回率、坐標(biāo)偏移和重復(fù)預(yù)測等問題:
- 幾何離散化挑戰(zhàn): MLLM 將連續(xù)的像素坐標(biāo)視為離散分類任務(wù),并依賴交叉熵?fù)p失。這與空間幾何的連續(xù)性本質(zhì)不符。即使離散坐標(biāo)預(yù)測中存在微小偏差,也可能導(dǎo)致巨大的交叉熵?fù)p失,極大地阻礙了精確定位。
- SFT 行為調(diào)控缺陷: MLLM 通常采用 Teacher-Forcing 的 SFT 訓(xùn)練方式。這種范式導(dǎo)致模型在推理時(shí),缺乏對(duì)自身輸出結(jié)構(gòu)的有效調(diào)控,無法自主決定對(duì)象數(shù)量或避免冗余輸出,從而引發(fā)重復(fù)預(yù)測或漏檢等行為缺陷。
要推動(dòng) MLLM 成為下一代檢測模型,就必須系統(tǒng)性地克服這兩個(gè)相互交織的根本挑戰(zhàn)。
Rex-Omni 核心突破:三大設(shè)計(jì)重塑 MLLM 定位范式
Rex-Omni 的建立在三項(xiàng)相互支撐的設(shè)計(jì)之上,包括任務(wù)設(shè)計(jì),數(shù)據(jù)設(shè)計(jì),訓(xùn)練 pipeline 設(shè)計(jì),它們系統(tǒng)性地解決了 MLLM 的定位精度和行為缺陷,實(shí)現(xiàn)了「強(qiáng)大的語言理解」與「精確的幾何感知」的融合:
1. 輸出形式與任務(wù)設(shè)計(jì): 量化坐標(biāo) + 特殊 Token 形式

Rex-Omni 采用了量化坐標(biāo) + 特殊 token 的坐標(biāo)表征形式
首先,為了解決「幾何離散化挑戰(zhàn)」,Rex-Omni 提出了一個(gè)統(tǒng)一的「下一個(gè)點(diǎn)預(yù)測」框架,將所有視覺感知任務(wù)(包括檢測、點(diǎn)選、多邊形輸出)都轉(zhuǎn)化為坐標(biāo)序列的生成。
- 統(tǒng)一的坐標(biāo)序列: 通過預(yù)測一個(gè)或多個(gè)點(diǎn),模型可以應(yīng)對(duì)各種幾何輸出需求:
- 點(diǎn)選 (Point): 預(yù)測一個(gè)點(diǎn)

- 邊界框 (Box): 預(yù)測兩個(gè)點(diǎn)

- 多邊形 (Polygon) 和關(guān)鍵點(diǎn) (Keypoint): 預(yù)測四個(gè)或更多的點(diǎn)序列,以表示輪廓或語義關(guān)鍵位置。
- 專有 Token + 量化相對(duì)坐標(biāo): Rex-Omni 采用量化相對(duì)坐標(biāo),將圖像坐標(biāo)值(0 到 999)離散化,并為這 1000 個(gè)值在 LLM 詞匯表中分配了專用的特殊 Token(如 <0> 到 <999>)。
- 極致 Token 效率: 這種設(shè)計(jì)使得表示一個(gè)完整的邊界框
僅需 4 個(gè)特殊 Token。這極大地簡化了模型的學(xué)習(xí)難度,將坐標(biāo)預(yù)測的「分類任務(wù)」限制在一個(gè)有界范圍(1000 類),同時(shí),與需要 15 個(gè)甚至更多原子 Token 的方法相比,Token 效率提升了數(shù)倍,尤其在高密度的場景下,為快速推理打下了基礎(chǔ)。
在模型結(jié)構(gòu)上,Rex-Omni 采用了標(biāo)準(zhǔn)的 Qwen2.5-VL-3B 的架構(gòu)。唯一的改動(dòng)是把 Qwen2.5-VL-3B 詞表中最后 1000 個(gè)不常用的 token 轉(zhuǎn)換為了代表坐標(biāo)的特殊 token <0> 到 <999>。

Rex-Omni 模型結(jié)構(gòu)示意圖
2. 多種數(shù)據(jù)引擎:Grounding,Referring,Pointing 等

接下來,為確保模型能夠?qū)㈦x散 Token 精確映射到連續(xù)像素,并具備魯棒的語言理解能力,團(tuán)隊(duì)構(gòu)建了多個(gè)定制化數(shù)據(jù)引擎(包括 Grounding、Referring、Pointing 和 OCR 數(shù)據(jù)引擎),以自動(dòng)化方式生成了大規(guī)模、高質(zhì)量的訓(xùn)練監(jiān)督信號(hào)。
- 豐富語義信息: 數(shù)據(jù)引擎不僅生成類別標(biāo)簽,還提供語義豐富的指代表達(dá)式和點(diǎn)級(jí)監(jiān)督,為模型提供了深層次、實(shí)例級(jí)別的語義富含的監(jiān)督信號(hào)。
- 規(guī)模與質(zhì)量: 通過整合公共數(shù)據(jù)集和定制引擎生成的數(shù)據(jù),Rex-Omni 共在 2200 萬張高標(biāo)注質(zhì)量的圖像樣本上進(jìn)行了訓(xùn)練,為精細(xì)的空間推理能力奠定了數(shù)據(jù)基礎(chǔ)。
3. SFT + GRPO 兩階段訓(xùn)練方法

這是 Rex-Omni 達(dá)成高精度定位和克服行為調(diào)控缺陷的關(guān)鍵。它采用了 SFT + GRPO 的兩階段訓(xùn)練范式:
- SFT(第一階段): 在 2200 萬數(shù)據(jù)上進(jìn)行基本的監(jiān)督微調(diào),賦予模型基礎(chǔ)的坐標(biāo)預(yù)測技能。
- GRPO(第二階段): 在 66K 數(shù)據(jù)上采用基于 GRPO 的強(qiáng)化學(xué)習(xí)后訓(xùn)練。
GRPO 通過引入幾何感知獎(jiǎng)勵(lì)函數(shù)(如 IoU 獎(jiǎng)勵(lì)、點(diǎn)在掩碼內(nèi)獎(jiǎng)勵(lì)等)和行為感知優(yōu)化,直接在模型自主生成的序列上進(jìn)行反饋學(xué)習(xí),從而系統(tǒng)性地解決了 SFT 階段遺留的兩大挑戰(zhàn):
- 行為缺陷的終結(jié): GRPO 有力地抑制了 SFT 訓(xùn)練帶來的重復(fù)預(yù)測、漏檢和大框預(yù)測等「壞習(xí)慣」,讓模型學(xué)會(huì)自主決定對(duì)象數(shù)量并生成連貫、高質(zhì)量的輸出序列。
- 幾何精度的精煉: 強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)直接與連續(xù)的幾何指標(biāo)(如 IoU)掛鉤,彌合了離散 Token 預(yù)測與連續(xù)幾何精度之間的差距,實(shí)現(xiàn)了對(duì) SFT 所獲定位能力的進(jìn)一步提煉。
實(shí)驗(yàn)結(jié)果表明,GRPO 并非簡單的額外訓(xùn)練,而是解鎖了 SFT 模型中強(qiáng)大的潛在能力,僅用少量訓(xùn)練步驟就帶來了性能的快速、大幅提升,成為 Rex-Omni 超越傳統(tǒng)檢測器的重要推手。
4. 實(shí)驗(yàn)結(jié)果:零樣本檢測性能首度「超車」,全能感知力 SOTA
1)通用以及長尾目標(biāo)檢測性能評(píng)估
在通用目標(biāo)檢測 COCO 和 LVIS 等核心檢測基準(zhǔn)的零樣本評(píng)估(不在評(píng)估 benchmark 的訓(xùn)練集上進(jìn)行訓(xùn)練)設(shè)置下,Rex-Omni 的性能出色:Rex-Omni 的 F1-score(特別是 F1@IoU=0.5)首次展現(xiàn)出超越 Grounding DINO 等開放集專家模型的能力,并與 DINO 等傳統(tǒng)封閉集模型持平或更高。這有力證明了離散預(yù)測的 MLLM,在精確的定位能力上完全可以與回歸專家模型正面競爭。

COCO 評(píng)估結(jié)果

LVIS 評(píng)估結(jié)果

可視化結(jié)果可以看到,Rex-Omni 無論是定位框的精準(zhǔn)度還是分類精準(zhǔn)度都與傳統(tǒng)模型如 Grounding DINO 不相上下。
2)密集以及小物體檢測性能評(píng)估
密集場景是 MLLM 的傳統(tǒng)弱項(xiàng),極度依賴于模型的精細(xì)坐標(biāo)預(yù)測和輸出調(diào)控能力。在 VisDrone 和 Dense200 等極具挑戰(zhàn)的密集 / 微小目標(biāo)檢測任務(wù)上,Rex-Omni 取得了 MLLM 中的最高性能: Rex-Omni 的 F1@mIoU 性能在 MLLM 中居于榜首。GRPO 強(qiáng)化學(xué)習(xí)后訓(xùn)練為模型帶來了實(shí)質(zhì)性的性能飛躍,解決了 SFT 階段容易產(chǎn)生的結(jié)構(gòu)化重復(fù)預(yù)測等問題,使模型能夠精準(zhǔn)識(shí)別和定位大量微小對(duì)象。如下圖所示,Rex-Omni 能夠準(zhǔn)確地檢測出大量密集物體,且得益于其 4-Token 坐標(biāo)編碼,相比于 SEED1.5-VL 等模型,Rex-Omni 在輸出相同數(shù)量目標(biāo)時(shí),耗費(fèi)的 Token 數(shù)減少了 90% 以上,極大保障了在密集場景下的推理速度和效率。


3)全能制霸:統(tǒng)一框架下實(shí)現(xiàn)對(duì)多任務(wù)的通用處理
Rex-Omni 在一個(gè)統(tǒng)一的「下一個(gè)點(diǎn)預(yù)測」框架內(nèi),實(shí)現(xiàn)了對(duì)各種視覺感知任務(wù)的通用處理,并展現(xiàn)出強(qiáng)大的競爭力:
- 對(duì)象指代(Referring Object Detection): 在 RefCOCOg 和 HumanRef 等指代表達(dá)理解任務(wù)上,MLLM 普遍優(yōu)于傳統(tǒng)開放集檢測器。Rex-Omni 取得了領(lǐng)先的高度競爭性性能,再次印證了 MLLM 在語義理解和視覺對(duì)齊上的天然優(yōu)勢。


- 對(duì)象點(diǎn)選(Object Pointing): 該任務(wù)評(píng)估模型對(duì)精確點(diǎn)坐標(biāo)的預(yù)測能力。Rex-Omni 在 COCO、LVIS、VisDrone 等所有測試數(shù)據(jù)集上均取得 F1-Score 領(lǐng)先成績(MLLM 中最高),充分展示了其強(qiáng)大的精細(xì)空間定位能力。

- 復(fù)雜空間指代(RefSpatial-Bench): 在要求模型進(jìn)行推理來定位對(duì)象或自由空間(如「在桌上、鍵盤左側(cè)」)的任務(wù)中,Rex-Omni 在 MLLM 中表現(xiàn)突出,其泛化能力更勝一籌。
- GUI 與 OCR: 在 GUI 定位和布局分析任務(wù)中,Rex-Omni 表現(xiàn)出卓越的跨場景泛化能力。在 OCR 的 BBOX 輸出上,Rex-Omni 性能也與專用專家模型 PaddleOCRv5 具有高度競爭力。


深度分析:GRPO 如何「解鎖」MLLM 的定位潛能?
為什么僅用少量數(shù)據(jù)進(jìn)行 GRPO 后訓(xùn)練,就能帶來如此顯著的性能飛躍?論文通過深入分析揭示了其背后的機(jī)制:
1. 解鎖潛在能力,而非從零學(xué)習(xí)

在不同訓(xùn)練階段的模型性能隨著訓(xùn)練數(shù)據(jù)增加的變化
如上圖所示,SFT 階段模型的性能隨數(shù)據(jù)量增加而平穩(wěn)上升并逐漸趨于平臺(tái)期。然而,GRPO 階段僅需極少的訓(xùn)練步驟,就能使性能曲線出現(xiàn)陡峭的躍升。
這表明,SFT 模型實(shí)際上已經(jīng)具備了強(qiáng)大的定位「潛能」,但受限于「教師強(qiáng)制」的訓(xùn)練方式,這些潛能在自主推理時(shí)未能充分釋放。GRPO 就像一把鑰匙,通過獎(jiǎng)勵(lì)反饋解鎖了這些潛在能力。
2. 核心貢獻(xiàn):是「行為矯正」,而非單純的「像素微調(diào)」
深入分析發(fā)現(xiàn),GRPO 對(duì)最終性能的貢獻(xiàn),主要來自于對(duì)模型錯(cuò)誤行為的系統(tǒng)性矯正,而非僅僅是讓坐標(biāo)精度提高幾個(gè)像素:
- 消除重復(fù)預(yù)測: SFT 模型由于缺乏自主調(diào)節(jié)輸出的能力,極易產(chǎn)生大量重復(fù)框。實(shí)驗(yàn)顯示,若手動(dòng)刪除 SFT 輸出中的重復(fù)項(xiàng),其性能會(huì)有顯著提升。而 GRPO 模型幾乎自動(dòng)學(xué)會(huì)了避免這種重復(fù),無需后處理。
- 糾正「大框」謬誤: 在密集場景下,SFT 模型傾向于「偷懶」,預(yù)測一個(gè)覆蓋全圖的大框(占比高達(dá) 20.5%)。GRPO 通過幾何獎(jiǎng)勵(lì)強(qiáng)力抑制了這種行為(降至 3.5%),迫使模型去啃「硬骨頭」,精準(zhǔn)定位每一個(gè)微小目標(biāo)。

3. 提升高質(zhì)量輸出的「采樣概率」
研究還發(fā)現(xiàn),SFT 模型其實(shí)有能力生成非常精準(zhǔn)的預(yù)測(在 Top-N 采樣中往往包含高質(zhì)量答案),但在貪心解碼時(shí)卻往往選擇了次優(yōu)解。GRPO 的作用在于顯著提升了模型采樣到那些高質(zhì)量、正確答案的概率,使其在實(shí)際應(yīng)用中更可靠。
總結(jié)
Rex-Omni 的工作為 MLLM 在視覺感知領(lǐng)域帶來了系統(tǒng)性的解決方案。它通過高效的坐標(biāo)編碼和 SFT+GRPO 兩階段訓(xùn)練范式,成功證明了 MLLM 能夠克服離散預(yù)測所帶來的幾何和行為局限性,實(shí)現(xiàn)了精確幾何感知與魯棒語言理解的有效融合。Rex-Omni 在零樣本目標(biāo)檢測任務(wù)上,首次展現(xiàn)出超越傳統(tǒng)回歸專家模型的潛力,并在指代、點(diǎn)選、GUI 等多項(xiàng)任務(wù)中實(shí)現(xiàn)了強(qiáng)大的通用處理能力,這不僅為 MLLM 領(lǐng)域樹立了新的性能標(biāo)桿,更重要的是,它提供了一套可行的、具有競爭力的范式,表明 MLLM 有望成為結(jié)合語義推理與精確定位能力的統(tǒng)一模型。Rex-Omni 為下一代目標(biāo)檢測模型的構(gòu)建,提供了一個(gè)有力的基線和發(fā)展方向。























