多模態大模型Detect Anything量化坐標設計思路
本文僅看Rex-Omni中關于坐標量化的思路。
Detect Anything via Next Point Prediction,https://arxiv.org/abs/2510.12798

檢測器在定位方面表現優異,但缺乏語言理解能力。多模態大模型(MLLMs)語言理解能力較強,但在定位方面存在困難。2)檢測器與多模態大模型(MLLMs)在最優化難度上的差異
Rex-Omni 的核心思路是:將 “連續坐標回歸” 轉化為 MLLM 擅長的 “離散 token 預測任務”。因此,任務目標就是讓 MLLM “能懂坐標”。

直接坐標預測策略

使用由特殊 token 表示的量化相對坐標格式,以實現高效且穩健的空間編碼
具體做法:
- 坐標量化:將圖像坐標系的連續坐標(通常圖像尺寸歸一化后為0~1)離散化為0~999的整數范圍。例如,某目標框左上角x坐標為0.321,量化后為321;右下角y坐標為0.876,量化后為876。
- 量化粒度(1000級)的選擇:平衡“精度”與“學習難度”——粒度太粗會導致框不準,太細會增加token數量(降低效率),1000級在實驗中被驗證為最優。
- 特殊token表示坐標:為每個量化后的坐標值(0~999)分配一個專屬的特殊token(而非用普通文本token拼接,如“3”“2”“1”表示321)。例如:
- 量化坐標“321”對應特殊token
<321>; - 目標框的4個坐標(x1,y1,x2,y2)=(10,20,40,100)被表示為
<x1> <y1> <x2> <y2>=(<10><20><40><100>)的token序列。
- 任務轉化為“下一個token預測”:將目標檢測任務融入MLLM的核心范式——“序列生成”。例如,輸入“檢測圖像中的貓”,模型需生成“貓 <123> <456> <789> <901>”的序列,其中后4個特殊token即對應貓的目標框。如果是定位文字輪廓(需要多邊形),就輸出更多符號,比如<10><5><20><5><20><15><10><15>;如果是標點(比如杯子把手),就輸出 2 個符號<80><60>。
?
本文轉載自??大模型自然語言處理???? 作者:老余
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















