多模態大模型Detect Anything量化坐標設計思路

發布于 2025-10-27 08:46

瀏覽

0收藏

本文僅看Rex-Omni中關于坐標量化的思路。

Detect Anything via Next Point Prediction,https://arxiv.org/abs/2510.12798

多模態大模型Detect Anything量化坐標設計思路-AI.x社區

檢測器在定位方面表現優異，但缺乏語言理解能力。多模態大模型（MLLMs）語言理解能力較強，但在定位方面存在困難。2）檢測器與多模態大模型（MLLMs）在最優化難度上的差異

Rex-Omni 的核心思路是：將 “連續坐標回歸” 轉化為 MLLM 擅長的 “離散 token 預測任務”。因此，任務目標就是讓 MLLM “能懂坐標”。

多模態大模型Detect Anything量化坐標設計思路-AI.x社區

直接坐標預測策略

多模態大模型Detect Anything量化坐標設計思路-AI.x社區

使用由特殊 token 表示的量化相對坐標格式，以實現高效且穩健的空間編碼

具體做法：

坐標量化：將圖像坐標系的連續坐標（通常圖像尺寸歸一化后為0~1）離散化為0~999的整數范圍。例如，某目標框左上角x坐標為0.321，量化后為321；右下角y坐標為0.876，量化后為876。

特殊token表示坐標：為每個量化后的坐標值（0~999）分配一個專屬的特殊token（而非用普通文本token拼接，如“3”“2”“1”表示321）。例如：

量化坐標“321”對應特殊token<321>；
目標框的4個坐標（x1,y1,x2,y2）=（10,20,40,100）被表示為<x1> <y1> <x2> <y2>=（<10><20><40><100>）的token序列。

任務轉化為“下一個token預測”：將目標檢測任務融入MLLM的核心范式——“序列生成”。例如，輸入“檢測圖像中的貓”，模型需生成“貓 <123> <456> <789> <901>”的序列，其中后4個特殊token即對應貓的目標框。如果是定位文字輪廓（需要多邊形），就輸出更多符號，比如<10><5><20><5><20><15><10><15>；如果是標點（比如杯子把手），就輸出 2 個符號<80><60>。

本文轉載自??大模型自然語言處理???? 作者：老余

標簽

贊

回復