精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不再靠「猜坐標」!顏水成團隊等聯合發布PaDT多模態大模型:實現真正的多模態表征輸出

人工智能 新聞
新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊,攜同華南理工大學、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機構的研究團隊,提出了一種全新的統一范式 —— Patch-as-Decodable Token(PaDT)。

近年來,多模態大語言模型(Multimodal Large Language Models, MLLMs)在圖文理解、視覺問答等任務上取得了令人矚目的進展。然而,當面對需要精細空間感知的任務 —— 比如目標檢測、實例分割或指代表達理解時,現有模型卻常常「力不從心」。其根本原因在于:當前主流 MLLMs 仍依賴將視覺目標「翻譯」成文本坐標(如 [x1, y1, x2, y2] )的方式進行輸出。

這種方式不僅存在格式混亂、解析困難,還容易因數字被拆分成多個獨立文本 token(如 489 -> 4, 8, 9),導致語義丟失、圖文脫節,從而出現重復生成甚至「幻覺」現象。

針對這一核心瓶頸,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊,攜同華南理工大學、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機構的研究團隊,提出了一種全新的統一范式 —— Patch-as-Decodable Token(PaDT)。

PaDT 的核心思想很簡單但顛覆性:

  1. 把圖像劃分成多個視覺小塊(patch),并讓模型可以直接生成這些小塊對應的視覺令牌(Visual Reference Tokens, VRTs)。
  2. 在 MLLMs 的輸入和輸出端中,實現文本令牌與視覺令牌的無縫交替出現,讓模型「說」圖像內容就像「說」文字一樣自然。
  3. 從而使模型不再「猜坐標」,而能在生成句子中直接指出圖像目標。

憑借這一設計,PaDT 在檢測、分割、指代表達等任務上全面刷新 SOTA,甚至以僅 3B 參數的小模型超越了 78B 的 InternVL3!

  • 論文鏈接:https://huggingface.co/papers/2510.01954
  • 代碼地址:https://github.com/Gorilla-Lab-SCUT/PaDT
  • 模型權重:https://huggingface.co/PaDT-MLLM
  • PaperScope 解讀:https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想:從「說坐標」到「指圖像」

傳統 MLLMs(如 Qwen2.5-VL、InternVL3)在處理視覺任務時,通常將檢測框的坐標以字符串形式輸出。例如,模型可能會生成 「 [489, 120, 600, 300] 」。然而,這種做法存在三大痛點:

  1. 格式不一致:同一 Prompt 作為輸入,不同樣本可能生成絕對坐標、歸一化坐標、甚至非結構化文本格式,極大地增加目標解析難度;
  2. 語義斷裂:數字「489」會被拆成「4」「8」「9」三個獨立 token,破壞了空間連續性;
  3. 圖文關聯弱:坐標數字 token 本身不含語義,難以與圖像內容建立深層關聯,從而容易導致重復或幻覺生成。

圖 1:(a) 傳統方法輸出格式混亂;(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標 token 與圖像區域關聯弱;(c) PaDT 的 VRTs 與目標區域高度對齊;(d) 單個 VRT 的熱力圖顯示其預測具有空間連續性。

PaDT 的突破在于:不再讓模型「描述」位置,而是讓它「指向」圖像中的具體區域。

具體而言,PaDT 引入了 Visual Reference Tokens(VRTs)—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中,模型會動態地將當前圖像的 patch 特征擴展進文本詞表,形成一個「圖文一體」的動態嵌入表。這樣,模型在生成過程中,既可以輸出文字(如類別名),也可以插入 VRT(如<VRT_227>),后者直接對應圖像中的某個局部區域。

圖 2:PaDT 實現了文本 token 與視覺 patch token 的統一預測,使 MLLM 能同時輸出語義描述與空間定位。

這種設計巧妙地避開了傳統方法依賴全局視覺碼本(如 ClawMachine)的缺陷 —— 后者容易混淆相似物體,且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs 僅來自當前圖像,天然具備唯一性和空間一致性。

輕量解碼器 + 魯棒訓練:讓 VRTs 真正「生效」

僅有 VRTs 還不夠,如何將其轉化為具體的檢測框或分割掩碼?PaDT 設計了一個輕量級的 PaDT Decoder,僅由三個雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態,通過注入任務特定的可學習 token(如 box token、mask token 和 score token),即可統一解碼出 bounding box、segmentation mask 和置信度分數。

更關鍵的是,PaDT 提出了一套魯棒的訓練策略。傳統方法往往要求模型預測目標區域內的所有前景 patch,但這會導致訓練偏差和過擬合。PaDT 則在每次訓練時隨機采樣少量(如 5 個)前景 VRTs 作為監督信號,并通過一種掩碼交叉熵損失,動態屏蔽未選中的 VRT logits,從而鼓勵模型探索多樣化的有效視覺參考。

這種「少而精」的監督方式,不僅提升了模型泛化能力,還顯著降低了推理時的 token 消耗 —— 每個目標僅需 5 個 VRTs,遠少于逐字符生成坐標的開銷。

圖 3:PaDT 整體框架。圖像 patch 特征經動態嵌入模塊擴展為 VRTs,與文本 token 一同輸入 LLM;輸出序列中的 VRTs 被輕量解碼器轉換為結構化視覺結果。

性能炸裂:3B 模型干翻 78B 巨無霸

PaDT 的實驗結果堪稱驚艷。在 RefCOCO/+/g 的指代表達理解(REC)任務上,PaDT Pro(3B)以 93.6 的平均準確率,超越了參數量高達 78B 的 InternVL3(91.4)。而在指代表達分割(RES)任務中,PaDT 同樣大幅領先,即便對比使用 SAM 等強大分割基礎模型的方法(如 Text4Seg+SAM),依然保持優勢。

更令人震撼的是在 COCO 開放詞匯檢測任務上的表現。傳統 MLLMs 在此任務上 mAP 普遍低于 20,而 PaDT Pro(3B)一舉將 mAP 推高至 38.2,幾乎翻倍! 7B 版本更是達到 39.0 mAP,展現出極強的可擴展性。

圖 4:PaDT 在 RefCOCO/+/g 的指代表達理解(REC)任務結果。PaDT Pro (3B) 以 93.6 的平均準確率,超越了參數量高達 78B 的 InternVL3(91.4)。

圖 5:PaDT 在 RefCOCO/+/g 的指代表達分割(RES)任務結果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強大分割基礎模型的方法。

圖 6:PaDT 在 COCO 開放詞匯檢測上的結果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。

此外,團隊還構建了一個新的 Referring Image Captioning(RIC) 數據集,要求模型在生成描述時顯式關聯對象 ID。PaDT 在此任務上同樣大幅領先,CIDEr-D 分數從基線的 0.386 提升至 1.450,同時檢測指標(GreedyPrecision 達 82.3%)也證明其生成的 caption 具備極強的視覺 grounding 能力。

圖 7:Referring Image Captioning (RIC) 數據集。

為什么 PaDT 如此有效?

PaDT 的成功,源于其對 MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內「擬合」視覺信息,而是將視覺 patch 本身作為可生成的 token,實現了模態間的原生對齊。

首先,動態嵌入機制確保了 VRTs 與當前圖像的強綁定,避免了跨圖像混淆;其次,統一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息,簡化了訓練;最后,輕量解碼器將復雜的 dense prediction 任務從 LLM 中解耦,既保留了 LLM 的語義推理能力,又賦予了其精準的空間輸出能力。

值得一提的是,PaDT 還展現出強大的多任務泛化能力。通過聯合訓練 REC、RES、OVD 和 RIC 任務得到的 PaDT Pro 模型,僅通過切換 prompt 即可無縫切換任務,且性能普遍優于單任務模型,證明了該范式的通用性。

結語:邁向真正的通用多模態智能

PaDT 的提出,標志著 MLLMs 在細粒度視覺理解上邁出了關鍵一步。它不再滿足于「看圖說話」,而是能夠「指圖說話」—— 精準地指出圖像中的每一個相關區域,并生成對應的結構化輸出。

這項工作不僅在技術上實現了突破,更在理念上啟發我們:未來的通用人工智能,或許不應強行將一切信息壓縮到文本空間,而應允許不同模態以其最自然的形式共存與交互。

目前,PaDT 的代碼和 checkpoints(模型權重)已開源。對于關注多模態、計算機視覺與大模型融合的研究者和工程師而言,這無疑是一個值得關注和嘗試的新范式。

作者信息

蘇永怡 (第一作者)

華南理工大學博四研究生,A*STAR I2R 訪問學者,主要研究多模態大語言模型、基礎視覺模型、測試時領域適應課題。

  • 作者個人主頁:https://yysu.site/

張浩杰 (共同一作)

華南理工大學三年級研究生,微信視覺團隊實習生。主要研究多模態大模型、視頻生成模型、基礎視覺模型。

  • 作者個人主頁:https://zhang-haojie.github.io/
責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-13 09:39:13

2025-01-08 08:21:16

2024-11-13 15:00:00

模型數據

2024-05-21 07:54:30

視頻多模態語義檢索算法

2023-04-28 15:27:06

微軟模型

2024-12-18 18:57:58

2025-09-16 09:35:52

2024-12-30 00:01:00

多模態大模型Python

2023-05-15 12:14:02

ChatGPT語音模型

2023-10-17 12:34:04

2023-09-19 09:22:54

數據訓練

2024-03-25 12:30:18

AI訓練開源

2024-04-25 14:53:59

模型視覺

2024-09-25 14:53:00

2025-05-21 08:47:00

2024-01-04 17:21:08

訓練數據

2024-05-17 16:02:00

2025-03-19 09:30:00

2025-11-05 08:51:33

點贊
收藏

51CTO技術棧公眾號

亚洲第一页综合| av片在线免费看| 在线观看的黄色| 国产三级精品三级| 亚洲自拍小视频免费观看| 日韩精品一区二区三| 香蕉久久99| 欧美日本一区二区| 国产精品久久中文字幕| 国产大片在线免费观看| 国产一区二区不卡老阿姨| 91精品国产高清自在线看超| 中文字幕第二区| 日本成人精品| 在线观看亚洲一区| 国产91在线亚洲| 国产在线观看免费| 成人午夜私人影院| 成人国产在线激情| 亚洲欧美一区二区三区在线观看| 99久久www免费| 亚洲精品一区中文字幕乱码| 中文字幕一区二区三区四| 久热在线观看视频| 亚洲精品乱码久久久久久日本蜜臀| 麻豆传媒一区| 蜜臀av免费在线观看| 麻豆91精品视频| 日韩av观看网址| 精品无码人妻一区二区三区品| 日本一区二区免费高清| 日韩高清欧美高清| 日韩精品――色哟哟| 成人国产精品入口免费视频| 欧美日韩亚洲91| 久久在线中文字幕| 免费观看在线黄色网| 久久久久88色偷偷免费| 激情视频一区二区| 亚洲AV无码乱码国产精品牛牛| 另类综合日韩欧美亚洲| 国产精品99导航| 日韩 欧美 综合| 欧美日韩福利| 超碰97人人做人人爱少妇| 欧美日韩国产黄色| 成人动漫免费在线观看| 亚洲欧美日韩高清| 在线 丝袜 欧美 日韩 制服| 国产精东传媒成人av电影| 欧美一区二区免费视频| 欧美成人三级在线播放| jizz亚洲女人高潮大叫| 色婷婷精品久久二区二区蜜臂av| 日韩精品―中文字幕| 91美女精品| 婷婷夜色潮精品综合在线| 欧美日韩福利在线| 99爱在线观看| 都市激情亚洲色图| 日韩欧美一区三区| 精精国产xxx在线视频app| 亚洲成av人片| 干日本少妇首页| 91精品论坛| 在线观看国产日韩| 搡女人真爽免费午夜网站| 四虎4545www精品视频| 欧美性猛片aaaaaaa做受| 在线观看的毛片| 亚洲欧洲二区| 日韩欧美高清dvd碟片| 任你躁av一区二区三区| 美日韩黄色大片| 亚洲人成电影在线播放| 美女爆乳18禁www久久久久久| 欧美久久精品一级c片| 自拍偷拍亚洲区| 日本aⅴ在线观看| 亚洲网站啪啪| 日本成人黄色片| 亚洲天天综合网| 国产白丝精品91爽爽久久| 国产欧美一区二区视频| 经典三级在线| 亚洲特黄一级片| av免费观看国产| 桃色一区二区| 7777精品伊人久久久大香线蕉完整版 | 欧美日韩一区二区三区在线电影 | 国产三级在线观看| 中文字幕日韩精品一区| 日本久久久网站| aa级大片免费在线观看| 欧洲一区在线观看| 超级砰砰砰97免费观看最新一期| 久久99国产精品久久99大师| 一本色道久久综合狠狠躁篇的优点 | 中文字幕免费播放| 国产不卡视频在线观看| 日韩精品久久久| 女同视频在线观看| 欧美亚洲国产一区二区三区 | 久久精品国产欧美激情| 日本视频www| 另类调教123区| 国产精品美女久久久久av福利| 国产中文在线| 亚洲综合视频网| 亚洲三级视频网站| 蜜臀av一区| 久久久999精品| 欧美一区二区三区网站| 国产馆精品极品| 亚洲aⅴ天堂av在线电影软件| 国产剧情在线| 色婷婷av一区| 强迫凌虐淫辱の牝奴在线观看| 久久视频在线| 日韩av电影在线免费播放| а√中文在线资源库| 国产精品网曝门| 欧美三级午夜理伦三级| 91精品导航| 久久成人在线视频| 中文字幕一二区| 久久女同精品一区二区| 国产女主播自拍| 欧美视频二区欧美影视| 日韩小视频网址| 国产免费a视频| 91天堂素人约啪| 久艹在线免费观看| 精品三级国产| www.色综合| 中文字幕乱码中文字幕| 国产欧美一二三区| 黄色片一级视频| 美女视频亚洲色图| 久久免费少妇高潮久久精品99| 国产手机视频在线| 日韩毛片视频在线看| 国产野外作爱视频播放| 国产一区二区三区站长工具| 欧美亚洲成人免费| 色中色在线视频| 精品久久中文字幕| 国产麻豆xxxvideo实拍| 国产亚洲一区在线| 久久亚洲综合网| 欧美momandson| 亚洲免费一在线| 久久久久久久久久成人| 国产欧美综合在线| 亚洲老女人av| 我不卡手机影院| 亚洲www视频| 羞羞的视频在线观看| 欧美一区国产二区| 青娱乐av在线| 成人av电影在线网| 国产原创中文在线观看| 婷婷综合一区| 国产精品高潮粉嫩av| 91porn在线观看| 91精品中文字幕一区二区三区| frxxee中国xxx麻豆hd| 国产精品性做久久久久久| 中文字幕在线亚洲精品| 一区二区三区自拍视频| 26uuu另类亚洲欧美日本一| 欧美精品久久久久久久久久丰满| 91成人免费在线视频| 国产一二三四视频| 国产老肥熟一区二区三区| 狠狠噜天天噜日日噜| 精品国产导航| 国产成人亚洲综合| 麻豆网站在线| 亚洲成人网久久久| 亚洲天堂一区在线| 国产精品乱人伦一区二区| 日本亚洲一区二区三区| 夜夜嗨av一区二区三区网站四季av| 欧美日韩精品久久久免费观看| 88xx成人网| 久久99热精品| 国产在线电影| 7777精品伊人久久久大香线蕉经典版下载 | 亚洲欧美国产三级| 国产精品久久久久久久无码| 日韩国产高清在线| 青青草视频国产| 国产剧情在线观看一区| 91精品婷婷国产综合久久蝌蚪| 麻豆mv在线看| www.亚洲天堂| 偷拍25位美女撒尿视频在线观看| 欧美性大战xxxxx久久久| 免费在线看黄网址| 欧美国产日本视频| 国产chinese中国hdxxxx| 日韩综合在线视频| youjizz.com在线观看| 欧美美女在线| 高清免费日韩| 婷婷精品久久久久久久久久不卡| 韩国欧美亚洲国产| 成人在线app| 国产一区二区三区日韩欧美| 日批视频在线播放| 9191久久久久久久久久久| 色av性av丰满av| 亚洲国产日韩精品| 特一级黄色录像| 久久久精品人体av艺术| 国产午夜在线一区二区三区| 久久超碰97中文字幕| 成人久久久久久久久| 欧美日韩伊人| 五月天色婷婷综合| 欧美日韩国产一区二区三区不卡| 成人资源av| 97色婷婷成人综合在线观看| 国产91色在线|| 九色porny自拍视频在线观看 | 亚洲一二三在线观看| 久久久九九九九| 中国美女乱淫免费看视频| 国产91丝袜在线播放0| 欧美国产日韩另类| 久久精品免费看| 国产自偷自偷免费一区 | 亚洲小说图片| 国产亚洲精品久久飘花| 网站一区二区| 1卡2卡3卡精品视频| 亚洲三级电影| 91亚洲国产成人久久精品网站| 国产亚洲精品精品国产亚洲综合| 国产精品www色诱视频| 日本精品不卡| 青青草原一区二区| 成人免费影院| 日本中文字幕成人| 自拍视频在线看| 欧美一区深夜视频| 亚洲永久av| 清纯唯美亚洲激情| 欧美性suv| 国产福利视频一区二区| 日本精品裸体写真集在线观看| 日本精品视频在线观看| 成人美女黄网站| 国产精品视频免费在线| www一区二区三区| 91在线免费网站| japanese色系久久精品| 高清一区二区三区视频| 老牛精品亚洲成av人片| 女同一区二区| 欧美日韩在线播放视频| 亚洲一区三区在线观看| 亚洲女同中文字幕| 4444亚洲人成无码网在线观看| 欧美区国产区| 久久精品国产sm调教网站演员| 99热精品在线| 亚洲精品一二三四五区| 麻豆成人久久精品二区三区红 | 成人av免费在线观看| 欧美丰满少妇人妻精品| 国产免费成人在线视频| av在线播放中文字幕| 亚洲天堂久久久久久久| 亚洲精品在线观看av| 色诱亚洲精品久久久久久| 中文字幕乱码在线观看| 日韩欧美卡一卡二| 青青免费在线视频| 中文字幕欧美亚洲| 中文字幕在线三区| 欧美一区二区三区……| 欧洲精品久久久久毛片完整版| aaa级精品久久久国产片| 青青操综合网| 一区二区三区视频| 亚洲国产高清一区二区三区| 日韩手机在线观看视频| 国产精品资源站在线| 国产网站无遮挡| 中文字幕一区二区三区在线播放| 国产乡下妇女做爰视频| 欧美性大战久久久久久久| 免费看黄色一级视频| 国产一区二区三区视频| 日本欧美电影在线观看| 国产成人久久精品| 91国内精品| 夜夜爽www精品| 久久国产福利| 风韵丰满熟妇啪啪区老熟熟女| 国产亚洲综合在线| 久久免费黄色网址| 欧美三级中文字幕| 神马久久久久| 欧美精品18videos性欧美| 福利精品一区| 久久久99爱| 欧美成人日韩| 岛国毛片在线播放| 26uuu久久天堂性欧美| 精品97人妻无码中文永久在线| 在线欧美日韩国产| 天堂中文在线看| 欧美成人sm免费视频| 全球最大av网站久久| 久久伊人一区二区| 在线播放精品| 超碰中文字幕在线观看| 中文字幕成人av| 国产www在线| 亚洲成人免费网站| 国产福利在线免费观看| 91精品在线一区| 欧美理论视频| 免费激情视频在线观看| 91亚洲精华国产精华精华液| 动漫精品一区一码二码三码四码| 777久久久精品| 搞黄网站在线观看| 成人精品久久av网站| 成人在线免费视频观看| www.国产区| 久久久美女艺术照精彩视频福利播放| 国产一卡二卡在线播放| 日韩欧美电影一区| av网站在线免费| 91在线高清视频| 五月开心六月丁香综合色啪 | 亚洲视频综合网| 欧美性xxx| 日本欧美精品久久久| 六月婷婷一区| 熟女少妇内射日韩亚洲| 日本乱人伦aⅴ精品| 国产在线视频网址| 国产成人精品在线观看| 精品免费视频| 久久人人爽av| 亚洲美女精品一区| www.五月婷婷| 久久久久久久国产| 欧美成a人免费观看久久| 99视频在线免费播放| 99久久99久久综合| 国产伦精品一区二区三区视频我| 亚洲欧美日韩成人| 99久久精品一区二区成人| 亚洲日本欧美在线| 韩国欧美一区二区| 久久免费黄色网址| 日韩电影在线观看永久视频免费网站| 三妻四妾的电影电视剧在线观看| 欧美大香线蕉线伊人久久国产精品| 免费日韩av| 国产一区二区三区四区在线| 欧美日韩精品二区第二页| 国产精品剧情一区二区在线观看| 99视频在线播放| 亚洲综合三区| 超碰97av在线| 日韩免费一区二区| 深夜成人在线| 亚洲国产日韩欧美| 国产成人午夜电影网| 日韩精品久久久久久久酒店| 亚洲人精品午夜在线观看| 国产精品久久久久久久久免费高清| 天天爱天天做天天操| 成人激情动漫在线观看| 高潮毛片又色又爽免费| 日韩在线激情视频| 一区二区网站| 国产a视频免费观看| 中文字幕中文在线不卡住| www黄色网址| 国产成人jvid在线播放| 91精品电影| 中文字幕狠狠干| 欧美精品丝袜久久久中文字幕| av在线视屏| 亚洲福利av| zzijzzij亚洲日本少妇熟睡| 一级一级黄色片| 久久久久久久电影一区| 日韩毛片视频| 亚洲av成人片色在线观看高潮| 欧美日韩在线播放一区| av白虎一区|