精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare

發布于 2024-4-25 13:21
瀏覽
0收藏

近期,多模態大模型 (MLLM) 在文本中心的 VQA 領域取得了顯著進展,尤其是多個閉源模型,例如:GPT4V 和 Gemini,甚至在某些方面展現了超越人類能力的表現。但是開源模型的性能還遠遠落后于閉源模型,最近許多開創性的研究,例如:MonKey、LLaVAR、TG-Doc、ShareGPT4V 等已開始關注指令微調數據不足的問題。盡管這些努力取得了顯著的效果,但仍存在一些問題,圖像描述數據和 VQA 數據屬于不同的領域,圖像內容呈現的粒度和范圍存在不一致性。此外,合成數據的規模相對較小,使得 MLLM 無法充分發揮潛力。

8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

  • 論文標題:TextSquare: Scaling up Text-Centric Visual Instruction Tuning
  • 論文地址:https://arxiv.org/abs/2404.12803


為了減少這一差距,來自字節跳動 & 華東師大 & 華中科大的研究員提出了一種新的策略:Square--- 即從先進的閉源 MLLMs 中獲得大量的以文本中心的高質量 VQA 數據,并構建了一個千萬級指令微調數據集(Square-10M)。


VQA 數據生成


Square 策略方法包括四個步驟:自問 (Self-Questioning)、回答 (Self-Answering)、推理 (Self-Reasoning) 和評估 (Self-Evalution)。Self-Questioning 利用 MLLM 在文本圖像分析和理解方面的能力生成與圖像中文本內容相關的問題。Self-Answering 利用各種提示技術,如:思維鏈 CoT 和少樣本,提示回答這些問題。Self-Reasoning 利用 MLLMs 強大的推理能力,生成模型背后的推理過程。Self-Evalution 評估問題的有效性、與圖像文本內容的相關性以及答案的正確性,從而提高數據質量并減少幻覺。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

圖 1 TextSquare 和先進的閉源、開源模型的比較,在 10 個文本相關的 benchmark 上的平均排名超越了 GPT4V(排名 2.2 vs. 2.4)


基于 Square 方法,研究者從各種公共來源收集了一組多樣化的含有大量文本的圖像,包括自然場景、圖表、表單、收據、書籍、PPT、PDF 等構建了 Square-10M,并基于這個數據集訓練了以文本理解為中心的 MLLM TextSquare-8B。


如圖 1 所示,TextSquare-8B 在多個 benchmark 可取得與 GPT4V 和 Gemini 相媲美或更優的效果,并顯著超過了其他開源模型。TextSquare 實驗驗證了推理數據對 VQA 任務的積極影響,證明了其能夠在減少幻覺的同時提升模型性能。


此外,通過利用大規模的數據集,揭示了指令調整數據規模、訓練收斂損失和模型性能之間的關系。盡管少量的指令調整數據可以很好地訓練 MLLM,隨著指令調整數據的不斷擴大,模型的性能能得到進一步增長,指令微調數據和模型之間也存在著相對應的 scaling law。



8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

圖 2 VQA 數據合成的流程,包括數據生成(Self-Questioning、 Answering、Reasoning)、數據過濾(Evaluation)2 個階段 


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區

圖 3  Square-10M 的圖像分布和 QA 分布等詳細情況


數據收集


數據收集策略的主要目標是涵蓋廣泛的現實世界文本豐富的場景。為此,研究者收集了 380 萬張的富文本的圖像。這些圖像表現出不同的特性,例如,圖表和表格側重于具有密集統計信息的文本元素;PPT、屏幕截圖和 WebImage 是為文本和突出視覺信息之間的交互而設計的;文檔 / PDF、收據和電子商務包含具有精細和密集文本的圖像;街景源于自然場景。收集到的圖像形成了現實世界中文本元素的映射,并構成了研究以文本為中心的 VQA 的基礎。


數據生成


研究者利用 Gemini Pro 的多模態理解能力從特定數據源選擇圖像,并通過自問、自答、自我推理三個階段生成 VQA 及推理上下文對。


  • Self-Question: 這個階段會給定一些 prompt,Gemini Pro 會根據這些提示對圖像進行全面分析,并根據理解去生成一些有意義的問題。考慮到通用 MLLM 對文本元素的理解能力通常會比視覺模型弱,我們通過專門的 OCR 模型將提取的文本預處理到 prompt 中去。


  • Self-Answering: Gemini Pro對生成問題會利用思維鏈 (CoT) 和少樣本提示 (few-shot prompting) 等技術豐富上下文信息,提高生成答案的可靠性。


  • Self-Reasoning:這個階段會生成答案的詳細原因,迫使 Gemini Pro 更多的思考問題和視覺元素之間的聯系,從而減少幻覺并提高準確的答案。


數據過濾


盡管自我提問、回答和推理是有效的,但生成的圖像 - 文本對可能面臨幻覺內容、無意義問題和錯誤答案。因此,我們設計了基于 LLM 的評估能力的過濾規則,以選擇高質量的 VQA 對。


  • Self-Evaluation提示 Gemini Pro 和其他 MLLMs 判斷生成的問題是否有意義,以及答案是否足以正確解決問題。


  • Multi-Prompt Consistency 除了直接評估生成的內容外,研究者還在數據生成中手動增加提示和上下文空間。當提供不同的提示時,一個正確且有意義的 VQA 對應該在語義上一致。


  • Multi-Context Consistency 研究者通過在問題前準備不同的上下文信息來進一步驗證 VQA 對。


TextSquare-8B


TextSquare-8B 借鑒了 InternLM-Xcomposer2 的模型結構,包括 CLIP ViT-L-14-336 的視覺 Encoder,圖像分辨率進一步提升至 700;基于 InternLM2-7B-ChatSFT 的大語言模型 LLM;一個對齊視覺和文本 token 的橋接器 projector。


TextSquare-8B 的訓練包括三階段的 SFT:

第一階段,以 490 的分辨率全參數 (Vision Encoder, Projector, LLM) 微調模型。

第二階段,輸入分辨率增加到 700,只訓練 Vision Encoder 以適應分辨率變化。

第三階段,進一步以 700 的分辨率進行全參數微調。


TextSquare 證實,在 Square-10M 數據集的基礎上,具有 8B 參數和正常大小圖像分辨率的模型可以在以文本為中心的 VQA 上實現超過了大多數的 MLLM,甚至是閉源模型 (GPT4V、Gemini Pro) 的效果。


實驗結果


圖 4(a)顯示 TextSquare 具有簡單的算術功能。圖 4(b)顯示了理解文本內容并在密集文本中提供大致位置的能力。圖 4(c)顯示了 TextSquare 對表格結構的理解能力。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


MLLM Benchmark


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


  • Document-Oriented Benchmark 在文檔場景的 VQA Benckmark (DocVQA、ChartQA、InfographicVQA) 上平均提升 3.5%,優于所有開源模型,在 ChartQA 數據集上略高于 GPT4V 和 Gemini Pro,該模型分辨率僅 700,小于大多數面向文檔的 MLLM,如果分辨率進一步提高,相信模型性能也將進一步提高,Monkey 已證明這一點。


  • Scene Text-centric Benchmark自然場景的 VQA Benchmark (TextVQA、AI2D) 中取得了 SOTA 的效果,但與 baseline Xcomposer2 相比沒有較大改進,可能是因為 Xcomposer2 已經用了高質量的域內數據進行了充分優化。


  • Table VQA Benchmark 表格場景的 VQA Benchmark (WTQ、TabFact) 中取得到遠超 GPT4V 及 Gemini Pro 的效果,分別超過其他 SOTA 模型 3%。


  • Text-centric KIE Benchmark文本中心的關鍵信息提取 KIE 任務的 benchmark (SROIE、POIE),將 KIE 任務轉換成 VQA 任務,在兩個數據集都取得了最佳的性能,平均提升 14.8%。


  • OCRBench 包括文本識別、公式識別、文本中心 VQA、KIE 等 29 項 OCR 相關的評估任務,取得了開源模型的最佳性能,并成為第一個 10B 左右參數量達到 600 分的模型。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


  • General VQA and Hallucination Evaluation Benchmark在通用的 VQA Benchmark (VizWiz VQAv2、GQA、POPE) 上 TextSquare 相較于 Xconposer2 沒有顯著退化,仍然保持著最佳的性能,在 VisWiz 和 POPE 表現出顯著的性能,比各最佳的方法高出 3.6%,這突出了該方法的有效性,能減輕模型幻覺。


消融實驗


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


TextSquare 相較于 Xcomposer2 在各 benchmark 平均提升 7.7%。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


加入自評估后,模型性能有了明顯提升。


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


加入推理數據后有助于顯著提升性能以及減輕幻覺生成。


數據規模和收斂 loss & 模型性能關系


8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare-AI.x社區


隨著數據規模的增長,模型的 loss 繼續減少,而下降速度逐漸變慢。收斂損失和指令調整數據尺度之間的關系近似符合對數函數。


隨著指令調優數據的增長,模型的性能越來越好,但增長速度繼續放緩,也大致符合對數函數。


總體而言,在以文本為中心的 VQA 場景中,在指令調整階段存在相應的縮放定律,其中模型性能與數據縮放的對數成正比,可以指導潛在更大數據集的構建并預測模型性能。


總結


在本文中,研究者提出了構建高質量的以文本為中心的指令調優數據集(Square-10M)的 Square 策略,利用該數據集,TextSquare-8B 在多個 benchmark 上實現了與 GPT4V 相當的性能,并在各種基準測試上大幅優于最近發布的開源模型。


此外,研究者推導了指令調整數據集規模、收斂損失和模型性能之間的關系,以便為構建更大的數據集鋪平道路,證實了數據的數量和質量對模型性能至關重要。


最后,研究者指出,如何進一步提高數據數量和質量以縮小開源模型與領先模型之間的差距,被認為一個有高度希望的研究方向。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/zFsZsEgHtMUJMye_56j9Cw??

收藏
回復
舉報
回復
相關推薦
国产精品久久国产愉拍| 四虎成人免费在线| 二区三区精品| 亚洲制服丝袜在线| 精品国产免费久久久久久尖叫| 日韩精品一区二区在线播放| 国产精品第一| www.欧美精品一二区| 社区色欧美激情 | 成人免费黄色av| av资源网在线播放| 久久一区二区视频| 91在线高清免费观看| 成人午夜福利一区二区| 婷婷精品久久久久久久久久不卡| 亚洲影院在线观看| 日本视频一区二区在线观看| 精品国产亚洲av麻豆| 校园春色综合网| 欧美成人精品不卡视频在线观看| 97人妻天天摸天天爽天天| 四虎国产精品免费久久| 欧美视频不卡中文| 国产青草视频在线观看| 国产精品免费观看| 久久激情视频| 欧美黑人巨大xxx极品| 国产九九热视频| 岛国av在线网站| 亚洲免费观看视频| 亚洲va久久久噜噜噜久久狠狠| 理论片中文字幕| 国产一区二区在线影院| 国产精品久久91| 美日韩一二三区| 欧美精品日本| 亚洲国产精品99| wwwwwxxxx日本| 亚洲第一影院| 婷婷丁香激情综合| 国产成人在线小视频| 精产国品自在线www| 欧美国产乱子伦| 久久天天狠狠| 水中色av综合| 91免费观看视频| 国产一区二区高清不卡| 精品国产伦一区二区三区| 久久精品国产99久久6| 国产大片精品免费永久看nba| 国产手机在线视频| 国产在线日韩精品| 欧美剧情片在线观看| 激情综合网婷婷| 麻豆网站免费在线观看| 亚洲成av人片在线| 日韩精品一区二区免费| 色女人在线视频| 一区二区三区四区精品在线视频 | 国产精品电影一区二区| 欧美精品免费观看二区| 无码国产精品一区二区色情男同 | 亚洲一区二区中文| 五月天婷婷丁香| 亚洲视频高清| 国内精品视频在线| 在线观看精品国产| 小嫩嫩精品导航| 国产精品极品美女粉嫩高清在线| 91麻豆精品在线| 麻豆91在线看| 亚洲一区二区三区成人在线视频精品| 国产人妖一区二区三区| 成人污污视频在线观看| 国产精品wwwwww| www.久久网| 精品一区二区三区在线观看国产| 成人福利网站在线观看| 国产精品伊人久久 | 成人免费在线网址| 999av视频| 不卡高清视频专区| 欧洲一区二区在线| 日本暖暖在线视频| 一区二区三区免费观看| 黄色动漫网站入口| 91伊人久久| 日韩欧美一二三区| 91小视频网站| 在线手机中文字幕| 91久久精品日日躁夜夜躁欧美| 男人插女人下面免费视频| jizz久久久久久| 精品美女被调教视频大全网站| 懂色av粉嫩av蜜乳av| 色偷偷综合网| 91国偷自产一区二区三区的观看方式| 婷婷伊人五月天| 激情综合在线| 国产久一一精品| 男人天堂av网| 国产精品美女一区二区在线观看| 国产精品久久国产| 日韩欧美精品电影| 日韩欧美在线观看一区二区三区| 丝袜制服一区二区三区| 成人黄色91| 日韩黄色av网站| 黄色录像一级片| 国产精品丝袜xxxxxxx| 91免费国产网站| 天天躁日日躁狠狠躁伊人| 国产精品久久久久久亚洲伦| 欧美精品久久久久久久久久久| 亚洲精品一区三区三区在线观看| 精品1区2区在线观看| 日本 欧美 国产| 国产乱码精品| 痴汉一区二区三区| 激情在线小视频| 欧美亚一区二区| 亚洲永久无码7777kkk| 欧美黄色aaaa| 国产精品羞羞答答| 国产精品一区二区三区四区色| 亚洲成人综合在线| 自拍日韩亚洲一区在线| 动漫一区二区三区| 色噜噜狠狠色综合网图区| 久久久久久久久久久影院| 国产精品77777| 亚洲 欧洲 日韩| 成人涩涩视频| 亚洲网址你懂得| 国产精品久久久久久久久久久久久久久久久 | 在线不卡一区| 在线成人中文字幕| 免费黄色在线网址| 国产精品久久久免费| 成人av免费看| av免费网站在线观看| 欧美日韩和欧美的一区二区| 91 视频免费观看| 日韩大片在线播放| 国产精品嫩草影院久久久| 看电影就来5566av视频在线播放| 精品国产精品自拍| 日本一级片在线播放| 亚洲精品中文字幕99999| 国产综合在线视频| 欧美一区二区三区激情| 亚洲在线免费播放| 18禁一区二区三区| 久草成人在线| 欧美最顶级丰满的aⅴ艳星| 亚洲日本在线播放| 日韩欧美一区二区三区| 少妇光屁股影院| 久久高清免费观看| 天堂√在线观看一区二区 | 成人久久18免费网站图片| 3d成人动漫在线| 在线综合+亚洲+欧美中文字幕| 亚洲伦理一区二区三区| 国产综合色在线| 日韩精品久久一区二区| 岛国成人av| 国产91|九色| 国产人成在线观看| 欧美日韩色一区| 欧美色图亚洲视频| 成人动漫精品一区二区| 凹凸国产熟女精品视频| 欧美日韩一二三四| 亚洲a区在线视频| 激情图片在线观看高清国产| 国产秀色在线www免费观看| 北条麻妃一区二区三区| 国产视频九色蝌蚪| 国产乱码精品一区二区三区四区| 国产精品视频26uuu| av软件在线观看| 亚洲国产婷婷香蕉久久久久久| aaaaaa毛片| 一区在线中文字幕| 久久久午夜精品福利内容| 视频一区二区三区在线| 3d动漫啪啪精品一区二区免费| 黄页网站在线观看免费| 亚洲欧美日韩精品久久| 91精品国产乱码久久久| 国产清纯白嫩初高生在线观看91| 亚洲 欧美 综合 另类 中字| 久久97精品| 国产精品男人的天堂| 日本乱理伦在线| 亚洲欧美日韩一区在线| 国产毛片一区二区三区va在线| 亚洲国产精品视频| 国产福利在线导航| 不卡在线观看av| 污污的视频免费| 亚洲美洲欧洲综合国产一区| 一区二区三区三区在线| 91在线成人| 久久久亚洲欧洲日产国码aⅴ| 成人在线观看黄色| 亚洲国产黄色片| 国产成人久久精品77777综合 | 中文字幕中文字幕一区三区| 韩国精品福利一区二区三区| 国产一区深夜福利| 天天免费亚洲黑人免费| 欧美成年人视频| 粉嫩av一区| 日韩高清免费观看| 国产成人三级一区二区在线观看一 | 亚洲精品xxxx| 99国产在线播放| 色国产综合视频| 日本熟妇毛耸耸xxxxxx| 亚洲人精品一区| 久久久国产欧美| 亚洲免费播放| 9色porny| 欧美fxxxxxx另类| 亚洲综合av一区| 国产欧美日韩影院| 久久偷窥视频| 国产女人18毛片水真多18精品| 91久久中文字幕| 韩日精品一区| 国产成人高潮免费观看精品| 国产精品13p| 久久乐国产精品| 九色91在线| 欧美极品xxxx| 黄色在线看片| 久久久影视精品| 97天天综合网| 欧美黄色三级网站| 亚洲电影视频在线| 九色精品免费永久在线| 菠萝蜜视频国产在线播放| 精品国偷自产在线视频| 日本在线免费| 久久天天躁狠狠躁夜夜躁| 日本a级在线| 久久亚洲一区二区三区四区五区高 | 国产福利91精品| 国内精品国产三级国产aⅴ久| 国内精品自线一区二区三区视频| 91aaa精品| 国产99一区视频免费| 国产精品无码自拍| 成人ar影院免费观看视频| 波多野结衣加勒比| 91美女片黄在线观看| 国产精品亚洲无码| 国产香蕉久久精品综合网| 国产美女永久免费无遮挡| 欧美—级在线免费片| а天堂中文在线资源| 亚洲精品视频在线看| 精品97人妻无码中文永久在线| 成人a区在线观看| 亚洲调教欧美在线| 国产一区二区三区美女| 国产亚洲色婷婷久久| 成人午夜短视频| 制服丝袜第二页| 久久精品人人做人人综合| 日韩av片在线免费观看| 亚洲猫色日本管| 奇米影视第四色777| 在线观看国产精品网站| 国产精彩视频在线| 精品久久香蕉国产线看观看亚洲| 天天干天天色综合| 欧美剧情片在线观看| 欧美一级免费片| 亚洲少妇激情视频| aaa大片在线观看| 欧美在线国产精品| 日本电影久久久| 成人自拍视频网站| 欧洲杯半决赛直播| 欧美高清中文字幕| 日韩中文欧美在线| 久久aaaa片一区二区| eeuss影院一区二区三区| 亚洲综合第一区| 亚洲一区二区三区美女| 国产99久久久久久免费看| 日韩欧美一级在线播放| 九色视频成人自拍| 欧美国产日韩二区| 成人看片在线观看| 成人免费看片网站| 清纯唯美日韩| 日本在线xxx| 国产又粗又猛又爽又黄91精品| 一级特黄a大片免费| 亚洲免费观看高清完整版在线观看熊| 国产成人在线观看网站| 91.成人天堂一区| 久草在现在线| 国自在线精品视频| 精品成人18| 五月婷婷一区| 亚洲视频大全| 性xxxxxxxxx| 国产精品久久毛片a| 黄色片网站在线免费观看| 日韩欧美二区三区| av免费在线一区二区三区| 3344国产精品免费看| 日韩在线成人| 精品久久免费观看| 日韩—二三区免费观看av| 亚洲黄色免费在线观看| 一区二区三区美女视频| 中文字幕日本人妻久久久免费 | 国产精品亚洲精品| 在线视频亚洲专区| 国产av天堂无码一区二区三区| 国内精品国产三级国产a久久| 人妻aⅴ无码一区二区三区| 午夜欧美一区二区三区在线播放| aa视频在线免费观看| 日韩日本欧美亚洲| 国产黄色小视频在线| 国产精品美女视频网站| 蜜臀av免费一区二区三区| 国产69精品久久久久久久| 成人免费毛片aaaaa**| 欧美久久久久久久久久久久| 91精品婷婷国产综合久久性色 | 精品自拍视频在线观看| 日本一区二区中文字幕| 亚洲国产一区二区精品视频 | 一区二区三区在线视频播放| 国产又大又长又粗| 日韩有码在线播放| 久久人人视频| 宅男av一区二区三区| 久久69国产一区二区蜜臀| 亚洲欧美精品久久| 正在播放亚洲一区| 新版中文在线官网| 粉嫩av四季av绯色av第一区| 亚洲视频日本| 亚洲最大的黄色网| 日韩欧美主播在线| 国产在线资源| 国产精品免费在线免费 | xxx成人少妇69| 日韩精品视频中文字幕| wwwwww欧美| 99久久99久久精品免费看蜜桃| 日本道在线观看| 国产丝袜一区二区三区| 丝袜美腿诱惑一区二区三区| 日韩欧美亚洲日产国产| 久久国产欧美日韩精品| 日韩三级在线观看视频| 日韩欧美电影一二三| а√天堂中文在线资源8| 欧美一区二区在线| 麻豆精品久久精品色综合| 日韩女优一区二区| 亚洲国产小视频| 九色成人搞黄网站| 国产a级黄色大片| 99久久亚洲一区二区三区青草 | 波多野结衣在线播放| 久久福利电影| 日产国产高清一区二区三区 | 国产精品精品| 黄页网站在线看| 欧美性猛交xxxx黑人猛交| 在线观看国产原创自拍视频| 97人人干人人| 久久久国产精品一区二区中文| 国产精品69久久久久孕妇欧美| 日韩精品中文字幕在线一区| 中文字幕资源网在线观看免费| 视频一区二区三区在线观看| 国产不卡视频在线观看| www.国产毛片| 久久成人国产精品| 亚洲成人一品| www.亚洲自拍| 日韩欧美中文在线| 50度灰在线| 日本在线视频一区| 成人性色生活片| 中文字幕 日韩有码| 久久久久久久一区二区| 日本一二区不卡|