精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

華為諾亞開源首個億級中文多模態數據集,填補中文NLP社區空白

數據庫 開源
華為諾亞方舟實驗室的研究者提出了一個大規模的中文的跨模態數據庫 ——「悟空」,并在此基礎上對不同的多模態預訓練模型進行基準測試,有助于中文的視覺語言預訓練算法開發和發展。

在大數據上預訓練大規模模型,對下游任務進行微調,已經成為人工智能系統的新興范式。BERT 和 GPT 等模型在 NLP 社區中越來越受歡迎,因為它們對廣泛的下游任務甚至零樣本學習任務具有很高的可遷移性,從而產生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP 進一步將這一范式擴展到視覺語言聯合預訓練 (VLP) 領域,并在各種下游任務上顯示出優于 SOTA 方法的結果。這一有希望的方向引起了行業和研究人員的極大關注,將其視為通向下一代 AI 模型的途徑。

促成 VLP 模型成功的原因有兩個。一方面,更高級的模型架構(如 ViT/BERT)和訓練目標(如對比學習)通常能夠提升模型泛化能力和學得表示的穩健性。另一方面,由于硬件和分布式訓練框架的進步,越來越多的數據可以輸入到大規模模型中,來提高模型的泛化性、可遷移性和零樣本能力。在視覺或者語言任務中,先在大規模數據(例如圖像分類中的 JFT-300M、T5 中的 C4 數據集)上預訓練,之后再通過遷移學習或者 prompt 學習已被證明對提高下游任務性能非常有用。此外,最近的工作也已經顯示了 VLP 模型在超過 1 億個來自網絡的有噪聲圖像 - 文本對上訓練的潛力。

因此,在大規模數據上預訓練的 VLP 模型的成功促使人們不斷地爬取和收集更大的圖文數據集。下表 1 顯示了 VLP 領域中許多流行的數據集的概述。諸如 Flickr30k、SBU Captions 和 CC12M 等公開可用的視覺語言(英語)數據集的樣本規模相對較小(大約 1000 萬),而規模更大的是像 LAION-400M 的數據集。但是,直接使用英文數據集來訓練模型會導致中文翻譯任務的性能大幅下降。比如,大量特定的中文成語和俚語是英文翻譯無法覆蓋的,而機器翻譯往往在這些方面會帶來錯誤,進而影響任務執行。

目前,社區缺乏大規模公開可用的中文數據集,不僅導致社區發展受阻,而且每項工作都使用一個私密的大型數據集來實現,達到一個其它工作無法公平比較的驚人性能。

為了彌補這一差距,華為諾亞方舟實驗室的研究者發布了一個名為「悟空」的大型中文跨模態數據集,其中包含來自網絡的 1 億個圖文對。為了保證多樣性和泛化性,悟空數據集是根據一個包含 20 萬個高頻中文單詞列表收集的。本文還采用基于圖像和基于文本的過濾策略來進一步完善悟空數據集,使其成為了迄今為止最大的中文視覺語言跨模態數據集。研究者分析了該數據集,并表明它涵蓋了廣泛的視覺和文本概念。

  • 論文地址:https://arxiv.org/pdf/2202.06767.pdf
  • 數據集地址:https://wukong-dataset.github.io/wukong-dataset/benchmark.html

研究者還進一步發布了一組使用不同架構(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)大型預訓練模型。本文的主要貢獻如下:

  • 發布了具有 1 億個圖文對的大規模視覺和中文語言預訓練數據集,涵蓋了更全面的視覺概念;
  • 發布了一組使用各種流行架構和方法預訓練好的大規模視覺 - 語言模型,并提供針對已發布模型的全面基準測試;
  • 發布的預訓練模型在數個中文基準測試任務,例如由 17 個數據集組成的零樣本圖像分類任務和由 5 個數據集組成的圖像文本檢索任務,表現出了最優性能。

「悟空」數據集

研究者構建了一個名為悟空的新數據集,該數據集包含從網絡收集的 1 億個圖文對。為了涵蓋足夠多樣的視覺概念,悟空數據集是由包含 20 萬個詞條的查詢列表里收集的。這個基礎查詢列表取自 Yan Song 等人的論文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根據華為的海量新聞文本語料庫中出現的中文單詞和短語的頻率進行過濾后所得。

查詢列表建好后,研究者在百度圖片搜索每個查詢,以獲取圖片 URL 列表和相應的標題信息。為了保持不同查詢結果間的平衡,他們每個查詢最多搜索 1000 個樣本。然后使用先前獲得的圖像 URL 下載圖像,最終共收集了 1.66 億個圖文對。然后按照慣例,研究者通過下文的一系列過濾策略來構建最終的悟空數據集。下圖 2 顯示了悟空數據集中的一些樣本。

基于圖像的過濾

研究者首先根據圖像的大小和長寬比對數據進行過濾。只保留長或寬超過 200 像素且長寬比不超過 3 的圖像。這種方式過濾掉了太小、太高或太寬的圖像,因為這些圖像在預訓練期間經過上采樣和方形裁剪等圖像增強手段后,可能變成低分辨率。

基于文本的過濾

其次,為了使選擇的樣本具有對應圖像的高質量中文描述,研究者根據圖像所附文本的語言、長度和頻率對數據進行進一步過濾。具體來說,他們首先檢查了語言和長度,保留了包含至少一個但少于 32 個漢字的句子。同時還會丟棄無意義的圖像描述,例如「000.jpg」。之后,與太多圖片配對的文字通常與圖片內容無關,例如「查看源網頁」(View source page)、「展開全文」(Expand text)、「攝影部落」(Photography community)。實際中,研究者將此閾值設置為 10,即丟棄掉在收集的整個語料庫中出現超過 10 次的圖文對。

為了保護文本中出現的個人隱私,研究者將人名替換為特殊標記「< 人名 >」,此外,他們還構建了一個中文敏感詞列表,包含敏感詞的圖文對也被丟棄。

應用上述過濾策略后,研究者最終得到一個約 1 億對的數據集。下表 2 顯示了數據集的統計量:數據集文本中有 20,442 個唯一 token,每個描述中的平均 token 數為 22。

在下圖 3 中,研究者可視化了數據集中單詞(由一個或多個 token 組成)的分布。然后,他們使用中文文本分詞工具 Jieba 來截取單詞并構建數據集的詞云。

方法架構

文本 - 圖像聯合對齊

與最近經過充分驗證的方法類似,研究者采用了對比預訓練架構,如下圖 1 所示。他們使用一個帶有基于 Transformer 的文本和圖像編碼器的雙流模型。這兩個編碼器將文本和視覺輸入 token 轉換為相同維度的嵌入。在這個學習到的聯合嵌入空間中,研究者使用對比損失來鼓勵成對的圖像和文本具有相似的嵌入,而不成對的具有不同的嵌入。

模型架構

由于視覺和文本模態的編碼器是解耦的,因此可以為這兩種模態探索不同的編碼器架構。研究者試驗了三種視覺編碼器變體(即 ResNet、Vision Transformer 和 Swin Transformer)以及一個單一的類 BERT 文本編碼器來訓練中文 VLP 模型。

預訓練目標

跨模態對比學習是一種從成對的圖像 - 文本數據中訓練模型的特別有效的方法,它可以通過區分成對和不成對的樣本同時學習兩種模態的表示。研究者遵循 FILIP(Yao 等人,2022)中的公式標記,使用

去定義圖像樣本集合,同時

代表文本數據。給定一個圖像樣本

和一個文本樣本

,該模型的目標是讓聯合多模態空間中的配對的圖像和文本表示接近,不配對的則遠離。

在這項工作中,研究者探索了兩種衡量圖像和文本之間相似度的方法。圖像和文本的學得表示分別標記為

。這里,n_1 和 n_2 是每個圖片和文本中的(未填充的)詞 token 的數量。

LiT-tuning

研究者受到了最近提出的一種微調范式 LiT-tuning(Locked-image Text tuning)的啟發,該范式表明權重固定的圖像編碼器和可學習的文本編碼器在 VLP 模型中效果最好。他們在對比學習設置中也采用了同樣的方式,即只更新文本編碼器的權重,而不更新圖像編碼器的權重。

具體而言,研究者采用的 LiT-tuning 方法旨在教一個中文的文本編碼器從一個現有的圖像編碼器中讀取合適的表示,該圖像編碼器是在英文數據集上預訓練過。他們還為每個編碼器添加了一個可選的可學習線性變換層,它將兩種模式的表示映射到相同的維度。LiT-tuning 之所以效果很好,是因為它解耦了用于學習圖像特征和視覺語言對齊的數據源和技術(Zhai 等人,2021b)。并且,圖像描述器事先使用相對干凈或(半)手動標記的圖像進行了良好的預訓練。

研究者將這一想法擴展到多語言數據源,并嘗試將在英文數據源上預訓練的固定了的圖像編碼器和可訓練的中文文本編碼器對齊。此外,LiT-tuning 方法顯著加快了訓練過程并減少了內存需求,因為它不需要為視覺編碼器計算梯度。

實驗結果

下表 3 描述了模型參數和視頻編碼器的細節。

零樣本圖像分類。研究者在 17 個零樣本圖像分類任務上評估預訓練模型。零樣本圖像分類的結果如下表 5 所示。他們比較了使用不同視覺編碼器的多個 LiT -tuning 模型,即從 CLIP 或 Swin Transformer 加載現有的視覺編碼器并在訓練階段固定它們的權重。結果發現,使用 token 水平的相似度比使用全局相似度會帶來更顯著的改進。

圖文檢索任務。研究者在兩個子任務,即以圖搜文和以文搜圖上做了評估。下表 6 和表 7 分別顯示了零樣本設定和可以微調的圖文檢索的結果。對于零樣本設置,相比其它模型,Wukong_ViT 在 4 個數據集中的 3 個上取得了最好的結果,而 Wukong_ViT-500M 在更大的 MUGE 數據集上取得了最好的結果。對于微調設置,Wukong_ViT-500M 則在除 AIC-ICC 之外的所有數據集上都取得了最好的結果,其中 Wukong_ViT 效果最好。

詞匯 - 圖塊對齊的可視化。研究者使用預訓練模型 Wukong_ViT 和 Wukong_Swin 進 行可視化。如圖 4 所示,其中可視化來自中文的 ImageNet 的六個標簽(即豆娘、救生艇、蜂鳥、平板手機、教堂和電風扇)的圖像。然后應用與 FILIP(Yao 等人,2022)相同的可視化方法來對齊文本和圖塊 token。

從下圖 4 中,研究者發現兩種模型都能夠預測目標物體的圖像塊。對于具有更多圖像塊的 Wukong_ViT,這種詞匯 - 圖塊對齊比 Wukong_Swin 更加細粒度。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2022-02-16 13:46:00

模型數據開源

2024-11-13 15:00:00

模型數據

2025-05-14 08:51:00

2024-07-29 08:52:00

模型數據

2020-07-06 10:59:00

智慧城市大數據人工智能

2025-09-26 10:58:03

AI視覺語言模型

2011-03-21 14:48:20

魂芯一號

2023-08-30 08:30:03

2024-12-18 18:57:58

2022-08-05 08:48:16

員工技能數據

2025-07-16 09:44:29

2023-03-30 15:54:50

開源安全

2022-07-17 13:07:26

模型開源

2025-08-18 08:30:00

AI模型開源

2023-04-05 19:33:14

文心一言ChatGPT人工智能

2015-07-17 11:00:30

DCIMBMS數據中心

2024-01-29 07:15:00

模型數據

2024-03-25 12:30:18

AI訓練開源
點贊
收藏

51CTO技術棧公眾號

亚洲女人在线观看| 亚洲成人自拍| www.欧美色| 波多野结衣一区| 精品视频一区二区三区免费| 成人在线免费观看网址| 无码精品视频一区二区三区| 久久国产66| 超碰精品一区二区三区乱码| 中文字幕a在线观看| 日本一区免费网站| 亚洲一区二区在线视频| 欧美主播一区二区三区美女 久久精品人| 亚洲精品国产精品国自| 日韩国产一二三区| 天天av天天翘天天综合网色鬼国产| 成人免费午夜电影| 人人干人人干人人干| 日韩不卡一区| 亚洲国产三级网| 久久人人爽av| 超级碰碰久久| 亚洲一区免费观看| 一区二区三区视频| 撸视在线观看免费视频| 国产乱码精品一区二区三区忘忧草 | 国产精品一级视频| 久久精品综合| 久久噜噜噜精品国产亚洲综合| 97人人爽人人| 在线女人免费视频| 亚洲综合av网| 香蕉精品视频在线| av在线首页| 91亚洲永久精品| 99在线影院| 国产又爽又黄免费软件| 青青草国产精品97视觉盛宴| 78色国产精品| 国产精品白丝喷水在线观看| 不卡中文字幕| 亚洲视频专区在线| 中文字幕在线免费看线人| 国产一精品一av一免费爽爽| 欧美午夜电影网| 国产精品无码专区av在线播放 | 欧美亚洲黄色片| 欧美激情二区| 国产日韩在线不卡| 欧美一区免费视频| 久久手机免费观看| 久久这里都是精品| 国产精品加勒比| www.蜜臀av.com| 国产精品99久久久| 亚洲va久久久噜噜噜| 91禁在线观看| 激情都市一区二区| 91久久精品视频| 国产美女明星三级做爰| 韩日欧美一区二区三区| 亚洲一区二区免费在线| 国产av无码专区亚洲av麻豆| 久草这里只有精品视频| 国产伦精品一区二区三区精品视频| jizz亚洲少妇| 欧美午夜在线视频| 国内免费久久久久久久久久久 | 国产精品电影网站| 欧美另类高清videos的特点| 天堂av在线一区| 国产精品va在线播放| 久久久久久久久久一级| 久久精品国产精品青草| 91精品视频在线播放| 99精品久久久久久中文字幕| 国产成人免费视频网站| 国产伦精品一区二区三区视频孕妇| 艳妇乳肉豪妇荡乳av无码福利| 久久久久久免费视频| 亚洲国产成人91精品| 国产人妻黑人一区二区三区| 四虎5151久久欧美毛片| 影音先锋欧美精品| 丝袜美腿小色网| 99伊人成综合| 国产精品羞羞答答| 亚洲精品国产片| 久久免费电影网| 亚洲日本无吗高清不卡| 欧美24videosex性欧美| 欧美三级欧美成人高清www| 免费看污黄网站| 另类视频一区二区三区| 日韩国产精品亚洲а∨天堂免| 古装做爰无遮挡三级聊斋艳谭| 欧美电影免费看| 欧美久久高跟鞋激| 香港三日本8a三级少妇三级99| 国产日韩欧美中文在线| 精品亚洲va在线va天堂资源站| 国产精品嫩草69影院| 一区二区三区视频免费观看| www.久久撸.com| 日本熟女一区二区| 美国十次了思思久久精品导航 | 久久久久久黄色| 四虎免费在线观看视频| 亚洲啊v在线| 日韩一区二区在线看| 久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 久久精品无码一区二区三区毛片| 国产91欧美| 91精品国产一区二区人妖| 久久午夜夜伦鲁鲁片| 99精品电影| 日韩美女主播视频| 亚洲精品一区二区三区四区 | 9.1成人看片| 国产高清一区| 欧美自拍大量在线观看| 超碰在线观看99| 国产精品欧美一级免费| 毛片av免费在线观看| 日韩一二三区在线观看| 最新91在线视频| 久久久精品毛片| 99re热视频这里只精品| 欧美 亚洲 视频| 亚洲国产伊人| 亚洲视频在线观看| 午夜婷婷在线观看| av亚洲精华国产精华| 综合网五月天| 日本久久一区| 最新的欧美黄色| 波多野结衣一区二区在线| 99国产精品视频免费观看| 成年人深夜视频| 欧美不卡在线观看| 美日韩精品视频免费看| 国产精品国产精品国产专区| 国产精品天天摸av网| 精品免费国产一区二区| 欧洲亚洲成人| 91av福利视频| 日韩av成人| 欧美日韩中国免费专区在线看| 91欧美视频在线| 欧美日韩在线播放视频| 国产脚交av在线一区二区| 久青青在线观看视频国产| 日韩欧美在线第一页| 秘密基地免费观看完整版中文| 蜜臀久久99精品久久一区二区| 在线观看日韩欧美| 男人天堂视频网| 久久精品欧美日韩| 色多多视频在线播放| av在线亚洲色图| 久久久久久久久电影| 欧美 日韩 综合| 天天色天天操综合| 国产又黄又粗又猛又爽的视频| 日韩欧美一区二区三区免费看| 欧美成人亚洲成人日韩成人| a天堂在线视频| 亚洲国产精品精华液网站| 制服丝袜第一页在线观看| 中文久久精品| 日韩伦理一区二区三区av在线| 天堂av在线电影| 亚洲国产日韩欧美综合久久 | 亚洲高清不卡在线| 污污内射在线观看一区二区少妇| 久久国产亚洲| 91在线观看免费高清| 黄色影院在线看| 亚洲男人7777| 国产又粗又大又爽视频| 亚洲摸摸操操av| 久久久老熟女一区二区三区91| 久久精品国内一区二区三区水蜜桃| 欧美怡红院视频一区二区三区| a级片在线播放| 精品福利在线看| 成人在线手机视频| 国产精品自拍网站| 国产欧美在线一区| 91九色精品| 精品国产免费一区二区三区 | 国产日韩欧美在线| 亚洲91av| 亚洲欧美精品在线| 国产精品一二三四五区| 欧美性xxxx18| 午夜国产福利一区二区| 久久一区二区三区国产精品| 香蕉视频999| 午夜在线精品| 影音先锋男人的网站| 亚洲影院天堂中文av色| 92福利视频午夜1000合集在线观看| 黄网页免费在线观看| 亚洲精美色品网站| 国产精品视频a| 黑人精品xxx一区| 免费在线观看a级片| 久久综合色播五月| 日本成人在线免费| 久久国产精品第一页| 国自产拍偷拍精品啪啪一区二区| 欧美黑人巨大videos精品| 国产成人亚洲精品| 2018av在线| 久久97精品久久久久久久不卡| 国产高清免费av| 在线观看日韩高清av| 日韩欧美国产亚洲| 亚洲男人的天堂一区二区| 少妇一级黄色片| 91美女视频网站| 中文在线字幕观看| 国产综合色在线| 日本人视频jizz页码69| 亚洲影音先锋| 日本网站免费在线观看| 国产精品二区影院| 天堂а√在线中文在线| 欧美日韩国产一区二区三区不卡| 成人性生交大片免费看视频直播 | 佐山爱在线视频| 日韩中文欧美在线| 免费看的黄色大片| 亚洲作爱视频| 国产自产在线视频| 欧美日韩日本国产亚洲在线| 手机在线视频你懂的| 97久久视频| 一区二区三区四区免费视频| 国产探花一区| 日本一区二区精品| 国产亚洲欧美日韩在线观看一区二区 | 97久久精品人人做人人爽| 国产成人精品一区二区三区在线观看| 精品成人在线| 亚洲欧美日韩在线综合| 久久国产精品成人免费观看的软件| 99高清视频有精品视频| 国产麻豆一区二区三区| 亚洲综合一区二区不卡| 久久亚洲精精品中文字幕| 成人做爰www免费看视频网站| 国产直播在线| 欧美一级大片在线免费观看| 日本不良网站在线观看| 97视频在线免费观看| 欧美13videosex性极品| 欧美最顶级的aⅴ艳星| 桃色一区二区| 国产精品视频最多的网站| 日本黄色成人| aa日韩免费精品视频一| 国产在线播放精品| 久久久久久草| av一区二区在线观看| 一区不卡字幕| 欧美视频在线观看| 国产97在线 | 亚洲| 日韩中文字幕不卡| 国产福利精品一区二区三区| 国产成人亚洲综合色影视| 天天影视色综合| 国产sm精品调教视频网站| 午夜av免费看| 亚洲国产激情av| 欧美亚洲日本在线| 精品国产鲁一鲁一区二区张丽| 欧美精品入口蜜桃| 激情成人中文字幕| jizz国产在线观看| 3751色影院一区二区三区| 高清乱码毛片入口| 亚洲欧洲视频在线| av在线导航| 欧美一区二区三区免费观看| 精品国产黄a∨片高清在线| 亚洲一区二区三区四区在线播放 | 国产一区二区三区色淫影院| 亚洲女娇小黑人粗硬| 做爰高潮hd色即是空| 精品成人在线| 午夜免费看视频| 不卡免费追剧大全电视剧网站| 一级黄色免费视频| 国产拍欧美日韩视频二区| 亚洲成人生活片| 欧洲亚洲国产日韩| 亚洲黄色精品视频| 中文字幕久久久av一区| hd国产人妖ts另类视频| 国产区亚洲区欧美区| 五月国产精品| 国产一级做a爰片久久毛片男| 欧美日韩99| 五月天婷婷激情视频| 成人97人人超碰人人99| 性生交大片免费全黄| 红桃视频成人在线观看| 国产毛片毛片毛片毛片| 亚洲人成在线免费观看| 国内老司机av在线| 成人免费淫片视频软件| 国产精品嫩模av在线| 日本一级黄视频| 久久aⅴ国产欧美74aaa| av女人的天堂| 精品成人av一区| 不卡视频免费在线观看| 久久精品国产视频| 成人在线免费电影网站| 久久免费视频1| 在线观看一区视频| 4438x全国最大成人| 一区在线观看视频| 18国产免费视频| 亚洲日韩中文字幕在线播放| 1区2区在线| 国产精品美女诱惑| 国产一区清纯| 欧美性猛交乱大交| 亚洲欧洲一区二区三区| 中文在线字幕av| 伊人激情综合网| 欧美人体一区二区三区| 精品视频第一区| 99在线观看免费视频精品观看| 日韩av片网站| 久久久99久久| 黄色av网站免费| 亚洲欧美制服综合另类| 一个人www视频在线免费观看| 国产中文字幕日韩| 日本精品三区| 天天干天天综合| 中文字幕一区二区三区不卡 | 无码人妻精品一区二区三应用大全| 国产日韩欧美高清在线| 婷婷激情五月综合| 一区二区三区四区视频| 亚洲高清黄色| 丝袜足脚交91精品| 久久综合综合久久综合| 2014亚洲天堂| 日韩一区二区三区视频在线| 免费在线看污片| 国产精品一区二区免费| 亚洲国产婷婷| 91精品人妻一区二区| 色婷婷精品久久二区二区蜜臂av | 97超碰成人| 男人日女人视频网站| xfplay精品久久| 国产精品久久久久久久久夜色| 亚洲国产欧美久久| 三级成人在线| 伊人精品久久久久7777| 国产成人av影院| 久久99精品波多结衣一区| 亚洲品质视频自拍网| av在线播放一区二区| 亚洲中文字幕无码av永久| 2023国产精品| 91tv国产成人福利| 欧美劲爆第一页| 亚欧日韩另类中文欧美| 欧美两根一起进3p做受视频| 中文字幕中文字幕一区| 午夜久久久久久噜噜噜噜| 2019中文字幕在线| 欧美电影一二区| 天堂www中文在线资源| 欧美优质美女网站| 免费av不卡在线观看| 欧美大香线蕉线伊人久久| 久久国产精品免费| 美日韩一二三区| 日韩三级影视基地| 欧美三级自拍| 中文字幕免费高清在线| 午夜精品在线视频一区| a中文在线播放| 国产综合欧美在线看| 麻豆国产欧美一区二区三区| 日韩 欧美 亚洲| 最近2019年中文视频免费在线观看| 精品69视频一区二区三区| 免费毛片网站在线观看| 国产精品久久一卡二卡| 午夜视频免费在线|