精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

到底什么是視覺語言模型?(分類/訓練/評估)

發布于 2024-6-20 12:11
瀏覽
0收藏

5月27日,Meta發布了Vision Language Model行業研究的綜述論文《An Introduction to Vision-Language Modeling》。全文干貨滿滿,但篇幅過長,所以筆者把每一章節放到獨立的文章中,方便對VLM領域感興趣的同學們一邊讀一邊翻譯一邊消化,覺得有用就一鍵三連吧~

*本文只摘譯精華部分,需要了解全文的請至文末跳轉至原文鏈接閱讀。*樓主會用GPTs翻譯形成初稿,然后自己精讀后完成終稿,力求每一句話自己都能理解后再輸出譯文。

引言

近年來,語言建模技術取得了顯著進展。許多大型語言模型(LLMs),如Llama或ChatGPT,現在能夠解決各種任務,其使用變得越來越普及。這些模型過去主要處理文本輸入,但現在擴展到了視覺輸入。將視覺與語言結合將開啟許多關鍵應用,這些應用對當前的AI技術革命至關重要。盡管已有多項工作將大型語言模型擴展到視覺領域,但語言與視覺的結合尚未完全解決。例如,大多數模型在理解空間關系或計數時存在困難,除非進行復雜的工程處理并依賴額外的數據標注。許多視覺語言模型(VLMs) 也缺乏對屬性和順序的理解。它們經常忽略輸入prompt的一部分,導致需要進行大量提示工程以產生期望的結果。此外,一些模型還可能產生不需要或不相關的內容。因此,開發可靠的模型仍然是一個非常活躍的研究領域。


這篇文章介紹了VLMs的基礎知識。作者將解釋什么是VLMs,它們是如何訓練的,以及如何根據不同的研究目標有效地評估VLMs。這篇文章不應被視為對VLMs的全面調查或指南,也因此不打算引用VLM研究領域的每一項工作,不會捕捉到該領域的每一個最佳實踐。相反,本文的目的是提供一個清晰易懂的VLM研究入門,并強調該領域的有效研究實踐。這篇介紹對希望進入該領域的學生或其他領域的研究人員特別有用。


文章首先介紹不同的VLM訓練范式,討論對比學習方法如何改變了該領域;接著介紹利用掩碼策略或生成組件的方法;最后介紹使用預訓練主干(如LLMs)的VLMs。將VLMs分類并非易事,因為它們大多有重疊的組件。然而,作者希望我們的分類能夠幫助新研究人員導航該領域,并揭示VLMs背后的內部機制。


文章接下來介紹了訓練VLMs的典型方法。例如本文討論了:哪些數據集適合不同的研究目標?哪種數據整理策略最有效?用戶是否需要訓練一個文本編碼器,還是可以利用預訓練的LLM?對比學習損失是否足以理解視覺,還是生成組件是關鍵?該章節還介紹了一些常用的技術,以提高模型性能以及改進對齊和基礎。


雖然提供訓練模型的方法是更好理解VLMs需求的關鍵步驟,但提供這些模型的穩健和可靠評估同樣重要。許多用于評估VLMs的基準最近被引入。然而,這些基準中的一些具有研究人員應該注意的基本局限性。通過討論VLM基準的優缺點,作者希望能闡明改進用戶對VLMs理解的挑戰。該章節首先討論評估VLMs視覺語言能力的基準,然后介紹如何衡量偏見。


下一代的VLMs將能夠通過將視頻映射到語言來理解視頻。然而,視頻存在一些圖像沒有的不同挑戰。計算成本當然要高得多,但還有其他關于如何通過文本映射時間維度的考慮。通過揭示從視頻中學習的當前方法,作者希望突出需要解決的當前研究挑戰。

通過降低進入VLM研究的門檻,Meta團隊希望為更負責任的VLM開發奠定基礎,同時推動視覺理解的邊界。

VLM的分類

隨著深度學習在計算機視覺和自然語言處理領域的顯著進展,已經有多個將這兩個領域結合的嘗試。本文重點介紹了基于transformers的最新技術,作者將這些最新的嘗試分為四種不同的訓練范式(見圖1)。

到底什么是視覺語言模型?(分類/訓練/評估)-AI.x社區

圖1:VLMs的分類

  • 第一種是對比訓練,這是一種常用策略,利用正負樣本對進行訓練。VLM通過預測正樣本對的相似表示和負樣本對的不同表示來進行訓練。
  • 第二種是掩碼方法,通過給定部分未掩碼文本來重建被掩碼的圖像塊。同樣,通過在標題中掩碼詞語,可以訓練VLM在給定未掩碼圖像的情況下重建這些詞語。
  • 基于預訓練模型的VLMs通常利用開源的LLMs(如Llama)來學習圖像編碼器(也可以是預訓練的)和LLM之間的映射。學習預訓練模型之間的映射通常比從頭開始訓練文本和圖像編碼器的計算成本更低。
  • 雖然大多數方法利用中間表示或部分重建,生成式VLMs通過生成圖像或標題進行訓練。由于這些模型的特點,它們通常訓練成本最高。


需要強調的是,這些范式并不互斥,許多方法結合了對比、掩碼和生成標準。對于每種范式,本文僅介紹一兩個模型,以便讀者對這些模型的設計有一個高層次的了解。詳見以下傳送門:


Meta最新Vision-Language Model研究綜述(一)——VLMs的分類(https://zhuanlan.zhihu.com/p/700599618)

VLM的訓練

最近的研究已經揭示了擴展計算能力對提高深度神經網絡性能的重要性。受到這些擴展規律的啟發,最近的許多研究都集中在增加計算資源和擴大規模,以學習更好的模型。這導致了像CLIP這樣的模型,它在極高計算預算下訓練了4億張圖像。即使是它的開源版本OpenCLIP,也在256到600個GPU上訓練了多天或多周,具體取決于模型的大小。然而,最近的研究表明,通過使用數據管理流程,可以突破Scaling Laws的限制。


本文中首先討論數據在模型訓練中的重要性,并介紹一些用于創建VLM訓練數據集的方法。然后討論一些常用的軟件、工具和技巧,以更高效地訓練VLM。由于訓練VLM的方法有多種,本文還會探討在特定情況下應選擇哪種類型的模型。最后,本文還會介紹一些提高基準的方法,即正確映射文本與視覺線索的能力。此外,作者還介紹了使用人類偏好來改進模型對齊的技術。VLM經常用于讀取和翻譯文本,因此也會介紹一些增強VLM OCR能力的方法,還會討論一些常見的微調方法。

到底什么是視覺語言模型?(分類/訓練/評估)-AI.x社區

圖2:訓練VLM時需要注意的重要因素。


圖2展示了一些訓練VLM時的重要因素。數據是訓練VLM的核心要素之一,為了學習涵蓋廣泛概念的優質模型,必須擁有多樣化且平衡的數據集。同時,刪除大型數據集中的重復數據非常重要,這不僅可以節省大量計算時間,還能減少模型記憶風險。此外,修剪數據也是關鍵步驟,需要確保圖像的標題確實反映了其內容。提高標題質量對于增強VLM的性能也至關重要。


正確關聯VLM中的詞匯和具體概念是另一個關鍵步驟。常見的方法包括使用邊界框或負面標題。最后,對齊模型的輸出與人類預期答案也是必不可少的步驟,以確保模型生成的回答符合人類的期望。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(二)——VLMs的訓練 (https://zhuanlan.zhihu.com/p/700728458)

VLM的評估

因為VLM的主要能力是將文本與圖像匹配,所以評估其視覺語言能力,確保詞語確實對應于視覺線索,至關重要。早期評估VLM的任務包括圖像描述和視覺問答(VQA)。此外,還有評估模型從圖像中理解和讀取文本能力的文本中心VQA任務。另一種常見評估方法是基于零樣本預測,例如ImageNet分類任務,這對于評估VLM的世界知識是否足夠非常重要。更近期的基準如Winoground則測量視覺語言組合推理能力。鑒于VLM模型常會顯示偏見或幻覺,因此評估這些問題同樣重要。

到底什么是視覺語言模型?(分類/訓練/評估)-AI.x社區

圖3:評估VLM的不同方法

圖3展示了評估VLMs的常用方法,視覺問答是最常用的一種。盡管這種方法通過精確字符串匹配來比較模型的答案和標準答案,但這可能會低估模型的實際性能。推理評估方法包括給VLM提供一個標題列表,并讓其選擇最可能的一個。在這一類中,兩個常用的基準是Winoground和ARO。最近,人們還可以使用密集的人工注釋來評估模型將標題準確映射到圖像相應部分的能力。最后,還可以使用像PUG這樣的合成數據生成不同配置的圖像,以評估VLM在特定變化下的魯棒性。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(三)——VLMs的評估 (https://zhuanlan.zhihu.com/p/700943845)

從圖像擴展到視頻

迄今為止,本主要關注的是在靜態視覺數據(圖像)上訓練和評估的VLMs。然而,視頻數據帶來了新的挑戰和潛在的新能力,例如理解物體的運動和動態,或在時間和空間上定位物體和動作。文本到視頻檢索、視頻問答和視頻生成迅速成為計算機視覺的核心任務。


視頻的時間維度在存儲、GPU內存和訓練方面帶來了幀率的挑戰。例如,如果每幀都被視為圖像,那么24幀每秒的視頻需要24倍的存儲和處理能力。這需要在視頻VLMs中進行權衡。例如,可以使用壓縮格式的視頻(如H.264編碼)并在數據加載器中即時解碼;從圖像編碼器初始化視頻編碼器;以及在視頻編碼器中引入空間/時間池化或掩碼機制。非端到端的VLMs通過離線提取視頻特征并訓練使用視頻特征而不是像素幀的模型,以處理長視頻數據。


與圖像-文本模型類似,早期的視頻-文本模型通過自監督準則從頭開始訓練視覺和文本組件。但與圖像模型不同,對比視頻-文本模型并不是首選方法,早期更傾向于視頻和文本的早期融合和時間對齊,因為在表示中更多的時間粒度比計算視頻的全局表示更有趣。最近,視頻-語言模型也出現了類似于圖像-語言模型的趨勢:使用預訓練的LLMs并與視頻編碼器對齊,增強LLMs的視頻理解能力。現代技術如視覺指令微調也常用于并適應于視頻數據處理。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(四)——從圖像擴展到視頻 (https://zhuanlan.zhihu.com/p/701035253)

總結

將視覺映射到語言仍然是一個活躍的研究領域。從對比學習方法到生成方法,有許多訓練VLMs的途徑。然而,高昂的計算和數據成本往往成為多數研究人員的障礙。這促使研究人員更多地利用預訓練的LLMs或圖像編碼器,僅學習模態之間的映射。不論使用何種技術來訓練VLMs,一些通用的考慮因素仍需注意。大規模高質量的圖像和描述是提升模型性能的重要因素。改進模型的基礎能力以及使模型符合人類偏好,也是提升模型可靠性的關鍵步驟。


為了評估模型性能,已經引入了多個基準來衡量視覺語言和推理能力;然而,其中許多基準存在嚴重的局限性,例如僅能通過利用語言先驗知識來解決問題。將圖像與文本綁定并不是VLMs的唯一目標;視頻也是一種重要的模態,可以用來學習表示。然而,在實現良好的視頻表示學習之前,仍有許多挑戰需要克服。VLMs的研究仍然非常活躍,因為還有許多關鍵組件需要完善,以使這些模型更加可靠。


本文轉自  AI生成未來 ,作者:呂阿華


原文鏈接:??https://mp.weixin.qq.com/s/tMRfiDG_MldVlv-5GzBLMQ??

收藏
回復
舉報
回復
相關推薦
国产精品久久久久影院亚瑟| 久久免费国产| 欧美成人官网二区| 亚洲午夜精品久久久久久人妖| 欧美视频综合| 久久国产精品99精品国产| 欧美成人合集magnet| 中国一级特黄录像播放| 久久久久女人精品毛片九一| 亚洲人成亚洲精品| 亚洲欧美日韩一区二区三区在线观看| 亚洲一区二区三区xxx视频| 国产污片在线观看| 国产综合久久久| 亚洲成国产人片在线观看| 欧美激情www| 国产ts人妖调教重口男| 日精品一区二区| 欧美大片免费观看在线观看网站推荐| 亚洲一区在线不卡| 欧美hdxxxx| 国产欧美一区二区精品秋霞影院| 99久久精品免费看国产四区| 欧美a级片免费看| 国产66精品| 欧美日韩精品一区二区三区四区| 国产原创popny丨九色| 欧美日韩在线看片| 国产亚洲精品中文字幕| 国产精品视频免费观看| 国产精品久久久久久无人区| 免费精品视频| 国产69精品久久久久9999| 黄色免费一级视频| 国产成人精品三级高清久久91| 欧美成人福利视频| 久久出品必属精品| 久久精品黄色| 一本色道久久综合亚洲91| 每日在线观看av| 日韩另类在线| 亚洲视频你懂的| 一区二区在线不卡| 国产天堂素人系列在线视频| 97久久精品人人澡人人爽| av激情久久| av天堂一区二区三区| 老司机精品视频一区二区三区| 欧美重口另类videos人妖| 国产亚洲精品久久久久久打不开| 国产精品久久久久无码av| 欧美三级中文字幕在线观看| 久久久久久久久久福利| 午夜影视一区二区三区| 午夜精品久久久久久| 18黄暴禁片在线观看| 欧美aaaxxxx做受视频| 一区二区三区国产| 国产亚洲欧美一区二区三区| 国产手机精品视频| 国产综合成人久久大片91| 国产情人节一区| 国产精品 欧美激情| 天天做天天爱天天综合网2021| 最近2019好看的中文字幕免费| 亚洲精品视频网址| 久久精品国产68国产精品亚洲| 亚洲视频999| 日韩中文字幕有码| 成人91在线| 日韩视频免费在线观看| 国产乱子轮xxx农村| 欧美a级在线| 欧美激情小视频| 一区二区三区视频免费看| 国产一级一区二区| 日韩免费黄色av| 影音先锋黄色网址| 欧美日韩国产高清| 久久久久国产精品免费| 免费观看成人毛片| 三级欧美韩日大片在线看| 国产玖玖精品视频| www日本高清| 91在线一区二区三区| 日本午夜精品电影| 黄色免费网站在线观看| 亚洲电影第三页| 大香煮伊手机一区| 最新日韩一区| 天天免费综合色| 茄子视频成人免费观看| 四虎影视精品永久在线观看| 日韩视频123| 午夜激情在线观看视频| 99久久久成人国产精品| 亚洲精品在线免费观看视频| 国产精品久久久久久9999| 一区二区三区视频免费视频观看网站| 亚洲福利视频久久| 日韩一级片在线免费观看| 欧美一区91| 国产不卡在线观看| 国产成人精品无码高潮| 久久久久综合网| 久久久成人精品一区二区三区| 黄色的视频在线免费观看| 国产精品久久久久久久久动漫 | 一区二区三区| 亚洲精品大尺度| 亚洲色图27p| 一本一本久久| 2022国产精品| 亚洲最大成人av| 波波电影院一区二区三区| 亚洲一区制服诱惑| 日韩电影免费| 亚洲激情六月丁香| 亚洲国产精品三区| 亚洲三级网址| 欧美福利在线观看| 亚洲图片欧美在线| 久久久综合网站| 国产一区二区片| 欧美亚洲二区| 国产一区二区动漫| 中文字幕在线看高清电影| 一区二区三区在线| 国产精品偷伦一区二区| 日韩有码电影| 亚洲图片欧美视频| 97人人模人人爽人人澡| 日韩精品免费一区二区在线观看 | 精品无码久久久久| 久久se这里有精品| 日本精品国语自产拍在线观看| 黄色aa久久| 精品国产三级a在线观看| 麻豆天美蜜桃91| 久久精品国产亚洲a| 日本成人三级| 欧美片第一页| 亚洲天堂日韩电影| 午夜精品免费观看| 日本一不卡视频| 欧美日韩一区二区视频在线观看 | 日韩暖暖在线视频| 午夜影院在线视频| 91麻豆文化传媒在线观看| 欧美狂野激情性xxxx在线观| 一区二区在线视频观看| 欧美乱人伦中文字幕在线| 国产视频在线观看视频| 一区二区三区欧美激情| 免费人成视频在线播放| 欧美一区不卡| 国产精品视频免费一区| 91丝袜在线| 亚洲国产私拍精品国模在线观看| 国产午夜激情视频| 91年精品国产| 中国丰满人妻videoshd| 欧美人与拘性视交免费看| 国产精品v片在线观看不卡| 玖玖综合伊人| 欧美亚一区二区| 美国一级黄色录像| 国产在线精品一区在线观看麻豆| 中文字幕av导航| 国产乱码精品一区二区三区亚洲人 | 国产在视频线精品视频www666| 国产999在线观看| 川上优的av在线一区二区| 欧美日韩一级视频| 色欲一区二区三区精品a片| 国产一区二区在线影院| 亚洲一区二区三区av无码| 精品国内亚洲2022精品成人| 欧美中在线观看| 欧美一级二级三级区| 日韩午夜三级在线| 日本中文字幕网| 国产亚洲成av人在线观看导航| 无码少妇一区二区三区芒果| 欧美3p在线观看| 国产91精品入口17c| 亚洲精品**中文毛片| 中文在线不卡视频| 成人激情四射网| 色吊一区二区三区| 精品自拍偷拍视频| 91丨porny丨国产| 色播五月综合网| 亚洲国产91| 国a精品视频大全| 欧美在线观看在线观看| 欧美精品三级在线观看| 日韩大片免费在线观看| 国产精品―色哟哟| 精品一区二区三区四区五区六区| 日韩黄色免费网站| 超碰超碰超碰超碰超碰| 婷婷精品久久久久久久久久不卡| 久久久久久国产免费| 高清在线观看av| 精品91自产拍在线观看一区| 国产情侣呻吟对白高潮| 亚洲永久精品大片| 欧美老女人性生活视频| 99久久精品费精品国产一区二区| a在线观看免费视频| 中文日韩欧美| 激情五月五月婷婷| 日韩欧美在线中字| 免费成人深夜夜行视频| 无码国模国产在线观看| 不用播放器成人网| 你懂的视频在线免费| 日韩限制级电影在线观看| 国产成人麻豆免费观看| 国产午夜精品一区二区三区视频 | 中文字幕乱码在线观看| 亚洲国产视频直播| 无码人妻精品一区二区三区夜夜嗨| 久久久精品黄色| 国产精品第七页| 国产成人精品影视| 99热这里只有精品2| 精一区二区三区| 美女黄色片视频| 久久精品毛片| 又粗又黑又大的吊av| 欧美丝袜足交| 国产精品三区在线| aaa国产精品视频| 成人久久一区二区三区| 91欧美精品| 国产精品户外野外| 秋霞国产精品| 国产精品第七影院| 欧美成人精品三级网站| 日本久久久久亚洲中字幕| 17videosex性欧美| 孩xxxx性bbbb欧美| 蜜桃传媒在线观看免费进入| 欧美精品一区三区| 污污的网站在线免费观看| 成人97在线观看视频| 最新av在线播放| 亚洲精品国产福利| 天堂av手机版| 日韩电影大片中文字幕| 无码国产色欲xxxx视频| 日韩精品小视频| 男女视频在线观看| 亚洲最大在线视频| 淫片在线观看| 久久精品国产91精品亚洲| bestiality新另类大全| 九九热这里只有在线精品视| 91福利国产在线观看菠萝蜜| 欧美黑人性视频| jizzjizz中国精品麻豆| 热久久99这里有精品| 91综合国产| 91在线网站视频| 一级毛片精品毛片| 久久久久一区二区| 成人a'v在线播放| 日本精品免费视频| 激情成人亚洲| 波多野结衣作品集| 国产原创一区二区三区| 欧美xxxxx少妇| 久久久久99精品国产片| a资源在线观看| 亚洲黄色免费网站| 日韩啊v在线| 欧美图片自拍偷拍| caoporm超碰国产精品| 无码人妻精品一区二区三应用大全| 久久久久国产精品麻豆| 国产一区在线观看免费| 一区二区三区精品在线观看| 毛片在线免费视频| 欧美日韩国产首页在线观看| 亚洲xxxx天美| 亚洲欧美日韩成人| 免费a在线看| 97在线免费观看| 日韩色性视频| 精品国产综合久久| 欧美国产偷国产精品三区| 国产日韩亚洲欧美在线| 久久精品天堂| 中文字幕亚洲日本| 久久久精品日韩欧美| 高h视频免费观看| 色综合一个色综合亚洲| hs视频在线观看| 国产亚洲福利一区| 超碰在线公开| 91在线视频精品| 国产精品手机在线播放| 国产欧美精品aaaaaa片| 免费成人小视频| 网站免费在线观看| 日韩美女视频一区| 日韩免费av网站| 精品国产91亚洲一区二区三区婷婷 | 东方伊人免费在线观看| 亚洲国产乱码最新视频| 一道本无吗一区| 亚洲美女视频网站| sm捆绑调教国产免费网站在线观看 | 日韩精品一区二区在线视频| 三级久久三级久久久| 欧美在线一级片| 亚洲男人的天堂一区二区| 中文字幕有码视频| 日韩电影视频免费| 久久香蕉一区| 51精品国产人成在线观看| 成人亚洲一区| 日韩视频在线免费看| 91在线观看下载| 日韩av一区二区在线播放| 日韩欧美一级二级三级| 免费a级在线播放| 国产精品网站入口| 欧美一级精品| 亚洲天堂av线| 欧美激情一区在线| 欧美brazzers| 亚洲图片在区色| 中文字幕av一区二区三区佐山爱| 久久99导航| 亚洲精品精选| 日韩精品一区二区三区高清免费| 亚洲在线一区二区三区| 免费av一级片| 欧美大片在线看| 这里视频有精品| 青草全福视在线| 国产高清一区日本| 九九免费精品视频| 精品国产成人系列| 久久青草伊人| 久久国产精品一区二区三区四区| 亚洲精品激情| 久久精品国产亚洲av麻豆| 91久久免费观看| 国产日本在线观看| 国产精品精品久久久久久| 成人动漫免费在线观看| 亚洲免费看av| 亚洲欧美日韩国产成人精品影院| 国产老女人乱淫免费| 美日韩精品免费视频| 中文字幕一区二区三区四区久久| www.av91| 国产亚洲欧美中文| 亚洲系列第一页| 欧美美最猛性xxxxxx| 国产精品毛片久久久| 国产男女无遮挡| 国产精品三级在线观看| 国产女人高潮时对白| 性视频1819p久久| 视频国产一区| 亚洲免费黄色录像| 国产麻豆精品theporn| 成人免费毛片东京热| 日韩av最新在线| 黄色成人小视频| 欧美视频在线观看视频| 91美女精品福利| 国产精品免费无遮挡| 国模精品视频一区二区| 国产精品一区高清| 99视频在线观看视频| 亚洲成人久久影院| av资源网站在线观看| 国产精品久久亚洲| 日本中文字幕一区二区视频 | 小处雏高清一区二区三区| 日本美女视频网站| 欧美中文字幕一区| 黄页网站在线观看免费| 少妇特黄a一区二区三区| 国产成人一区在线| 国产suv精品一区二区33| 欧美大胆在线视频| 视频一区中文| 亚洲成年人av| 欧美性受xxxx黑人xyx性爽| 污网站在线免费看| 婷婷久久伊人| 99精品视频在线免费观看| 国产精品嫩草影院桃色|