精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

計(jì)算機(jī)視覺GPT時(shí)刻!UC伯克利三巨頭祭出首個(gè)純CV大模型,推理驚現(xiàn)AGI火花

人工智能 新聞
UC伯克利的CV三巨頭推出首個(gè)無自然語言的純視覺大模型,第一次證明純CV模型也是可擴(kuò)展的。更令人震驚的是,LVM竟然也能做對(duì)圖形推理題,AGI火花再次出現(xiàn)了?

計(jì)算機(jī)視覺的GPT時(shí)刻,來了!

最近,來自UC伯克利的計(jì)算機(jī)視覺「三巨頭」聯(lián)手推出了第一個(gè)無自然語言的純視覺大模型(Large Vision Models),并且第一次證明了純視覺模型本身也是可擴(kuò)展的(scalability)。

除此之外,研究人員還利用超過420B token的數(shù)據(jù)集讓模型可以通過上下文學(xué)習(xí)來理解并執(zhí)行下游任務(wù),并且統(tǒng)一了圖片/視頻、有監(jiān)督/無監(jiān)督、合成/真實(shí)、2D/3D/4D等幾乎所有的數(shù)據(jù)形式。

論文地址:https://arxiv.org/abs/2312.00785

值得一提的是,讓LVM做非語言類智商測(cè)試(Raven's Progressive Matrices )中常見的非語言推理問題,它時(shí)常能做出正確的推斷。

對(duì)此,研究人員驚喜地表示,這或許意味著LVM也展現(xiàn)出了「AGI的火花」!

純視覺模型的逆襲

現(xiàn)在,隨著大語言模型的爆發(fā),不管是學(xué)術(shù)界還是業(yè)界,都開始嘗試使用「文本」來擴(kuò)大視覺模型的規(guī)模。

包括GPT4-V在內(nèi)的SOTA模型,都是把視覺和文字組合在一起訓(xùn)練的。

以「蘋果」為例,這種方法在訓(xùn)練時(shí)不僅會(huì)給模型看「蘋果的照片」,而且還會(huì)配上文字「這是一個(gè)蘋果」。

然而,在面對(duì)更加復(fù)雜的圖片時(shí),就很容易忽略其中大量的信息。

比如「蒙娜麗莎」應(yīng)該怎么去描述?或者擺滿各種物品的廚房的照片,也很難清晰地被描述出來。

圖片

對(duì)此,來自UC伯克利和約翰斯·霍普金斯大學(xué)的研究人員,提出了一種全新的「視覺序列」建模方法,可以在不使用任何語言數(shù)據(jù)的情況下,訓(xùn)練大規(guī)模視覺模型(Large Vision Model)。

這種名為「視覺序列」的通用格式,可以在其中表征原始圖像和視頻,以及語義分割、深度重建等帶標(biāo)注的數(shù)據(jù)源,且不需要超出像素之外的任何元知識(shí)。

一旦將如此廣泛的視覺數(shù)據(jù)(包含4200億個(gè)token)表征為序列,就可以進(jìn)行模型的訓(xùn)練,讓下一個(gè)token預(yù)測(cè)的交叉熵?fù)p失最小化。

由此得到的LVM模型,不僅可以實(shí)現(xiàn)有效地?cái)U(kuò)展,完成各種各樣的視覺任務(wù),甚至還能更進(jìn)一步地涌現(xiàn)出比如數(shù)數(shù)、推理、做智力測(cè)試等能力。

左:Alexei A Efros;中:Trevor Darrell;右:Jitendra Malik

簡單來說就是,大規(guī)模視覺模型只需看圖訓(xùn)練,就能理解和處理復(fù)雜的視覺信息,完全不用依賴語言數(shù)據(jù)。

純視覺模型的擴(kuò)展難題

此前,使用預(yù)訓(xùn)練模型的價(jià)值 (例如ImageNet預(yù)訓(xùn)練的 AlexNet) ,早在2015年就已經(jīng)在R-CNN中得到了證明。

從此, 它從此成為計(jì)算機(jī)視覺的標(biāo)準(zhǔn)實(shí)踐。

而自監(jiān)督預(yù)訓(xùn)練,作為一種大大增加可用于預(yù)訓(xùn)練的數(shù)據(jù)量的方法被提出。

不幸的是,這種方法并不是很成功,可能是因?yàn)楫?dāng)時(shí)基于CNN的架構(gòu)沒有足夠的能力來吸收數(shù)據(jù)。

隨著Transformer的推出,其容量變得高得多,因此研究人員重新審視了自監(jiān)督預(yù)訓(xùn)練,并發(fā)現(xiàn)了基于Transformer的掩碼圖像重建方法,例如BEiT, MAE,SimMIM,它們要比基于CNN的同類方法表現(xiàn)好得多 。

然而,盡管如此,目前預(yù)訓(xùn)練的純視覺模型在擴(kuò)展到真正大的數(shù)據(jù)集(例如LAION) 時(shí),還是遇到了困難。

如何構(gòu)建「大視覺模型」

那構(gòu)建一個(gè)大規(guī)模視覺模型(Large Vision Model,LVM),需要哪些要素呢?

動(dòng)物世界告訴我們,視覺能力并不依賴于語言。而許多實(shí)驗(yàn)表明,非人類靈長類動(dòng)物的視覺世界,和人類的極為相似。

因此,本文走在了LLaVA這種視覺-語言模型不同的方向:僅依靠像素,我們能走多遠(yuǎn)?

研究人員試圖在LVM中,模仿LLM的兩個(gè)關(guān)鍵特性:(1)在大數(shù)據(jù)環(huán)境下的擴(kuò)展能力,和(2)通過提示(上下文學(xué)習(xí))靈活地指定任務(wù)。

為了實(shí)現(xiàn)這一目標(biāo),需要明確三個(gè)主要組件:

數(shù)據(jù):研究人員希望,能夠充分利用視覺數(shù)據(jù)顯著的多樣性。

首先是原始的未經(jīng)標(biāo)注的圖像和視頻。接下來,研究人員計(jì)劃利用過去幾十年中產(chǎn)生的各種帶標(biāo)注的視覺數(shù)據(jù)資源,如語義分割、深度重建、關(guān)鍵點(diǎn)、3D物體的多個(gè)視圖等。

為此,他們定義了一種名為「視覺序列」的通用格式,來表示這些不同的標(biāo)注,而不需要任何超出像素本身的元知識(shí)。訓(xùn)練數(shù)據(jù)集總共包含1.64億張圖像/幀。

架構(gòu):研究人員使用了一個(gè)具有30億參數(shù)的大型Transformer架構(gòu),這個(gè)架構(gòu)在被表征為token序列的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練。

通過學(xué)習(xí)到的tokenizer,將每個(gè)圖像映射到一個(gè)包含256個(gè)向量量化token的字符串。

損失函數(shù):研究人員從自然語言處理領(lǐng)域獲取了靈感,其中掩碼token模型已經(jīng)演變?yōu)轫樞蜃曰貧w預(yù)測(cè)。

一旦能夠?qū)D像/視頻/帶標(biāo)注的圖像都表征為序列,就可以訓(xùn)練模型來最小化預(yù)測(cè)下一個(gè)token的交叉熵?fù)p失。

通過這種極簡的設(shè)計(jì),研究人員有了一些新穎的發(fā)現(xiàn)——

- 隨著模型尺寸和數(shù)據(jù)大小的增加,模型會(huì)表現(xiàn)出適當(dāng)?shù)臄U(kuò)展行為。

- 通過在測(cè)試時(shí)設(shè)計(jì)合適的視覺提示,可以解決多種視覺任務(wù)。

- 大量無監(jiān)督數(shù)據(jù),對(duì)于各種標(biāo)準(zhǔn)視覺任務(wù)性能的提升非常明顯。

- 模型在處理超出分布外數(shù)據(jù)和執(zhí)行新穎任務(wù)時(shí),表現(xiàn)出了一般的視覺推理能力,但還需要進(jìn)一步的調(diào)查研究。

數(shù)據(jù)

數(shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!沒有粘土我就做不了磚頭!

——夏洛克·福爾摩斯

任何大型預(yù)訓(xùn)練模型的關(guān)鍵,就必須接受大量數(shù)據(jù)的訓(xùn)練。

對(duì)于語言模型來說,獲得非常多樣化的大數(shù)據(jù)集,是很容易的事。

比如,流行的 CommonCrawl存儲(chǔ)庫,就包含掃描了整個(gè)網(wǎng)絡(luò)的2500億個(gè)網(wǎng)頁,極其多樣化,并且包括語言翻譯、問題回答等「自然演示」。

然而在計(jì)算機(jī)視覺領(lǐng)域,想要擁有同樣規(guī)模和多樣性的數(shù)據(jù)源,還差得很遠(yuǎn)。

因此,研究人員的工作核心貢獻(xiàn)之一,就是構(gòu)建這樣一個(gè)統(tǒng)一視覺數(shù)據(jù)集(UVDv1)。

為此,研究人員利用了許多不同的視覺數(shù)據(jù)源:(1)未標(biāo)注的圖像,(2)具有視覺標(biāo)注的圖像,(3)未標(biāo)注的視頻,(4)具有視覺標(biāo)注的視頻,(5)3D合成物體。

其中,未標(biāo)注的圖像占了總數(shù)據(jù)的80%以上,組成了大部分的視覺世界,也提供了所需的多樣性,然而代價(jià)就是,數(shù)據(jù)源質(zhì)量較低。

帶標(biāo)注的圖像分布會(huì)更受限制,但通常質(zhì)量更高。

而視頻數(shù)據(jù)則受到更多限制(一般是以人類為中心的活動(dòng)),但它們卻是時(shí)態(tài)數(shù)據(jù)的寶貴來源。

3D合成對(duì)象的渲染多樣性最低,但可以提供有關(guān)3D結(jié)構(gòu)行為的寶貴提示。

而最重要的是,UVDv1是一個(gè)純粹的視覺數(shù)據(jù)集,不包含文本之類的非視覺元數(shù)據(jù)。

總之,UVDv1包含16.4億張圖像。

與LLM的另一個(gè)重要區(qū)別是,語言數(shù)據(jù)對(duì)所有數(shù)據(jù)都有一個(gè)自然的、統(tǒng)一的一維結(jié)構(gòu)——文本流。

然而不幸的是,視覺數(shù)據(jù)的情況卻并非如此,不同的來源都有不同的結(jié)構(gòu)。

因此在這項(xiàng)工作中,研究人員提出視覺序列,作為視覺數(shù)據(jù)的統(tǒng)一單元,這就使得他們能夠從不同的集合源,訓(xùn)練可擴(kuò)展的模型。

視覺序列只是包含一個(gè)或多個(gè)圖像的序列,后面跟隨著一個(gè)句尾 (EOS) token。

圖1可以顯示出,各種數(shù)據(jù)源是如何劃分為視覺序列的。

單張圖像

單張圖像本身代表了視覺序列的最簡單形式一一{圖像,EOS}。

研究人員使用了LAION 5B數(shù)據(jù)集中14.9億張圖像的過濾子集。

這是迄今為止數(shù)據(jù)中最大的部分,占了88.5%。

圖像序列

圖像序列是視覺序列的自然形式。

研究人員通過從各種現(xiàn)有數(shù)據(jù)集中獲取視頻數(shù)據(jù),來創(chuàng)建此類序列。

16幀的視覺序列,是通過以三個(gè)不同步長(10、20和30) 對(duì)視頻進(jìn)行機(jī)采樣而形成的。

此外,研究人員利用了來自0bjaverse數(shù)據(jù)集的合成3D物體,生成了以物體為中心的多視角序列。

對(duì)于每個(gè)物體,研究人員都在物體中心和攝像機(jī)之間,采樣了一個(gè)半徑1.5到2.2的長度,并從-45度到45度采樣了一個(gè)恒定仰角,然后遍歷物體的不同視角(以15度步長和渲染24個(gè)視角的方式,改變方位角)。

通過這種方法,研究人員總共渲染了42000個(gè)這樣的序列用于訓(xùn)練,8000個(gè)序列用于測(cè)試。

最后,還可以將屬于同一語義類別的圖像表征為序列的(一部分)。

使用ImageNet中的類別,將同一類別中的圖像組(2、4、8或16個(gè))連接成一個(gè)16幅圖像的長序列。

帶標(biāo)注的圖像

為了以統(tǒng)一的方式處理不同類型的圖像標(biāo)注,研究人員選擇將所有標(biāo)注表征為圖像。

某些數(shù)據(jù)類型,例如語義分割圖,邊緣圖,深度和普通圖像,已經(jīng)是以這種方式表征的。

對(duì)于其他數(shù)據(jù)類型,研究人員為每種特定的標(biāo)注類型,量身定制了不同方法——

1. 物體檢測(cè):通過在每個(gè)物體周圍覆蓋顏色編碼的邊界框,來創(chuàng)建標(biāo)注。

2. 人體姿態(tài):利用MMPose,遵循OpenPose格式,在像素空間中渲染人體骨骼。

3. 深度估計(jì)、表面法線和邊緣檢測(cè):對(duì)于給定的ImageNet和COCO圖像,按照特定協(xié)議生成標(biāo)注。

4. 風(fēng)格遷移、除雨、去噪、弱光增強(qiáng)和立體數(shù)據(jù)集:這些都表征為圖像對(duì)的形式(例如輸入/輸出)。

5. 著色:將ImageNet圖像轉(zhuǎn)換為灰度圖像,生成圖像對(duì)。

6. 修復(fù):在圖像中隨機(jī)添加黑色框來模擬損壞,從而產(chǎn)生圖像對(duì)。

對(duì)于上述所有標(biāo)注類型,可以通過將相同標(biāo)注類型的8個(gè)圖像對(duì),連接成16個(gè)圖像的視覺序列,來創(chuàng)建視覺序列。

對(duì)于包含同一圖像的k個(gè)不同標(biāo)注的數(shù)據(jù)集,使用不同的方法: 對(duì)于每組1+k 個(gè)圖像 (輸入多于k的標(biāo)注),然后隨機(jī)選擇m個(gè)元素,其中m≤n+1≤16。然后將這些m元組連接起來,形成視覺序列。

帶標(biāo)注的圖像序列

在將帶標(biāo)注的視頻數(shù)據(jù)(VIPSeg、Hand14K、AVA、JHMDB)轉(zhuǎn)換為視覺序列時(shí),采用了兩種互補(bǔ)策略。

第一種策略類似于處理成對(duì)標(biāo)注圖像數(shù)據(jù)的方法:每個(gè)視覺序列都是通過將幀與它們的標(biāo)注連接起來而構(gòu)建的——{frame1,annot1,frame2,annot2,...}。

第二種方法是將多個(gè)幀與相應(yīng)的標(biāo)注{frame1,frame2,annot1,annot2,...}進(jìn)行分組。

圖片

實(shí)現(xiàn)方法

與天然展現(xiàn)離散序列結(jié)構(gòu)的文本數(shù)據(jù)不同,將圖像像素建模為視覺序列并不直觀。在這項(xiàng)工作中,研究人員采取了一個(gè)兩階段方法:

1. 訓(xùn)練一個(gè)大型視覺tokenizer(對(duì)單個(gè)圖像操作)將每個(gè)圖像轉(zhuǎn)換成一系列視覺token;

2. 在視覺序列上訓(xùn)練一個(gè)自回歸Transformer模型,每個(gè)序列都表示為一系列token。

圖像分詞(Image Tokenization)

雖然視覺序列在連續(xù)圖像之間展現(xiàn)出了序列結(jié)構(gòu),但在單個(gè)圖像內(nèi)部并沒有這樣的自然序列結(jié)構(gòu)。

因此,為了將Transformer模型應(yīng)用于圖像,先前的工作通常采用以下方法:要么按掃描線順序?qū)D像分割成補(bǔ)丁,并將其視為一個(gè)序列,要么使用預(yù)訓(xùn)練的圖像tokenizer,例如VQVAE或VQGAN ,將圖像特征聚類成一格一格的離散token,然后再按掃描線順序?qū)⑦@些token轉(zhuǎn)換成序列。

研究人員采用后一種方法,因?yàn)槟P偷碾x散分類輸出自然形成了一個(gè)可以輕松采樣的概率分布,使得在視覺序列中靈活生成新圖像成為可能。

具體來說,研究人員使用了VQGAN模型生成的語義token。該框架包括編碼和解碼機(jī)制,特點(diǎn)是一個(gè)量化層,將輸入圖像分配給一個(gè)已建立代碼本的離散token序列。

編碼器和解碼器完全由卷積層構(gòu)成。編碼器配備了多個(gè)下采樣模塊,以壓縮輸入的空間維度,而解碼器則配備了等量的上采樣模塊,以恢復(fù)圖像到其初始大小。

對(duì)于給定的圖像,研究人員的VQGAN的tokenizer產(chǎn)生256個(gè)離散token。

需要注意的是,研究人員的tokenizer獨(dú)立地對(duì)單個(gè)圖像進(jìn)行操作,而不是一次性處理整個(gè)視覺序列。

這種獨(dú)立性允許研究人員將tokenizer訓(xùn)練與下游Transformer模型分離,這樣tokenizer就可以在單圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,而無需考慮視覺序列的分布。

實(shí)現(xiàn)細(xì)節(jié):研究人員采用了現(xiàn)成VQGAN架構(gòu)。其中使用了f=16的下采樣因子和8192大小的代碼本。這意味著對(duì)于一個(gè)大小為256×256的圖像,研究人員的VQGAN的tokenizer產(chǎn)生16×16=256個(gè)token,其中每個(gè)token可以取8192個(gè)不同的值。

研究人員發(fā)現(xiàn)使用ImageNet預(yù)訓(xùn)練的tokenizer在ImageNet圖像之外并不具有很好的泛化性能。因此,研究人員在LAION 5B數(shù)據(jù)集的1.5B子集上訓(xùn)練他們自己的tokenizer。

視覺序列的序列建模

使用VQGAN將圖像轉(zhuǎn)換成離散token后,研究人員通過將多個(gè)圖像的離散token連接成一個(gè)1D序列,將視覺序列視為一個(gè)統(tǒng)一的序列。

重要的是,研究人員平等對(duì)待所有視覺序列——研究人員不使用任何特殊token來指示特定任務(wù)或格式。

研究人員使用交叉熵?fù)p失訓(xùn)練一個(gè)因果Transformer模型,其目標(biāo)是預(yù)測(cè)下一個(gè)token,類似于語言模型的標(biāo)準(zhǔn)方法。用相同的方式訓(xùn)練模型來處理所有視覺序列,使模型能夠從上下文而不是從特定于任務(wù)或格式的token中推斷出圖像之間的關(guān)系。這使得模型有機(jī)會(huì)推廣到其他未見過的視覺序列結(jié)構(gòu)。

實(shí)現(xiàn)細(xì)節(jié):研究人員將視覺序列中的每個(gè)圖像分詞成256個(gè)token,然后將它們連接成一個(gè)1Dtoken序列。

在視覺token序列的基礎(chǔ)上,研究人員的Transformer模型幾乎與自回歸語言模型相同,因此研究人員采用了LLaMA 的Transformer架構(gòu)。

研究人員使用4096 token的上下文長度,可以適應(yīng)研究人員VQGAN tokenizer下的16幅圖像。

類似于語言模型,研究人員在每個(gè)視覺序列的開頭添加一個(gè)[BOS](序列開始)token,在末尾添加一個(gè)[EOS](序列結(jié)束)token,并在訓(xùn)練時(shí)使用序列連接(sequence concatenation)來提高效率。

研究人員在整個(gè)UVDv1數(shù)據(jù)集(4200億token)上訓(xùn)練研究人員的模型,使用一個(gè)周期(在語言模型中使用簡單周期訓(xùn)練,以避免潛在的過擬合)。

研究人員訓(xùn)練了4種不同參數(shù)數(shù)量的模型:3億、6億、10億和30億,遵循相同的訓(xùn)練配置。

通過視覺提示進(jìn)行推理

由于研究人員模型中的自回歸Transformer輸出了基于先前token的下一個(gè)token的概率分布,研究人員可以輕松地從這個(gè)分布中抽樣,生成完成視覺序列的新視覺token。

要將模型用于下游任務(wù),可以在測(cè)試時(shí)構(gòu)建定義任務(wù)的部分視覺序列,并應(yīng)用模型生成輸出。這類似于語言模型中的上下文學(xué)習(xí)或計(jì)算機(jī)視覺中的視覺提示。

實(shí)驗(yàn)結(jié)果與分析

最后,研究人員評(píng)估了模型的擴(kuò)展能力,以及它理解和回答各種提示任務(wù)的能力。

可擴(kuò)展性

研究人員研究了研究人員的模型在訓(xùn)練損失和下游任務(wù)性能方面的擴(kuò)展行為,隨著模型大小的增加以及訓(xùn)練過程中看到的token數(shù)量的增加。

訓(xùn)練損失。首先,研究人員檢查了不同參數(shù)大小的LVM的訓(xùn)練損失,見下圖。

圖片

由于研究人員的所有模型僅在數(shù)據(jù)集上訓(xùn)練了一個(gè)epoch,因此模型只看到每個(gè)數(shù)據(jù)樣本一次,因此在訓(xùn)練過程中的任何時(shí)候的訓(xùn)練損失與驗(yàn)證損失非常相似。

可以觀察到隨著訓(xùn)練的進(jìn)行:

1. 不同大小模型的訓(xùn)練損失(困惑度)持續(xù)下降;

2. 隨著模型規(guī)模(參數(shù)計(jì)數(shù))的增加,損失下降得更快。這些觀察表明,LVM在更大的模型和更多數(shù)據(jù)方面顯示出強(qiáng)大的可擴(kuò)展性。

雖然LVM在訓(xùn)練過程中整體損失良好地?cái)U(kuò)展,但并不能保證更好的整體模型也會(huì)在特定的下游任務(wù)上表現(xiàn)更好。

因此,研究人員在4個(gè)下游任務(wù)上評(píng)估不同大小的模型:語義分割、深度估計(jì)、表面法線估計(jì)和邊緣檢測(cè)。研究人員在ImageNet驗(yàn)證集上評(píng)估這些任務(wù)。

對(duì)于每個(gè)任務(wù),研究人員給出5對(duì)輸入和相應(yīng)真實(shí)標(biāo)注以及作為輸入提示的查詢圖像,并評(píng)估研究人員模型對(duì)下一個(gè)256個(gè)token(一幅圖像)的真實(shí)標(biāo)注的困惑度預(yù)測(cè)。

下圖中,研究人員展示了,更大的模型確實(shí)在所有任務(wù)上獲得了更低的困惑度,展示了研究人員的可擴(kuò)展整體性能確實(shí)轉(zhuǎn)化為一系列下游任務(wù)。

雖然LVM在更大的模型和更多數(shù)據(jù)上獲得了更好的性能,但很自然地一個(gè)問題是,在UVDv1中收集的每個(gè)數(shù)據(jù)組件是否有幫助。

為了回答這個(gè)問題,研究人員在研究人員的數(shù)據(jù)集上對(duì)幾個(gè)3B模型進(jìn)行了消融研究,這些模型是在研究人員數(shù)據(jù)集的子集上訓(xùn)練的,并比較了它們?cè)谙掠稳蝿?wù)上的表現(xiàn)。

研究人員使用之前相同的4個(gè)下游任務(wù)和設(shè)置,并在下圖中展示了結(jié)果。

研究人員觀察到,每個(gè)數(shù)據(jù)組件對(duì)下游任務(wù)都有積極的貢獻(xiàn)。LVM不僅從更大的數(shù)據(jù)中受益,而且隨著數(shù)據(jù)集中的多樣性(包括標(biāo)注和無監(jiān)督的圖像和視頻數(shù)據(jù))的增加而改進(jìn)。

順序提示

研究人員首先采用最直觀、最簡單的方法來對(duì)LVM進(jìn)行視覺提示:順序推理。在這里,提示構(gòu)建非常簡單:研究人員向模型展示7幅圖像的序列,并要求它預(yù)測(cè)下一幅圖像(256個(gè)token)。

對(duì)于順序提示來說,最直接的任務(wù)是視頻預(yù)測(cè)。下圖展示了從Kinetics-700驗(yàn)證集序列中提示的幾個(gè)下一幀預(yù)測(cè)示例。

在頂部示例中,7幀提示(藍(lán)色邊框)后跟著預(yù)測(cè)的幀(紅色邊框)。研究人員觀察到在空間定位、視點(diǎn)和對(duì)象理解方面有一定程度的推理能力。在Kinetics驗(yàn)證集上預(yù)測(cè)的困惑度為49.8。

下面示例顯示了具有更長上下文(15幀)和更長預(yù)測(cè)(4幀)的預(yù)測(cè)。

同樣類型的簡單順序提示也可以用其他方式使用。例如,下圖顯示了如何通過提示模型一個(gè)圍繞任意軸的合成對(duì)象的3D旋轉(zhuǎn)序列,使其能夠預(yù)測(cè)更進(jìn)一步的旋轉(zhuǎn)。

或者研究人員可以將給定類別的物品列表視為一個(gè)序列,并預(yù)測(cè)該類別中的其他想法,如下圖所示。

值得注意的是,雖然該系統(tǒng)在訓(xùn)練時(shí)是在同一ImageNet類別的圖像組上訓(xùn)練的,但這里的提示包括素描,這些素描在任何標(biāo)注數(shù)據(jù)中都沒有出現(xiàn)過。

接下來,研究人員研究了準(zhǔn)確預(yù)測(cè)后續(xù)幀需要多少時(shí)序上下文。

研究人員評(píng)估了模型在不同長度(1到15幀)上下文提示下的幀生成困惑度。下圖所示,在Kinetics-700驗(yàn)證集上,從1到11幀困惑度明顯改善后穩(wěn)定下來(從62.1 → 48.4)。

類比提示

研究人員的研究通過評(píng)估一個(gè)更復(fù)雜的提示結(jié)構(gòu)來進(jìn)展,研究人員稱之為「類比提示(Analogy Prompting)」。這種方法挑戰(zhàn)模型理解任意長度和復(fù)雜度的類比,從而測(cè)試它的高級(jí)解釋能力。

下圖展示了在多個(gè)任務(wù)上使用類比提示的定性結(jié)果樣本。提示包括14幅圖像的序列,給出各種任務(wù)的示例,然后是第15幅查詢圖像。給定每個(gè)提示,預(yù)測(cè)的下一幅圖像。

圖的上部展示了幾個(gè)定義訓(xùn)練集中任務(wù)的示例提示(但這些實(shí)際圖像從未在訓(xùn)練中見過)。圖的下部展示了在訓(xùn)練中從未展示過的任務(wù)的泛化。

研究人員展示了在Pascal 3D+ 上對(duì)關(guān)鍵點(diǎn)檢測(cè)的結(jié)果,使用標(biāo)準(zhǔn)的正確關(guān)鍵點(diǎn)百分比(PCK)度量,閾值為0.1。值得注意的是,LVM在未對(duì)此數(shù)據(jù)集進(jìn)行訓(xùn)練的情況下達(dá)到了81.2的PCK,顯示出了令人印象深刻的泛化能力。

相比之下,研究人員展示了一些現(xiàn)有的特定任務(wù)模型:StackedHourglass的PCK為68.0,MSS-Net達(dá)到了68.9 PCK,StarMap則有78.6 PCK。

與視覺提示的比較

與研究人員的方法最接近的,也允許定義任意任務(wù)的方法是視覺提示。在下表中,研究人員比較了幾種視覺提示模型在少量樣本分割、對(duì)象檢測(cè)和著色任務(wù)上的表現(xiàn)。研究人員的順序LVM在幾乎所有任務(wù)上都超過了之前的方法。

任務(wù)組合

下圖演示了在單個(gè)提示中組合多個(gè)任務(wù)。研究人員展示了旋轉(zhuǎn)任務(wù)與新的關(guān)鍵點(diǎn)對(duì)應(yīng)任務(wù),并要求模型繼續(xù)這種模式。模型能夠在測(cè)試時(shí)成功地組合這兩個(gè)任務(wù),顯示出一定程度的組合性。

其他類型的提示

研究人員人員嘗試他們是否可以通過向模型提供它以前沒有見過的各種提示,看看模型能走到哪一步。

下圖展示了一些這樣的提示,效果很不錯(cuò)。

下圖展示了一些不容易用語言描述的提示——這是LVM可能最終勝過LLM的任務(wù)類型。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-04 18:56:03

AI模型

2025-04-18 08:42:52

模型推理AI

2024-11-26 13:40:00

2023-05-26 17:20:29

模型工具

2023-05-04 14:55:02

模型AI

2024-10-29 09:57:13

2024-04-07 00:45:00

開源模型

2025-04-30 09:09:00

2024-12-02 08:20:00

2023-04-07 09:28:31

模型訓(xùn)練

2023-05-31 16:15:51

模型圖像

2023-06-21 13:20:14

系統(tǒng)模型

2023-08-05 13:45:46

模型AI

2024-03-04 08:15:00

2025-01-22 15:21:00

2023-10-13 13:22:21

2025-06-03 08:38:00

2023-06-08 11:27:10

模型AI

2025-04-23 09:10:00

AI系統(tǒng)模型

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日本综合视频| 国产视频第一页在线观看| 欧美日韩一区二区高清| 欧美精品一区二区三| 日韩视频第二页| 一区二区三区视频在线观看视频| 国产成人亚洲精品青草天美| 欧美一区三区三区高中清蜜桃| 美女久久久久久久久久| 欧美高清hd| 色婷婷香蕉在线一区二区| 樱空桃在线播放| 日韩大胆人体| 国产成人免费视频网站高清观看视频| 欧美性资源免费| 欧美一区二区三区爽爽爽| 亚洲国产网址| 欧美成人伊人久久综合网| 99久久国产宗和精品1上映| 性欧美ⅴideo另类hd| 国产女人水真多18毛片18精品视频| 99精品国产一区二区| 自拍偷拍色综合| 99成人在线| 欧美成人网在线| 国产123在线| 国产精品15p| 欧美一级久久久久久久大片| 日韩一级片播放| 国产夫妻在线播放| 亚洲综合另类小说| 91免费视频黄| 91欧美在线视频| 91在线视频网址| 国产精品久久国产精品| 国产精品一级视频| 日本欧美一区二区三区| 欧美一区二区三区……| 国产成人精品亚洲男人的天堂| 91成人影院| 中文字幕免费精品一区高清| 99久久久久久久久久| 操欧美女人视频| 日韩亚洲欧美一区| 久久久久久国产精品日本| 亚洲伊人精品酒店| 欧美日韩精品三区| 2025韩国理伦片在线观看| 欧洲av不卡| 在线亚洲精品福利网址导航| 男人操女人免费| 欧美日韩精品免费观看视完整| 精品日韩美女的视频高清 | 久久99精品久久久久久园产越南| 精品电影一区二区| 日批视频免费看| 亚洲综合影院| 亚洲国产欧美一区二区三区同亚洲 | 99久在线精品99re8热| 激情综合在线| 性色av一区二区三区免费| 国产乡下妇女做爰视频| 亚洲国产一区二区三区a毛片 | 亚洲欧美成人一区| 思思99re6国产在线播放| 日本一区二区三区四区在线视频| 日本高清久久一区二区三区| 国产小视频免费在线观看| 久久精品一区二区三区不卡| 日本精品一区二区三区不卡无字幕| 黄色美女网站在线观看| 欧美国产日韩a欧美在线观看 | 大又大又粗又硬又爽少妇毛片 | 国产视频1区2区| 三级久久三级久久| 国产美女高潮久久白浆| 国产精品无码一区二区桃花视频| 国产福利视频一区二区三区| 含羞草久久爱69一区| 男生女生差差差的视频在线观看| 国产欧美一区二区精品秋霞影院| 亚洲欧洲精品一区二区三区波多野1战4| 欧美性天天影视| 亚洲一区影音先锋| 精品中文字幕av| 国产亚洲精彩久久| 精品久久久久久亚洲综合网 | 成人久久精品人妻一区二区三区| 91丨porny丨蝌蚪视频| 水蜜桃亚洲精品| 91高清在线观看视频| 亚洲韩国一区二区三区| 精品久久久久久久免费人妻| 91精品国产一区二区在线观看| 欧美mv日韩mv国产网站app| 在线精品一区二区三区| 日韩精品欧美| 欧美激情一区二区三级高清视频| 欧美日韩一二三四区| 国内精品久久久久影院色| 蜜桃欧美视频| 成视频免费观看在线看| 色综合久久中文字幕综合网| 三上悠亚在线一区| 日本天堂一区| 欧美另类第一页| www.国产毛片| 成人涩涩免费视频| 亚洲欧洲一二三| 忘忧草在线日韩www影院| 欧美另类videos死尸| 国产黄色网址在线观看| 欧美日本三区| 国产中文字幕日韩| 日本福利在线观看| 亚洲一卡二卡三卡四卡无卡久久| 香蕉视频禁止18| 色综合久久中文| 欧美激情免费在线| 97在线公开视频| 国产午夜精品一区二区三区四区| 亚洲精品久久久久久久蜜桃臀| 亚洲福利影视| 中文国产成人精品| 亚洲成人av影片| 97精品电影院| 成人免费视频91| 亚洲一区二区三区四区电影| 日韩三级成人av网| 最近中文字幕在线免费观看| 久久综合色天天久久综合图片| r级无码视频在线观看| 国产一区二区三区视频在线| 精品国产一区二区在线| 懂色av蜜臀av粉嫩av喷吹| xf在线a精品一区二区视频网站| 毛片av在线播放| 国产精品美女久久久久人| 最近日韩中文字幕中文| 国产乡下妇女三片| 中文字幕精品在线不卡| 91在线视频观看免费| 中文字幕av一区二区三区人| 欧美中文在线免费| 青青视频在线观| 日韩人在线观看| 欧美大片免费播放器| 国产精品久久777777毛茸茸| 精品国产一区二区三区四区精华| а√天堂中文资源在线bt| 欧美精品一区二区三区在线| 国产无码精品在线观看| 成人av资源在线观看| 亚洲 自拍 另类小说综合图区| av成人综合| 91精品国产色综合久久不卡98| 日本人妻丰满熟妇久久久久久| 亚洲.国产.中文慕字在线| 李丽珍裸体午夜理伦片| 日韩一级大片| 欧美视频1区| 九九热这里有精品| 久久精品福利视频| 亚洲国产精品久久人人爱潘金莲| 亚洲一区二区在线观看视频 | 欧美激情在线精品一区二区三区| 欧美怡春院一区二区三区| 美女欧美视频在线观看免费| 在线观看日韩高清av| 青青青视频在线免费观看| 经典一区二区三区| 国产黄色激情视频| 欧美美女在线直播| 国产精品美女久久久久久免费| 欧美极品视频| 日韩欧美123| 九九热在线免费观看| 中文字幕精品在线不卡| 曰本三级日本三级日本三级| 亚洲一区二区三区四区五区午夜| 日本午夜一区二区三区| 欧美一级片网址| 91产国在线观看动作片喷水| h视频在线观看免费| 欧美一级片免费看| 日本视频在线观看免费| 中文字幕一区二区在线播放| 亚洲成人精品在线播放| 羞羞视频在线观看欧美| 夜夜爽99久久国产综合精品女不卡| 秋霞一区二区三区| 91干在线观看| 免费观看在线午夜影视| 亚洲激情久久久| 中文字幕欧美人妻精品一区蜜臀| 亚洲综合精品自拍| аⅴ天堂中文在线网| 国产成人av影院| 熟女少妇精品一区二区| 伊人成年综合电影网| 亚洲蜜桃av| 日本久久成人网| 91手机在线播放| 全球最大av网站久久| 久久久久久久久久国产| 日韩毛片久久久| 亚洲精品小视频| www.成人精品| 欧美日韩一级二级| 欧美日韩一二三四区| 亚洲一区二区三区视频在线 | 国产精品久久久久久久久借妻| 色呦呦在线资源| 色视频www在线播放国产成人| 日本韩国免费观看| 日韩精品综合一本久道在线视频| 亚洲 小说区 图片区| 精品国产成人在线| 欧美三级 欧美一级| 国产精品久久一级| 中国毛片在线观看| 99在线精品视频| 国产精品日日摸夜夜爽| 国产毛片精品国产一区二区三区| 国产精品人人爽人人爽| 欧美资源在线| 欧美日韩黄色一级片| 欧美日韩亚洲一区| 中文字幕精品在线播放| 久久综合国产| 性欧美.com| 欧美熟乱15p| 日韩免费三级| 欧美日韩国产高清电影| 欧美日韩喷水| 久久av免费| 欧美日韩精品不卡| 免费成人网www| 极品尤物一区二区三区| 久9re热视频这里只有精品| 高清视频在线观看一区| 在线观看视频一区二区三区| 91丨九色丨国产在线| 亚洲精品大全| 91视频免费网站| 日韩成人久久| 超碰97在线人人| 成人福利一区| 久久99精品久久久水蜜桃| 国产精品一线| 精品一区二区三区日本| 你懂的在线观看一区二区| 精品久久蜜桃| 九九久久成人| 日韩资源av在线| 色综合天天综合网中文字幕| 天堂v在线视频| 亚洲国产精品成人| 日韩精品久久一区二区| 亚洲乱亚洲高清| 国产精品97在线| 捆绑调教美女网站视频一区| 日韩欧美亚洲另类| 国产91在线观看| 私密视频在线观看| 国产日韩精品一区二区浪潮av| 美女100%露胸无遮挡| 最新国产精品久久精品| 久久久久人妻一区精品色欧美| 亚洲国产一区视频| 亚洲AV无码成人精品区东京热| 欧美性猛片xxxx免费看久爱| 国产精品熟女久久久久久| 欧美大片拔萝卜| 免费在线毛片| 久热在线中文字幕色999舞| av在线网页| 国产精品精品久久久| av国产精品| 久久国产精品一区二区三区| 操欧美老女人| 黄网站色视频免费观看| 久久婷婷av| 在线观看免费看片| 久久综合色一综合色88| 中文字幕另类日韩欧美亚洲嫩草| 亚洲电影一区二区三区| 亚洲天堂免费av| 亚洲第一av网站| 91在线品视觉盛宴免费| 久久男人av资源网站| 国产精品.xx视频.xxtv| 国产精品伊人日日| 日韩影院二区| 精品国产免费av| 韩国一区二区在线观看| 人妻无码一区二区三区| 亚洲欧美一区二区三区国产精品 | 在线观看a级片| 国产97免费视| ady日本映画久久精品一区二区| 婷婷精品国产一区二区三区日韩| 极品av少妇一区二区| 不卡的在线视频| 久久综合九色综合欧美亚洲| 三级影片在线看| 欧美中文字幕亚洲一区二区va在线| 亚洲国产精品国自产拍久久| 在线日韩精品视频| 密臀av在线播放| 99久久精品久久久久久ai换脸| 国内黄色精品| 777精品久无码人妻蜜桃| 精品午夜一区二区三区在线观看| 在线观看日本中文字幕| 亚洲国产成人91porn| 国产美女裸体无遮挡免费视频| 亚洲男人天堂2024| 高h视频在线播放| 亚洲精品免费在线视频| 欧美韩日一区| 天天影视综合色| 久久久国产精品不卡| 日韩特黄一级片| 精品国产免费一区二区三区香蕉 | 欧美亚洲在线日韩| 午夜肉伦伦影院| www.成人在线| 国产午夜精品无码| 日韩美女主播在线视频一区二区三区| 91在线品视觉盛宴免费| 国产精品免费福利| 狠狠做六月爱婷婷综合aⅴ| 男人操女人免费软件| 99国产欧美久久久精品| 国产一级特黄视频| 精品日韩在线一区| 天堂av中文在线| 99精彩视频| 亚洲天堂偷拍| 国产情侣久久久久aⅴ免费| 亚洲最色的网站| 亚洲爱情岛论坛永久| 久久6精品影院| 亚洲国产精品免费视频| 成人高清dvd| 国产成人精品亚洲777人妖| 欧美日韩综合一区二区| 精品欧美一区二区在线观看| 麻豆蜜桃在线| 国产专区一区二区| 国产精品一区亚洲| 美女脱光内衣内裤| 欧美三级三级三级| 欧美性videos| 97超级碰碰| 国产亚洲精品v| 久久av无码精品人妻系列试探| 色综合久久久久网| 69久久久久| 91精品国产99久久久久久红楼 | 亚洲三级在线观看| 精品黑人一区二区三区在线观看| 欧美高清电影在线看| 日韩高清一级| 欧美日韩在线观看不卡| 中文字幕亚洲精品在线观看| 国产成人精品无码高潮| 欧美国产日韩一区二区| 欧美色图五月天| 国产精品人人爽人人爽| 亚洲欧美偷拍三级| 欧美一区二区在线观看视频| 2023亚洲男人天堂| 欧美激情黄色片| 91人妻一区二区| 91九色最新地址| 国产一二区在线| 极品日韩久久| 久久成人麻豆午夜电影| 久久久久久久久久99| 亚洲女人被黑人巨大进入al| 欧美a一级片| 日韩中字在线观看| 国产欧美日韩精品a在线观看| 国产三级在线观看视频| 亚洲**2019国产| 欧美影院三区| 成人欧美精品一区二区| 色伊人久久综合中文字幕| 黄网站在线免费看| 久久福利电影| 久久99精品国产.久久久久久| 国产在线欧美在线| 永久免费看mv网站入口亚洲| 在线综合色站| 污污的网站免费| 狠狠爱在线视频一区| av大大超碰在线| 日韩免费电影一区二区|