無(wú)需人力標(biāo)注!悉尼大學(xué)華人團(tuán)隊(duì)提出「GPT自監(jiān)督標(biāo)注」范式,完美解決標(biāo)注成本、偏見(jiàn)、評(píng)估問(wèn)題
一直以來(lái),數(shù)據(jù)標(biāo)注都在深度學(xué)習(xí)流程中扮演了基礎(chǔ)且重要的角色。
優(yōu)質(zhì)的數(shù)據(jù)標(biāo)注直接影響到模型的學(xué)習(xí)效果,而這無(wú)疑是實(shí)現(xiàn)高效深度學(xué)習(xí)的最原始且關(guān)鍵的一步。
與此同時(shí),標(biāo)注的數(shù)據(jù)作為groundtruth,也直接影響了后續(xù)的訓(xùn)練,驗(yàn)證,測(cè)試。
然而,業(yè)界和學(xué)界不得不面臨數(shù)據(jù)標(biāo)注任務(wù)成本較高、存在偏見(jiàn)、難以評(píng)估,以及標(biāo)注難度等問(wèn)題。
最近,來(lái)自悉尼大學(xué)的研究團(tuán)隊(duì)提出了一種通過(guò)大語(yǔ)言模型自監(jiān)督生成標(biāo)注的框架。首次利用基于生成-還原循環(huán)標(biāo)注的GPT自監(jiān)督方法,解決了上述問(wèn)題。

論文鏈接:https://arxiv.org/pdf/2306.04349.pdf
其核心思想是,利用大語(yǔ)言模型作為一個(gè)黑盒優(yōu)化優(yōu)器,構(gòu)造了一個(gè)循環(huán):
模版質(zhì)量越高,生成的數(shù)據(jù)-標(biāo)注對(duì)質(zhì)量越高;生成的數(shù)據(jù)標(biāo)注對(duì)質(zhì)量越高,用當(dāng)前質(zhì)量更高的數(shù)據(jù)對(duì)替換上一輪的模版。以此往復(fù)迭代,滾雪球式循環(huán)提升標(biāo)注質(zhì)量。

數(shù)據(jù)標(biāo)注困難重重
1. 成本較高:
無(wú)論是在哪個(gè)國(guó)家或公司,數(shù)據(jù)標(biāo)注都是一項(xiàng)成本高昂的工作,需要大量的人力和時(shí)間投入。
在美國(guó),數(shù)據(jù)標(biāo)注員的平均年薪約為39,000美元,最高可達(dá)49,803美元[2]。即使在印度,數(shù)據(jù)標(biāo)注員的平均年薪約為2.0 Lakhs盧比,約合2,670美元[3]。

其次,數(shù)據(jù)標(biāo)注的成本也影響了其評(píng)估的困難。
例如,由于成本的差異,許多公司選擇將數(shù)據(jù)標(biāo)注任務(wù)外 包到人力成本較低的國(guó)家[4]。
然而,這種跨文化的標(biāo)注可能導(dǎo)致一些細(xì)微的語(yǔ)義差異被忽視,從而影響了模型的學(xué)習(xí)效果。
2. 存在偏見(jiàn):
數(shù)據(jù)標(biāo)注在機(jī)器學(xué)習(xí)和人工智能的應(yīng)用中扮演著重要的角色。
然而,研究顯示[5],人類(lèi)在標(biāo)注過(guò)程中可能會(huì)引入偏見(jiàn),這些偏見(jiàn)可能會(huì)影響機(jī)器學(xué)習(xí)模型的訓(xùn)練和性能。
研究發(fā)現(xiàn),標(biāo)注員可能會(huì)按照數(shù)據(jù)集創(chuàng)建者編寫(xiě)的指令中的模式進(jìn)行標(biāo)注,這種現(xiàn)象被稱(chēng)為「指令偏見(jiàn)」。
這些指令可能會(huì)導(dǎo)致某些標(biāo)注在數(shù)據(jù)中過(guò)度表示,從而使得AI系統(tǒng)對(duì)這些標(biāo)注產(chǎn)生偏見(jiàn)。
3. 難以評(píng)估:
研究表明[6]大語(yǔ)言模型本身可以直接通過(guò)設(shè)計(jì)prompt標(biāo)注數(shù)據(jù)。
然而,評(píng)估這些模型對(duì)數(shù)據(jù)標(biāo)注的質(zhì)量和效果十分困難, 因?yàn)槿绾卧u(píng)判生成的數(shù)據(jù)質(zhì)量是一個(gè)主觀的問(wèn)題。
比如,在生物醫(yī)學(xué)領(lǐng)域,深度學(xué)習(xí)模型已經(jīng)顯示出在從DNA序列中預(yù)測(cè)調(diào)控效應(yīng)的巨大潛力。
但人類(lèi)本身并未完全理解模型輸出的內(nèi)容,因此用模型標(biāo)注的質(zhì)量難以被人類(lèi)評(píng)判。
4. 標(biāo)注難度:
即使對(duì)專(zhuān)業(yè)從業(yè)者,一些結(jié)構(gòu)化數(shù)據(jù)標(biāo)注難度仍然太大。
比如,在神經(jīng)網(wǎng)絡(luò)計(jì)算圖數(shù)據(jù)中,結(jié)點(diǎn)表述操作符,有向邊表示。
一個(gè)表示網(wǎng)絡(luò)結(jié)構(gòu)的graph列表多達(dá)上千個(gè)結(jié)點(diǎn)對(duì),人工數(shù)結(jié)點(diǎn)和嵌套的block序列將耗費(fèi)大量時(shí)間和精力。
全新標(biāo)注方法
團(tuán)隊(duì)提出的標(biāo)注方法包含了one-shot階段和生成階段。
其中,one-shot階段的目標(biāo)是迭代尋找最優(yōu)的{數(shù)據(jù)-標(biāo)注}數(shù)據(jù)對(duì)作為模板。

迭代過(guò)程:
初始化一個(gè)簡(jiǎn)單數(shù)據(jù)對(duì)作為初始模版,利用GPT生成標(biāo)注,生成的標(biāo)注和原始數(shù)據(jù)形成一個(gè)新的數(shù)據(jù)對(duì)。
然后,通過(guò)比較從標(biāo)注中還原出來(lái)的數(shù)據(jù)和原始數(shù)據(jù),評(píng)估這個(gè)新數(shù)據(jù)對(duì)作為模板的潛力。
如果還原數(shù)據(jù)與原數(shù)據(jù)的相似度得分有所提高,就用當(dāng)前的新數(shù)據(jù)對(duì)直接作為新的模板進(jìn)行一輪數(shù)據(jù)生成。
因此,這種自我對(duì)齊機(jī)制會(huì)迭代調(diào)整one-shot模板,為下一輪生成做好準(zhǔn)備。one-shot階段搜索到的最優(yōu)模板隨后用于對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注。

作者通過(guò)調(diào)整不同的預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)評(píng)估標(biāo)注的質(zhì)量,并引入不同的評(píng)價(jià)指標(biāo)來(lái)間接評(píng)估摘要的還原能力。
作者在三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),并從各種角度進(jìn)行了詳細(xì)的消融研究。
結(jié)果表明,這種自我監(jiān)督范式在獎(jiǎng)勵(lì)模型和還原數(shù)據(jù)能力的得分的評(píng)估中始終表現(xiàn)出很高的性能。
另外,作者應(yīng)用該框架生成了兩個(gè)新的數(shù)據(jù)集,對(duì)基于不同計(jì)算操作符的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行的描述。
作者通過(guò)調(diào)用OpenAI的API在各種類(lèi)型的GPT模型上進(jìn)行了基準(zhǔn)測(cè)試。
表1展示了davinci,text-curie-001,text-davinci-003,gpt-3.5-turbo在不同評(píng)估標(biāo)準(zhǔn)下標(biāo)注數(shù)據(jù)質(zhì)量的得分。

作者在論文中還探討如下消融實(shí)驗(yàn):
Q1. 迭代后的one-shot模板在整個(gè)過(guò)程中扮演什么角色?我們是否能通過(guò)zero-shot方法(僅通過(guò)設(shè)計(jì)的指令instruction-tuning生成摘要), 來(lái)達(dá)到同樣的效果?
A1. 與以相同指令為條件的零樣本生成相比,引入樣本模板提高了標(biāo)注質(zhì)量, 實(shí)驗(yàn)細(xì)節(jié)如圖所示。

此外,作者還在文中還探討了如下問(wèn)題:
對(duì)還原數(shù)據(jù)和原數(shù)據(jù)之間的相似度測(cè)量評(píng)估標(biāo)準(zhǔn)方法會(huì)對(duì)標(biāo)注有什么影響?模板的初始化如何影響自監(jiān)督標(biāo)注迭代的結(jié)果?GPT模型本身的超參數(shù)是否會(huì)影響搜索出來(lái)的標(biāo)注模版?

































