ChatGPT要把數(shù)據(jù)標(biāo)注行業(yè)干掉了？比人便宜20倍，而且還更準(zhǔn)

作者：機(jī)器之心 2023-03-29 15:14:15

而且用的還是舊版本，GPT-4 都還沒出手。

沒想到，AI 進(jìn)化之后淘汰掉的第一批人，就是幫 AI 訓(xùn)練的人。

很多 NLP 應(yīng)用程序需要為各種任務(wù)手動進(jìn)行大量數(shù)據(jù)注釋，特別是訓(xùn)練分類器或評估無監(jiān)督模型的性能。根據(jù)規(guī)模和復(fù)雜程度，這些任務(wù)可能由眾包工作者在 MTurk 等平臺上以及訓(xùn)練有素的標(biāo)注人（如研究助理）執(zhí)行。

我們知道，語言大模型（LLM）在規(guī)模到達(dá)一定程度之后可以「涌現(xiàn)」—— 即獲得此前無法預(yù)料的新能力。作為推動 AI 新一輪爆發(fā)的大模型，ChatGPT 在很多任務(wù)上的能力也超出了人們的預(yù)期，其中就包括給數(shù)據(jù)集做標(biāo)注這種自己訓(xùn)練自己的工作。

近日，來自蘇黎世大學(xué)的研究者證明了 ChatGPT 在多項(xiàng)注釋任務(wù)（包括相關(guān)性、立場、主題和框架檢測）上優(yōu)于眾包工作平臺和人類工作助理。

此外，研究人員還做了計(jì)算：ChatGPT 的每條注釋成本不到 0.003 美元 —— 大約比 MTurk 便宜 20 倍。這些結(jié)果顯示了大型語言模型在大幅提高文本分類效率方面的潛力。

論文鏈接：?https://arxiv.org/abs/2303.15056?

研究細(xì)節(jié)

許多 NLP 應(yīng)用程序需要高質(zhì)量的標(biāo)注數(shù)據(jù)，特別是用于訓(xùn)練分類器或評估無監(jiān)督模型的性能。例如，研究人員有時(shí)需要過濾嘈雜的社交媒體數(shù)據(jù)以獲得相關(guān)性，將文本分配給不同的主題或概念類別，或者衡量他們的情緒立場。無論用于這些任務(wù)的具體方法是什么（監(jiān)督、半監(jiān)督或無監(jiān)督學(xué)習(xí)），都需要準(zhǔn)確地標(biāo)注數(shù)據(jù)來構(gòu)建訓(xùn)練集，或用其作為評估性能的黃金標(biāo)準(zhǔn)。

對此，人們通常的處理方式是招募研究助理，或者使用 MTurk 這樣的眾包平臺。OpenAI 在打造 ChatGPT 時(shí)，也將負(fù)面內(nèi)容問題分包給了肯尼亞的數(shù)據(jù)標(biāo)注機(jī)構(gòu)，進(jìn)行了大量標(biāo)注訓(xùn)練才敢正式上線。

由瑞士蘇黎世大學(xué)提交的這篇報(bào)告探討了大語言模型（LLM）在文本標(biāo)注任務(wù)中的潛力，并重點(diǎn)關(guān)注了 2022 年 11 月發(fā)布的 ChatGPT。它證明了零樣本（即沒有任何額外訓(xùn)練）ChatGPT 在分類任務(wù)上優(yōu)于 MTurk 標(biāo)注，而成本僅需人工的幾十分之一。

研究人員使用了之前的研究收集的 2382 條推文樣本。這些推文由訓(xùn)練有素的注釋者（研究助理）標(biāo)記為五種不同的任務(wù)：相關(guān)性、立場、主題和兩種框架檢測。實(shí)驗(yàn)中，研究者將任務(wù)作為零樣本分類提交給 ChatGPT，并同時(shí)給 MTurk 上的眾包工作者，然后根據(jù)兩個(gè)基準(zhǔn)評估了 ChatGPT 的性能：相對于眾包平臺上人類工作者的準(zhǔn)確性，以及相對于研究助理注釋者的準(zhǔn)確性。

結(jié)果發(fā)現(xiàn)，在五分之四的任務(wù)上，ChatGPT 的零樣本準(zhǔn)確率高于 MTurk。對于所有任務(wù)，ChatGPT 的編碼器協(xié)議都超過了 MTurk 和訓(xùn)練有素的注釋者。此外在成本上，ChatGPT 比 MTurk 便宜得多：五個(gè)分類任務(wù)在 ChatGPT（25264 個(gè)注釋）上的成本約為 68 美元，在 MTurk（12632 個(gè)注釋）上的成本約為 657 美元。

這么一算，ChatGPT 的每條注釋成本約為 0.003 美元，即三分之一美分 —— 比 MTurk 便宜約 20 倍，而且質(zhì)量更高。鑒于此，我們現(xiàn)在已有可能對更多樣本進(jìn)行注釋，或者為監(jiān)督學(xué)習(xí)創(chuàng)建大型訓(xùn)練集。根據(jù)現(xiàn)有的測試，10 萬個(gè)注釋的成本約為 300 美元。

研究人員表示，雖然需要進(jìn)一步研究以更好地了解 ChatGPT 和其他 LLM 如何在更廣泛的環(huán)境中發(fā)揮作用，但這些結(jié)果表明它們有可能改變研究人員進(jìn)行數(shù)據(jù)注釋的方式，并破壞 MTurk 等平臺的部分業(yè)務(wù)模型。

實(shí)驗(yàn)過程

研究人員使用了包含 2382 條推文的數(shù)據(jù)集，這些推文是之前針對內(nèi)容審核相關(guān)任務(wù)的研究手動注釋的。具體來說，訓(xùn)練有素的注釋者（研究助理）為五個(gè)具有不同類別數(shù)量的概念類別構(gòu)建了黃金標(biāo)準(zhǔn)：推文與內(nèi)容審核問題的相關(guān)性（相關(guān) / 不相關(guān)）；關(guān)于第 230 條（美國 1996 年《通信規(guī)范法》的一部分）的立場，這是美國互聯(lián)網(wǎng)立法的一個(gè)關(guān)鍵部分；主題識別（六類）；第一組框架（內(nèi)容審核作為問題、解決方案或中性）；以及第二組框架（十四類）。

然后，研究人員使用 ChatGPT 和在 MTurk 上招募的眾包工作者進(jìn)行了這些完全相同的分類。對于 ChatGPT 進(jìn)行了四組標(biāo)注。為了探索控制輸出隨機(jī)程度的 ChatGPT 溫度參數(shù)的影響，這里使用默認(rèn)值 1 和 0.2 進(jìn)行注釋，這意味著隨機(jī)性較小。對于每個(gè)溫度值，研究人員進(jìn)行了兩組注釋來計(jì)算 ChatGPT 的編碼器協(xié)議。

對于專家，該研究找到了兩名政治學(xué)研究生，對所有五項(xiàng)任務(wù)對推文進(jìn)行注釋。對于每項(xiàng)任務(wù)，編碼員都獲得了相同指令集，其被要求逐個(gè)任務(wù)獨(dú)立地注釋推文。為了計(jì)算 ChatGPT 和 MTurk 的準(zhǔn)確性，對比只考慮了兩個(gè)訓(xùn)練有素的注釋者都同意的推文。

對于 MTurk，研究的目標(biāo)是選擇最好的工作者群體，特別是通過篩選被亞馬遜歸類為「MTurk 大師」、好評超過 90% 且在美國的工作者。

該研究使用「gpt-3.5-turbo」版本的 ChatGPT API 對推文進(jìn)行分類。注釋于 2023 年 3 月 9 日至 3 月 20 日之間進(jìn)行。對于每個(gè)注釋任務(wù)，研究人員有意避免添加任何特定于 ChatGPT 的提示（prompt），例如「讓我們逐步思考」，以確保 ChatGPT 和 MTurk 眾包工作者之間的可比性。

在測試了幾種變體之后，人們決定使用這樣的提示將推文一條一條地提供給 ChatGPT：「這是我選擇的推文，請將其標(biāo)記為 [任務(wù)特定說明（例如，說明中的主題之一）]。此外，該研究中每條推文收集了四個(gè) ChatGPT 響應(yīng)，也為每條推文創(chuàng)建一個(gè)新的聊天會話，以確保 ChatGPT 結(jié)果不受注釋歷史記錄的影響。

圖 1. 與 MTurk 上高分標(biāo)注人相比，ChatGPT zero-shot 的文本標(biāo)注能力。ChatGPT 在五項(xiàng)任務(wù)中的四項(xiàng)中的準(zhǔn)確性優(yōu)于 MTurk。

在上圖中 ChatGPT 有優(yōu)勢的四項(xiàng)任務(wù)中，在一種情況下（相關(guān)性）ChatGPT 略有優(yōu)勢，但其性能與 MTurk 非常相似。其他三種情況下（frams I、frams II 和 Stance），ChatGPT 的性能比 MTurk 高 2.2 到 3.4 倍。此外，考慮到任務(wù)的難度、類的數(shù)量以及注釋是零樣本的事實(shí)，ChatGPT 的準(zhǔn)確度總體來說綽綽有余。

對于相關(guān)性，有兩個(gè)類別（相關(guān) / 不相關(guān)），ChatGPT 的準(zhǔn)確率為 72.8%，而對于立場，有三個(gè)類別（正面 / 負(fù)面 / 中性）的準(zhǔn)確率為 78.7%。隨著類別數(shù)量的增加，準(zhǔn)確性會降低，盡管任務(wù)的內(nèi)在難度也有影響。關(guān)于編碼器協(xié)議，圖 1 顯示 ChatGPT 的性能非常高，當(dāng)溫度參數(shù)設(shè)置為 0.2 時(shí)，所有任務(wù)的性能都超過 95%。這些值高于任何人類，包括訓(xùn)練有素的注釋者。即使使用默認(rèn)溫度值 1（這意味著更多的隨機(jī)性），編碼器間一致性始終超過 84%。編碼器間一致性和準(zhǔn)確性之間的關(guān)系是正的，但很弱（皮爾遜相關(guān)系數(shù)：0.17）。盡管相關(guān)性僅基于五個(gè)數(shù)據(jù)點(diǎn)，但它表明較低的溫度值可能更適合注釋任務(wù)，因?yàn)樗坪蹩梢蕴岣呓Y(jié)果的一致性而不會大幅降低準(zhǔn)確性。

必須強(qiáng)調(diào)的是，對 ChatGPT 進(jìn)行測試非常困難。內(nèi)容審核是一個(gè)復(fù)雜的主題，需要大量資源。除了立場之外，研究人員還為特定研究目的開發(fā)了概念類別。此外，一些任務(wù)涉及大量類別，然而 ChatGPT 仍然達(dá)到了很高的準(zhǔn)確率。

使用模型來注釋數(shù)據(jù)并不是什么新鮮事，在使用大規(guī)模數(shù)據(jù)集的計(jì)算機(jī)科學(xué)研究中，人們經(jīng)常會標(biāo)注少量樣本然后用機(jī)器學(xué)習(xí)進(jìn)行擴(kuò)增。不過在表現(xiàn)超過人類之后，未來我們或許可以更加信任來自 ChatGPT 的判斷了。

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)AI