處處是“垃圾”:人工智能太缺高質量數據了!
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
某種程度上講,人工智能已經超越了我們過去最大膽的想象;但再看實際中,Siri甚至無法告訴用戶今天天氣如何。
問題在于什么呢?創建高質量的數據庫來訓練和測量我們的模型仍然是件無比困難的事情。我們本應能在一天內收集到20000個標簽來訓練Reddit分類器,但實際相反,我們等待了三個月并得到了一個滿是垃圾郵件的訓練集。
四年前,AlphaGo打敗了世界圍棋專家們,大型科技公司們對每一個能接觸到的機器學習創業公司進行了人才收購,《紐約時報》宣稱道“機器學習將對計算機技術進行徹底改造”。
2016年,DeepMind開始建造一個人工智能來玩《星際爭霸2》,到2019年底,名為“AlphaStar”的人工智能程序達到了大師級成就。
好像不用幾年,Alexa就將會占領我們的家園,而Netflix會比我們的朋友更好地提出電影建議。
在那之后發生了什么?
更快的GPU放棄了訓練神經網絡的消耗,并允許越來越大的模型得到訓練。新型工具們使基礎建設工作更加的簡單。
能夠學習運行更主觀的任務的新型神經網絡結構也得到了發展。比如說OpenAi的GPT-3模型,這是一個語言生產器,能夠撰寫博客文章且拿下黑客新聞網站的頭條。
一個關于生產效率的GPT-3寫的博文拿下了黑客新聞的頭條。
那么改革發生在何處?
所以為什么人工智能還沒占領世界?為何人們雖然能用GPT-3來生成博文,但是社交媒體公司很難將煽動性的內容從訂閱源中剔除?為何有了超人類的星際爭霸算法,但電商們仍在推薦我再買一個吐司機?為何模型們能夠合成現實的圖片(和電影)但卻無法面目識別?
模型正在進步,而數據仍止步不前。模型們在數據集上受到訓練,而這些數據集仍存在有錯誤,且和創作者真正想表達的鮮少相符。
現在的數據怎么了?來也垃圾,去也垃圾
在某些情況下,數據是在基于類如鏈接和用戶協議的代理商上進行訓練。
比如說,社交媒體推文不是為了提供用戶最佳體驗而得到訓練;相反,它們只是對鏈接和協議充分利用,這是最簡單的數據獲取途徑。
但是點贊量與數量無關,駭人聽聞的陰謀論非常捉人眼球,但是你真的想在你的推文中看到他們嗎?這樣的錯誤匹配導致了許多意料之外的副作用,包括有點擊誘餌的激增,政治上的虛假信息廣泛傳播,充滿惡意的、煽動性的內容廣泛存在。
在另一些時候,模型在這樣的數據集上進行訓練:由非母語使用者或由那些知道低質量的結果永遠不會被檢測到的工作者創立的數據集。以下面推文為例:
一個典型的標記器會識別到“bitches”,“fucking”和“shit”并將此推文標記為有害的,不管這些謾罵其實是基于一個正向的,向上的態度。在訓練集中這樣的情況出現過無數次。數據定義模型。如果數據是錯誤標記的垃圾,沒有一位機器學習專家能夠防止模型也同樣無用無效。
我們需要怎樣的進步?
數據集問題引起了一大堆問題。
當遇到運行不佳的模型時,工程師們花費數月的時間來修補產品特征和新的算法,未曾意識到問題存在于他們的數據當中。本應用來凝聚親情和友情的算法,相反之下,帶來了熾熱的情緒和憤怒的評論。如何解決這些問題呢?
(1) 熟練且高質量的,能夠理解你正嘗試去解決的問題的標記器
雖然AI系統越來越復雜,我們需要先進巧妙的人類標記系統來教導和測量它們的性能。想想那些對世界有足夠了解的模型,可以對誤導的信息進行分類,或者那些可以增加時間而不是點擊的算法。
這種復雜程度不會因為多用低技能工人而提高。為了讓我們的機器了解仇恨言論,并識別算法的偏見,我們需要高質量的、它們自己也了解這些問題的標簽力量。
(2) 給機器學習小組和識別器交流的空間
機器學習模型在不斷變化著。今日被識別為垃圾郵件的信息明天可能不會如此,而我們永不可能對標記口令的每一個邊邊角角都有所掌握。
正如構建產品是用戶和工程師之間反饋驅動的過程一樣,創建數據集也應該如此。當數一張圖片中的臉時,卡通人物算嗎?當標記仇恨言論時,引號在哪里?標記器在瀏覽了成千上萬的例子后發現了歧義和見解,為了最大化數據質量,我們需要雙方進行溝通。
(3) 目標功能與人類價值觀一致
模型常常是在數據集上訓練的,而這些數據集僅僅是它們真實目標的近似值,從而導致了意想不到的分歧。
例如,在人工智能安全的辯論中,人們擔心機器智能發展到威脅世界的程度。另一些人則反駁說,這是一個在遙遠的未來才會出現的問題——然而,看看今天科技平臺面臨的最大問題,這不是已經發生了嗎?
例如,Facebook的使命不是獲得“贊”,而是將我們與朋友和家人聯系起來。但是通過訓練其模型來增加喜好和互動,他們學會了傳播那些高度吸引人的內容,但也會帶來傷害和誤導。
如果Facebook能將人類價值觀注入到其培訓目標中會怎樣?這并不是一個幻想:谷歌搜索已經在其實驗過程中使用了人類評估,我們正在構建的人工智能系統也致力于這樣做。
一個數據驅動的AI未來
從核心而言,機器學習是關于教導計算機按照我們所想的方式工作,而我們通過示以正例的方法來實現目標。所以為了構建高質量的模型,一個機器學習工程師需要掌握的最重要技能不應該是構建高質量的數據集,并確保他們與手頭的問題相符嗎?
最終,我們關心的是AI能否解決人類的需求,而不是它是否超過了人工基準。
如果你在處理內容調節,你的數據集是檢測到了惡意言論,還是也捕捉到積極向上、振奮人心的謾罵?
如果你正在建設下一代的搜索和推薦系統,你的數據集是在設置模型的相關性和質量,——還是令人入迷的誤導和引誘點擊?
創建數據集不是學校里教的東西,對于那些花了數年時間研究算法的工程師來說,專注于arXiv中最花哨的模型是很容易的。但如果希望人工智能能夠解決自己的現實需求,我們需要對定義模型的數據集進行深度思考,并賦予它們一定的人文色彩。

































