MIT研究發現:十大最常用數據集標簽錯誤率達3.4%
近日,麻省理工學院檢查了10個最常引用的AI數據集。他們發現其中存在大約3.4%的數據不正確或標簽錯誤,這可能會導致使用這些數據集的AI系統出現問題。
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
近日,麻省理工學院檢查了10個最常引用的AI數據集。他們發現其中存在大約3.4%的數據不正確或標簽錯誤,這可能會導致使用這些數據集的AI系統出現問題。

這些數據集被引用次數均超過10萬次,其中包括來自新聞的文本數據集, 亞馬遜和IMDb評論。上圖就是幾個明顯標簽錯誤的例子。
為了發現可能的錯誤,研究人員使用了Confident Learning,檢查數據集的標簽噪聲。
研究人員發現QuickDraw數據集錯誤最多,大約有500萬,約占數據集的10%。
責任編輯:張燕妮
來源:
量子位




























