精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Scaling Law不總是適用!尤其在文本分類任務中,vivo AI Lab提出數據質量提升解決方法

人工智能
最近,vivo AI Lab研究團隊提出了一種數據質量提升(DQE)的方法,成功提升了LLM在文本分類任務中的準確性和效率。

Scaling Law不僅在放緩,而且不一定總是適用!

尤其在文本分類任務中,擴大訓練集的數據量可能會帶來更嚴重的數據沖突和數據冗余。

要是類別界限不夠清晰,數據沖突現象就更明顯了。

而文本分類又在情感分析、識別用戶意圖等任務中極為重要,繼而對AI Agent的性能也有很大影響。

最近,vivo AI Lab研究團隊提出了一種數據質量提升(DQE)的方法,成功提升了LLM在文本分類任務中的準確性和效率。

圖片

實驗中,DQE方法以更少的數據獲得更高的準確率,并且只用了近一半的數據量,就能有效提升訓練集的訓練效率。

作者還對全量數據微調的模型和DQE選擇的數據微調的模型在測試集上的結果進行了顯著性分析。

結果發現DQE選擇的數據在大多數測試集上都比全量數據表現出顯著的性能提升。

目前,此項成果已被自然語言處理頂會COLING 2025主會接收。

數據質量提升方法長啥樣?

在自然語言處理中,文本分類是一項十分重要的任務,比如情感分析、意圖識別等,尤其現在企業都在推出各自的AI Agent,其中最重要的環節之一,就是識別用戶的意圖。

不同于傳統的BERT模型,基于自回歸的大語言模型的輸出往往是不可控的,而分類任務對輸出的格式要求較高。

通過在提示詞中加入few-shot可以有效地改善這一現象,但是基于提示詞的方法帶來的提升往往有限。指令微調可以有效地改善模型的性能。

在文本分類任務中,缺乏一種有效的手段來獲取高質量的數據集。OpenAI提出了縮放定律(Scaling Law),認為大語言模型的最終性能主要取決于三個因素的縮放:計算能力、模型參數和訓練數據量。

然而這一定律并不總是適用,尤其在文本分類任務中,擴大訓練集的數據量會可能會帶來更加嚴重的數據沖突現象和數據冗余問題。尤其類別的界限不夠清晰的時候,數據沖突的現象更加明顯。

下面是vivo AI Lab團隊提出的數據質量提升(DQE)方法的具體方法設計。

圖片

首先,作者對訓練集進行了初步的數據清洗工作,包含處理具有缺失值的數據、query和標簽重復的數據以及標簽不一致數據(同一條query對應多個不同的標簽)

然后,使用文本嵌入模型,將文本轉換為語義向量。再通過貪婪采樣的方法,隨機初始化一條數據作為初始向量,然后每次選擇距離向量中心最遠的數據加入到新的集合中,以提升數據的多樣性。

接著,更新這個集合的向量中心,不斷的重復這個過程,直到收集了50%的數據作為sampled,剩下未被選中的50%的數據集作為unsampled,然后使用sampled數據集微調大語言模型預測unsampled。

通過結合向量檢索的方式,將unsampled中預測結果錯誤的數據分為Uncovered、Difficult和Noisy三種類型。

圖片

下面是三種類型的數據的識別原理:

Uncovered:主要指sampled中未覆蓋的數據,如果預測錯誤的數據與最相似的數據具有相同的標簽,并且最相似的數據位于unsampled中,則認為該數據相關的特征可能沒有參與sampled模型的微調,從而導致unsampled中的該條預測結果錯誤。

Difficult:主要指sampled中難以學會的困難樣本,如果預測錯誤的數據與最相似的數據具有相同的標簽,并且最相似的數據位于sampled,則認為該數據相關的特征已經在sampled中參與過模型的微調,預測錯誤可能是因為這條數據很難學會。

Noisy:主要是標簽不一致導致的噪聲數據,如果預測錯誤的數據與最相似的數據具有不同的標簽。則懷疑這兩條數據是噪聲數據。大多數文本分類任務的數據集都是共同手工標注或者模型標注獲得,都可能存在一定的主觀性,尤其在類別界限不清晰的時候,標注錯誤的現象無法避免。這種情況下,作者通過提示詞,使用GPT-4o進一步輔助判斷。

效果如何?

作者基于多機多卡的L40s服務器上通過swift框架進行了全參數微調,選擇開源的Qwen2.5-7B-Instruct模型作為本次實驗的基礎模型。

圖片

作者與PaperWithCode中收錄的最好的結果以及全量數據微調的方法進行了對比,作者分別在MR、CR、IMDb、SST-2、SST-5、AG News數據集中進行了對比實驗。

圖片
圖片

從實驗結果可以看出,DQE方法以更少的數據獲得更高的準確率,并且只用了近乎一半的數據量,可以有效地提升訓練集的訓練效率。

圖片

同時,作者頁進一步對全量數據微調的模型和DQE選擇的數據微調的模型在測試集上的結果進行了顯著性分析。將預測結果正確的數據賦值為1,將預測結果錯誤的數據賦值為0,通過t檢驗來評估模型之間性能差異的統計顯著性。

從表中可以發現DQE選擇的數據在大多數測試集上都比全量數據表現出顯著的性能提升。

圖片

與傳統的BERT模型不同的是,生成式的模型往往是不可控的,作者進一步分析了指令跟隨結果。

結果表明,不管是全量數據微調還是DQE方法微調,都可以有效地提升大語言模型的指令跟隨能力,按照預期的結果和格式輸出。

對于分類任務來講,當數據量足夠大時,很難避免標簽噪聲現象。即便是被各大頂級學術期刊和會議廣泛使用的數據集,也無法避免標簽噪聲現象。

作者分析了一部分通過實驗找出的噪聲數據,并且給出了開源數據集中的標簽噪聲的示例。

圖片

值得注意的是,在數據采樣過程中,本研究使用貪心算法將數據集劃分為sampled和unsampled。此外,作者根據文本相似度將unsampled分類為uncovered、difficult和noisy數據。

接下來,分析sampled中的這三種類型:

由于該數據將用于最終的訓練集,因此它不包含uncovered。

關于difficult,將來自unsampled中識別為difficult的樣本會加入到最終的訓練集,這uncovered中的difficult和sampled是成對存在的,從而部分減輕了采樣數據中的difficult問題。

對于noisy數據,使用DQE可以在sampled和unsampled之間識別出大多數成對的噪聲實例。

由于使用sampled貪婪采樣策略,在sampled內遇到成對的相似噪聲數據的概率會相對較低。從理論上解釋了本方案的有效性。

論文地址:https://arxiv.org/abs/2412.06575

責任編輯:姜華 來源: 量子位
相關推薦

2025-09-22 10:44:20

2022-10-09 08:00:00

機器學習文本分類算法

2020-03-02 21:44:24

物聯網大數據邊緣計算

2024-10-11 14:00:00

模型數據

2023-11-28 09:00:00

機器學習少樣本學習SetFit

2025-04-10 09:38:37

2011-07-22 13:46:41

SQL Server MDAC

2020-03-23 08:00:00

開源數據集文本分類

2025-10-15 09:05:05

2024-09-02 14:30:00

數據訓練

2024-11-11 17:35:11

2025-03-17 09:25:00

AI模型谷歌

2010-03-02 16:43:46

2018-07-04 15:17:07

CNNNLP模型

2025-07-25 09:31:49

2025-04-17 09:53:49

谷歌模型架構

2025-01-03 11:35:42

2025-05-09 08:19:00

2022-12-08 13:00:10

AI性別偏見

2022-10-11 08:00:00

人工智能機器學習數據
點贊
收藏

51CTO技術棧公眾號

久久久久久久免费| 久久国产天堂福利天堂| 日本新janpanese乱熟| 久久国产精品高清一区二区三区| 久久一区二区三区四区五区| 亚洲最新中文字幕| 久久成年人网站| 91超碰国产在线| 久久女同性恋中文字幕| 91亚洲精品一区| 国产美女激情视频| 亚洲综合五月| 亚洲人午夜精品| jjzz黄色片| 国产精品极品美女在线观看| 亚洲一区在线观看免费| 亚洲精品在线免费看| 人妻无码中文字幕| 最新中文字幕一区| 色吊丝一区二区| 欧美一卡2卡3卡4卡| 久久久久久久久久久福利| av网址在线播放| 国产精品久久午夜夜伦鲁鲁| 久久久久欧美| 天堂成人在线视频| 国产激情一区二区三区四区 | 久草热久草热线频97精品| 亚洲图片在线播放| 日韩中文字幕一区二区三区| 91精品国产高清久久久久久| 丝袜 亚洲 另类 欧美 重口| 成人看的羞羞网站| 亚洲天堂av在线播放| 色婷婷精品久久二区二区密| 秋霞午夜一区二区三区视频| 69堂成人精品免费视频| 在线观看av网页| 欧美成人app| 欧洲av一区二区嗯嗯嗯啊| 国产中文字幕免费观看| 成人免费图片免费观看| 一级特黄大欧美久久久| 9191国产视频| 色操视频在线| 亚洲主播在线播放| 97中文字幕在线| 天堂8中文在线| 亚洲在线视频免费观看| 黄色三级中文字幕| 羞羞视频在线观看不卡| 亚洲国产乱码最新视频| 女人被男人躁得好爽免费视频| 亚洲羞羞网站| 亚洲成人在线免费| 国产九九九九九| 蜜桃视频在线观看免费视频| 午夜精品成人在线视频| 久久综合九色综合88i| 国产一二三四在线视频| 黄色网址视频在线观看| 亚洲视频 欧洲视频| 国产卡一卡二在线| 亚洲男同gay网站| 亚洲国产视频直播| 精品久久一二三| 欧美日韩免费看片| 欧美亚洲综合一区| 亚洲午夜精品一区| 日韩精品一区国产| 精品一区二区亚洲| 成人黄色a级片| 亚洲无中文字幕| 亚洲2020天天堂在线观看| 日本一区二区三区精品| 日本中文字幕不卡| 亚洲综合成人婷婷小说| 天天综合永久入口| 国产欧美视频一区二区| 福利网在线观看| 182在线播放| 欧美自拍丝袜亚洲| 国产伦精品一区二区三区妓女下载| jizz国产精品| 亚洲日本aⅴ片在线观看香蕉| 亚洲国产精品一区二区久久hs| 欧美精品首页| 国产精品成人一区二区| 国产ts变态重口人妖hd| 久久综合九色综合97婷婷| 伊人久久青草| 激情视频网站在线播放色| 在线视频亚洲一区| 精品人妻无码中文字幕18禁| 国产亚洲电影| 欧美精品久久久久久久久| 日韩黄色一级视频| 国产91在线|亚洲| 神马影院午夜我不卡| 麻豆av在线播放| 91官网在线免费观看| 精品人妻一区二区三区免费| 你微笑时很美电视剧整集高清不卡 | 精品亚洲一区二区三区在线播放| 久久精品一二三四| 亚洲桃色综合影院| 久久中文字幕国产| 香蕉污视频在线观看| 成人一级黄色片| 亚洲欧洲在线一区| 女生影院久久| 亚洲国产成人精品久久| 亚洲综合视频网站| 水野朝阳av一区二区三区| 国产欧美韩日| 中文av资源在线| 欧美日韩第一区日日骚| 无码h肉动漫在线观看| 亚洲私拍自拍| 成人中心免费视频| 成人在线免费公开观看视频| 欧美日韩国产色| 亚洲性图第一页| 天天操综合网| 国产男人精品视频| 视频一区二区三区国产| 亚洲国产精品久久人人爱| 青青草原播放器| 国产精品福利在线观看播放| 国产精品久久色| 国产日本在线| 色老头久久综合| 欧美高清性xxxx| 亚洲清纯自拍| 国产亚洲欧美一区二区| 欧美亚洲天堂| 日韩精品中文字幕一区二区三区 | 一级日本黄色片| 97精品97| 成人国产精品久久久| 日本天堂在线观看| 欧美三级电影在线观看| 亚洲色图日韩精品| 免费av成人在线| 亚洲精品9999| 美女久久久久久| 久久精品福利视频| 国产免费的av| 亚洲激情av在线| 影音先锋资源av| 精品众筹模特私拍视频| 亚洲精品久久久久久国产精华液| 在线观看日本www| 亚洲九九在线| 国产高清精品一区二区| av电影在线免费| 日韩第一页在线| 亚洲熟妇无码乱子av电影| 久久久久久久久久久久久女国产乱 | 国产jk精品白丝av在线观看| 丝袜亚洲另类欧美综合| 亚洲视频电影| 亚洲电影一区| 4388成人网| 高清av在线| 4438x亚洲最大成人网| 欧美黄片一区二区三区| 成人免费三级在线| 欧洲av无码放荡人妇网站| 精品免费视频| 91九色单男在线观看| 麻豆av在线播放| 亚洲人午夜精品| 国产又粗又黄又爽视频| 亚洲高清一区二区三区| 国产激情在线免费观看| 激情深爱一区二区| 欧美精品自拍视频| 日本久久一二三四| 成人欧美一区二区| 综合在线影院| 欧美另类第一页| 免费成人av电影| 777午夜精品免费视频| 国产一级二级三级| 久久久久久久久久电影| 亚洲综合在线一区二区| 国产精品久久久久久模特 | 日韩午夜免费| 亚洲精品一区二区三区四区五区| 一区二区三区视频播放| 国产成人精品综合久久久| 成人在线app| 亚洲精品视频免费在线观看| 国产美女永久免费| 在线视频欧美区| 九九视频在线观看| 国产精品入口麻豆九色| 中文字幕 日本| 国产做a爰片久久毛片| 欧美激情精品久久久久久黑人| 久久影院一区二区| 国产精品网友自拍| 精品无码国产一区二区三区51安| 日韩和的一区二区| 我的公把我弄高潮了视频| 99精品电影| 日本一区二区三区视频在线观看 | 欧美丰满少妇xxxbbb| 国产精品自拍99| 亚洲精品国产一区二区精华液 | 韩国三级丰满少妇高潮| 视频一区二区国产| 黄色一级视频在线播放| 91超碰国产精品| 亚洲ai欧洲av| 免费看成人哺乳视频网站| 精品国产乱码久久久久久蜜柚 | 不卡的av电影| 想看黄色一级片| 奇米色一区二区| 国产日韩一区二区在线观看| 91久久在线| 欧美黄色免费网址| 一区二区日韩欧美| 在线一区高清| 色喇叭免费久久综合网| 日本一区免费| 国产成人影院| 蜜桃传媒视频麻豆第一区免费观看 | 欧洲一区二区三区在线| 国产a∨精品一区二区三区仙踪林| 亚洲激情欧美激情| 黄页网站免费观看| 亚洲精品菠萝久久久久久久| 欧美激情图片小说| 亚洲欧美在线高清| 国产性生活大片| 成人欧美一区二区三区白人| 91无套直看片红桃在线观看| 日本一区二区在线不卡| 日本乱子伦xxxx| 亚洲国产电影在线观看| 秋霞网一区二区三区| 亚洲国产精品v| 精品一区二区三孕妇视频| 国产精品视频在线看| 999久久久国产| 日本三级视频在线观看| 精品国产一二三区| 男人的天堂a在线| 亚洲国产三级网| 韩国av永久免费| 亚洲国产天堂网精品网站| 亚洲AV第二区国产精品| 亚洲毛片在线观看.| 国产在线视频网址| 丝袜一区二区三区| gogo在线高清视频| 久久久久久久久久久免费精品| av在线不卡免费| 日韩av手机在线看| 国精品产品一区| 亚洲中国色老太| 国产精品一线| 欧美日韩免费观看一区| 欧美一区二区三区高清视频| 午夜啪啪免费视频| 黄色免费成人| 18岁视频在线观看| 久久电影网站中文字幕| 中文字幕18页| 久久亚洲精品国产精品紫薇| 国产大屁股喷水视频在线观看| 亚洲免费在线播放| 国产区在线观看视频| 在线免费观看日本欧美| 国产婷婷一区二区三区久久| 亚洲精品在线一区二区| 岛国在线大片| 欧美日韩国产成人| 亚洲精品福利电影| 91免费看片在线| 特黄特色欧美大片| 亚洲永久激情精品| 一本色道精品久久一区二区三区| 黄色av免费在线播放| 国产精品综合在线视频| 玖玖爱在线观看| 亚洲黄色尤物视频| 一区二区乱子伦在线播放| 精品国产91九色蝌蚪| av网站在线播放| 久久久免费观看视频| 主播大秀视频在线观看一区二区| 99在线观看视频| 成人精品视频| 婷婷无套内射影院| 国产一区二区三区不卡在线观看| av无码av天天av天天爽| 亚洲婷婷综合色高清在线| av图片在线观看| 欧美tk—视频vk| 浪潮av一区| 国产精品91久久久| 精品亚洲免a| 成人免费看片视频在线观看| 葵司免费一区二区三区四区五区| 韩国三级在线看| 国产精品毛片av| 欧美精品免费在线| 你懂得影院夜精品a| 国产一区二区三区免费不卡| 天天超碰亚洲| 日本xxxx黄色| 久久免费看少妇高潮| 日韩欧美一区二区一幕| 日韩欧美中文字幕一区| 麻豆传媒在线观看| 国产精品电影观看| 美女亚洲一区| 两根大肉大捧一进一出好爽视频| 国产成人精品午夜视频免费 | 欧美顶级大胆免费视频| 成人黄色片视频| 91丨九色丨国产丨porny| 久久艹精品视频| 日韩免费看网站| 91极品在线| 97中文在线| 欧美va天堂在线| 一级网站在线观看| 中文字幕欧美一区| 国产一区二区女内射| 中文字幕日韩欧美精品在线观看| 免费观看成人性生生活片 | 91精品久久| 91成人免费看| 欧美日韩久久| 日韩精品国产一区| 亚洲一区在线播放| www天堂在线| 欧美精品videos| 超碰成人在线观看| 妞干网在线观看视频| 99国产麻豆精品| 你懂的国产在线| 一本色道久久88综合日韩精品| 亚洲第一会所| 亚洲欧美国产不卡| 国内精品免费**视频| 国产真实乱在线更新| 日韩一区二区三区三四区视频在线观看 | 亚洲自偷自拍熟女另类| 91尤物视频在线观看| 日韩电影在线观看一区二区| 国产亚洲精品久久久优势| 福利一区和二区| 国产精品12p| 国产 欧美在线| 日韩污视频在线观看| 亚洲欧美中文日韩在线| 国产精品4hu.www| 强开小嫩苞一区二区三区网站| 国产成人日日夜夜| 日韩激情在线播放| 国产亚洲精品久久| 91视频成人| 精品视频在线观看一区| 欧美在线亚洲综合一区| 国产精品日韩一区二区免费视频| 国产精品观看| 91视频免费观看网站| 欧美精品黑人性xxxx| 成人性生交大片免费看网站| 欧美极品视频一区二区三区| 久色婷婷小香蕉久久| 欧美色图一区二区| 亚洲精品资源在线| 亚洲免费一区| www在线观看免费| 中文字幕第一区二区| 亚洲精品综合网| 国产精品都在这里| 欧美日韩日本国产亚洲在线| 蜜桃传媒一区二区亚洲av| 7777精品久久久大香线蕉| 三妻四妾的电影电视剧在线观看| 亚洲视频导航| 26uuu精品一区二区在线观看| 国产又粗又黄又爽| 青草青草久热精品视频在线网站| 久久久久蜜桃| 素人fc2av清纯18岁| 欧美精品日韩一区| 色戒汤唯在线| 好吊色视频988gao在线观看| 国产亚洲成av人在线观看导航| 亚洲av无码片一区二区三区 | 久久精品视频16|