精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NLP模型讀不懂人話?微軟AdaTest挑錯效率高五倍

人工智能 新聞
2022年5月底,微軟的AI研發人員在預印本網站發表論文,提出了調試NLP模型的全新路徑AdaTest。

?自然語言處理(NLP)模型讀不懂人話、將文本理解為相反的意思,是業界頑疾了。 現在微軟表示,開發出解決此弊的方法。

微軟開發AdaTest方法來測試NLP模型

 可作為跨越各種應用基礎的大型模型,或稱平臺模型的進展已經大大改善了AI處理自然語言的能力。但自然語言處理(NLP)模型仍然遠不完美,有時會以令人尷尬的方式暴露缺陷。 

例如有個頂級的商用模型,將葡萄牙語中的「我不推薦這道菜」翻譯成英語中的「我非常推薦這道菜」。 

這些失敗之所以繼續存在,部分原因是尋找和修復NLP模型中的錯誤很難,以至于嚴重的錯誤影響了幾乎所有主要的開源和商業NLP模型。 目前尋找和修復NLP模型錯誤的方法有兩種:或是用戶驅動的,或是自動的。  

用戶驅動的方法很靈活,可以測試NLP模型行為的任何方面。但此方法依賴于人類極為參差不齊的想象且辨識錯誤的能力,并且是極度勞動密集型的,以至于在實踐中只有一小部分的輸入數據量可用來測試。 

另一方面,自動方法很快速,因此可以處理輸入數據的很大一部分。然而,由于缺乏人類的把控,它們只能在非常有限的情況下測試一個模型是對還是錯,例如當模型處理有輕微變化的輸入措辭時,其預測結果就會出現不一致。 

圖片

微軟的研究者們認為,像GPT-3這樣的現代大型語言模型(LLMs),為業界提供了一個機會,可以嘗試將用戶驅動方法和自動方法的優勢結合起來,讓用戶來定義被測試的模型應該做什么,同時利用現代大型語言模型的生成能力,在特定的模型行為類別中生成大規模的測試。 

微軟研究者將此類人機結合的路徑,稱之為「適應性測試與去Bug」,縮寫為AdaTest。 通過AdaTest,一個大型的語言模型被賦予了重負:生成大量的、針對受測模型中的錯誤的測試。 

而人工干涉則通過選擇有效的測試、并將它們組織到語義相關的主題中,來引導語言模型的生成工作。 這種來自人工的指導極大地提高了語言模型的生成性能,并將其引向目標領域。 

因為這些測試實際上是一種標記數據的形式,它們不僅可以識別NLP模型的錯誤,而且可以用來在類似于傳統軟件開發的迭代調試循環中,修復NLP模型的錯誤。 

AdaTest為專業用戶提供了顯著的效率提升,同時又足夠簡單,可以讓沒有編程背景的普通人也能有效使用。 這意味著專業用戶和普通用戶都能更好地理解和控制在NLP模型一系列場景中的行為,這不僅使AI系統表現更好,而且使AI系統更有效呼應用戶需求。 

用測試循環發現漏洞

 AdaTest模式由一個內部測試循環和一個外部調試循環組成,前者用于發現錯誤,后者用于修復錯誤。 

雖然這項任務看起來很簡單,但即使是市面上的SOTA模型們也常出現失誤。 比如有的SOTA模型會將「我認為我一生中沒有過更美好的時光」的雙重否定句歸類為情緒負面,或者簍子更大的將「我是一個少數族裔」這句話歸類為情緒負面。 

這兩種情況都是在市面上商業模型真實發生過的失誤。 為了證明AdaTest可以發現和修復錯誤,微軟的研究團隊演示了如何測試并修復NLP模型的文本公平性失誤。 

NLP模型的文本公平性失誤,即是在一段文本中對特定屬性群體的中性描述,可能導致NLP模型的文本情感分析功能出錯,錯誤地降低文本的情感權重。也就是說,模型可能會更負面地對待特定群體的描述。

 圖片 

在測試循環中,微軟研究者從一組關于各種身份的文本單元測試開始,并將這組測試標記為「敏感」。這些最初的例子并沒有發現任何模型的錯誤。 

不過AdaTest方法用GPT-3生成了大量語料類似的暗示性測試,以此來突出測試對象模型潛藏的bug。 

雖然產生了數以百計的測試,但干預的人員只需要審查前幾個錯誤或接近錯誤的測試。 然后,人工干預忽略那些并沒有真正犯錯的測試結果,并將其他有效的測試結果添加到當前主題中,也偶爾將它們組織到其他的子主題中去 這些經過人工過濾的測試結果會包含在下一輪輸入的語言模型提示中,如此將下一組輸入數據的處理結果,推向用戶關注點和模型出錯bug之間的交叉點。 

重復這一內部測試循環,可以讓NLP模型從不出錯開始,慢慢地暴露出越來越顯著的錯誤和bug。 因此,即使用戶自己不能找到模型的故障,他們也可以從一小部分通過的測試開始,然后迅速與NLP模型迭代,產生一大批測試,揭示出被測模型的錯誤。

 圖片

內部測試循環示例 如果測試者不使用文本情感分析的主題,而是針對一個不同的主題,比如處理否定句與雙重否定句,測試者會發現不同的故障。 

例如,「我從未比現在更快樂」這樣簡單的語句,商業模型可以正確地將其歸類為積極的。不過用AdaTest方法,可以很快發現像 「我不認為我曾經見過一個更好的城市」這樣的復雜語句會被NLP模型錯誤標記為消極。 

一旦測試者看到這些錯誤,就會發現它們的惡劣性和明顯性,但它們很難被人工直接發現,因為它們只發生在非常具體的措辭中。 微軟的研究團隊進行了用戶調研,以定量評估AdaTest是否使專業用戶和非專業用戶更好地編寫測試和發現NLP模型中的錯誤。 研究者要求專業用戶測試兩個模型中的特定主題功能:一個商業用的文本情感分類器和GPT-2用于下一個詞的自動完成。 

這個功能用于預測正在輸入的電子郵件中的下一個詞等應用。 對于每個主題和模型,參與者被隨機分配到使用CheckList(代表用戶驅動測試的SOTA)或AdaTest。 研究者觀察到AdaTest在不同的模型和專業參與者中都有五倍的改進。 

研究者對非專業用戶的測試要求,是在NLP模型測試毒性語料的內容管制。參與者要找到被模型判定為有毒語料中的非毒性內容,也就是他們個人覺得合適的內容。 參與者可以使用改進版的Dynabench眾包界面進行模型測試,也可以使用AdaTest。 結果是AdaTest提供了高達10倍的改進。 

圖片

不同觀點人群做測試參與者的測試效果圖 

利用調試循環修復bug

 一旦發現了足夠多的錯誤,模型的測試人員就會進行外部調試循環(如下圖),修復在測試循環中發現的錯誤,然后重新測試模型。 在這個流程中,調試循環的「再測試」部分(即再次運行測試循環)是至關重要的,因為一旦用測試來修復模型,它們就不再是測試數據,而是訓練數據了。修復錯誤的過程往往會過度補償,在調試循環的最初幾輪中引入捷徑或錯誤,而這些錯誤只能用一組適應新的「固定」模型的測試來發現。 

在一個開源的RoBERTa-Large情感模型上的測試循環流程。 研究者從圖2中的「/敏感/移民 」主題的測試開始,RoBERTa模型將其錯誤地標記為負面。在這些測試中對模型進行微調(與原始訓練數據混合以保持任務性能),結果是一個不再失敗的新模型。 然而,當重新運行測試循環時,發現現在幾乎所有的移民語句都被標記為 「中性」,即使它們基于應用和測試場景是真正的負面的。

使用這些新的測試再次進行微調,結果是模型正確地修復了原來的錯誤,而沒有增加 「每個移民語句都是中性的」這一捷徑。 當然,這并不能保證模型中不存在另一個捷徑,但根據研究者的經驗,幾輪調試循環之后,大大減少了修復原始錯誤時引入的意外錯誤的數量。 

測試人員不需要提前詳盡地識別每一個可能的錯誤,AdaTest會自適應地顯現并修復在下一輪測試和調試中引入的錯誤。

因此,調試循環推動了當前bug測試規范 的邊界,直到產生一個令人滿意的模型為止。 事實上,AdaTest可以被看作是軟件工程中測試-修復-再測試循環在NLP中的應用。 

圖片

在調試循環的迭代過程中添加的捷徑被發現,并被未來的迭代所修復 為了評估調試循環的有效性,使用Quora問題數據集對RoBERTa-Large進行了微調,以檢測兩個問題是否重復,還使用斯坦福情感樹庫(SST)數據集對其進行了微調,以進行正面/中立/負面的情感分析。 

結果發現,基線模型在53個QQP主題中的22個主題上,以及39個情感主題中的11個主題中沒能成功識別。之后,研究者創建了數據來修復主題。 從該主題的數據中抽取50個例子,用AdaTest運行調試循環,在QQP數據集上,平均進行41.6次測試,在情感數據集上,平均要進行55.8次測試。 

結果表明,在絕大多數情況下,AdaTest修復了用于訓練的題目和一些未見過的保留題目,沒有破壞任何題目,而原始的CheckList數據經常引入新的錯誤,從而破壞其他測試題目。 研究者還評估了AdaTest在標準開發環境中的有效性。經過三個月的開發、CheckList測試和基于GPT-3的臨時數據增強,在野外收集的未見過的數據上,F1分數為0.66(滿分1.00)。 

同一個團隊使用AdaTest,在他們自己運行調試循環四個小時后,在相同的未見過的數據集上的F1分數為0.77。之后又在第二個未見過的數據集上復現了這些分數,這表明,AdaTest可以在傳統方法所涉及領域進行錯誤修復,并取得更好的效果。 

人們提供語言模型所缺乏的問題規范,而語言模型則以更大的規模和范圍上提供高質量的測試,并將模型測試和調試連接起來,有效修復錯誤,使模型開發向傳統軟件開發的迭代性質邁進了一步。 

人類與AI的合作,代表了機器學習發展的一個未來的方向,希望這種協同會隨著大型語言模型能力的不斷增長而不斷提高。?

責任編輯:張燕妮 來源: 新智元
相關推薦

2011-09-13 09:57:25

谷歌云計算

2022-10-17 08:03:54

CPUDMAKafka

2011-04-06 14:20:50

Java編程

2011-04-13 09:13:02

Java內存

2023-09-18 13:14:00

AI工具

2024-04-02 10:13:25

在線小工具開發

2012-03-12 11:48:44

惠普激光打印機

2023-07-26 07:02:04

2020-01-15 14:20:07

Node.js應用程序javascript

2022-03-31 16:47:30

mysqlcount面試官

2022-09-16 15:02:19

戴爾

2011-04-25 17:04:28

傳真機

2020-07-16 15:20:13

switch...caif...else語言

2012-05-10 15:32:26

惠普激光打印機

2022-02-07 09:05:00

GitHub功能AI

2020-10-20 09:20:28

Linux系統管理員技巧

2019-07-05 16:26:06

MySQLcount(1)count(*)

2021-09-30 10:55:05

微軟模型技術

2012-05-09 13:20:00

Win7

2022-07-15 09:25:01

AI制藥
點贊
收藏

51CTO技術棧公眾號

免费久久久一本精品久久区| 韩国欧美亚洲国产| 欧美一区二区三区影院| 2020国产在线| 欧美韩国日本不卡| 91嫩草在线视频| 久久精品女人毛片国产| 男男gay无套免费视频欧美| 欧美伦理视频网站| www.浪潮av.com| 91福利在线视频| www.色精品| 国产一区二中文字幕在线看| 日本在线观看中文字幕| 日韩夫妻性生活xx| 亚洲娇小xxxx欧美娇小| 不卡中文字幕在线观看| 在线天堂资源www在线污| 综合久久国产九一剧情麻豆| 欧美日韩精品一区| 亚洲欧美激情国产综合久久久| 久久天堂精品| 性欧美xxxx视频在线观看| 欧美88888| 日日天天久久| 精品国产免费视频| 三级黄色片播放| 欧美日韩国产网站| 黑人巨大精品欧美一区二区| 国产精品igao激情视频| 日韩免费啪啪| 国产日产亚洲精品系列| 噜噜噜噜噜久久久久久91| 午夜精品久久久久久久第一页按摩| 日韩中文字幕亚洲一区二区va在线| 久久免费国产视频| 免费中文字幕在线观看| 国产精品传媒精东影业在线 | 在线免费看av片| 一区二区三区成人精品| 欧美激情综合亚洲一二区| 最新黄色av网址| 成人久久综合| 中文字幕无线精品亚洲乱码一区| 李宗瑞91在线正在播放| 秋霞蜜臀av久久电影网免费| 精品国产一区二区三区久久影院 | 视频欧美一区| 91麻豆精品国产91久久久久久久久 | 久久久999国产| 粉嫩av蜜桃av蜜臀av| 免费成人三级| 亚洲高清一二三区| 中文字幕99页| 超碰在线成人| 亚洲国产日韩欧美综合久久| 性活交片大全免费看| 都市激情亚洲欧美| 亚洲国产精品久久久久秋霞不卡 | 日本一区影院| 日韩一级片网站| 国产在线a视频| 999久久久精品一区二区| 精品欧美乱码久久久久久| 亚洲熟妇一区二区| 精品亚洲自拍| 亚洲精品乱码久久久久久按摩观| 亚洲av成人无码一二三在线观看| 欧美日韩一区二区三区不卡视频| 亚洲黄色免费三级| 亚洲AV无码国产成人久久| 全国精品免费看| 国产视频自拍一区| 色欲狠狠躁天天躁无码中文字幕| jiujiure精品视频播放| 日韩中文字幕免费看| 日韩在线中文字幕视频| 在线观看的日韩av| 欧美自拍视频在线观看| 中文字幕av影视| 国产在线国偷精品免费看| 99三级在线| 四虎影视在线播放| 亚洲国产激情av| 看全色黄大色大片| 国产社区精品视频| 欧美无砖砖区免费| 久久久久亚洲AV成人网人人小说| 任你弄精品视频免费观看| 国产一区二区三区在线免费观看| av资源在线免费观看| 欧美日本三区| 国产成人精品视频在线观看| 91女人18毛片水多国产| 成人国产精品免费网站| 日产精品久久久一区二区| a毛片在线观看| 大桥未久av一区二区三区| 国产三级国产精品国产专区50| 日韩高清一区| 国产香蕉一区二区三区在线视频 | 欧美色播在线播放| 午夜天堂在线视频| 天堂成人娱乐在线视频免费播放网站 | 在线观看免费视频国产| 啪啪亚洲精品| 欧美丰满少妇xxxxx| 午夜精品免费观看| 国产成都精品91一区二区三| 欧美三级华人主播| 青青草原av在线| 欧美中文一区二区三区| 亚洲成人福利视频| 日韩大片在线播放| 91高清视频免费| 99国产精品久久久久99打野战| 久久综合色综合88| 91午夜在线观看| 91麻豆精品国产综合久久久 | 动漫精品视频| h网站在线免费观看| 精品成人国产在线观看男人呻吟| 色啦啦av综合| 国产亚洲欧美日韩在线观看一区二区| 久久6免费高清热精品| 在线免费看91| 国产无一区二区| 久草热视频在线观看| 亚洲日本一区二区三区在线| 日韩在线视频免费观看| 亚洲熟女综合色一区二区三区| 成人小视频在线观看| 成年人黄色在线观看| 99热播精品免费| 亚洲欧美一区二区激情| 日韩精品手机在线| 成人一区二区视频| 欧美大黑帍在线播放| 婷婷激情成人| www.日韩.com| 一本到在线视频| 国产精品污污网站在线观看 | 免费高清视频在线一区| 亚洲精品之草原avav久久| 日本少妇裸体做爰| av成人免费在线观看| 国产成a人亚洲精v品在线观看| 97久久中文字幕| 久久精品中文字幕电影| 91一区二区视频| 亚洲图片欧美激情| 视频区 图片区 小说区| 亚洲国产日韩欧美在线| 亚洲www在线| 福利网站在线观看| 亚洲成人免费网站| 色网站在线播放| 久久午夜羞羞影院免费观看| 日本精品一区二区三区四区| 伊人久久大香线蕉综合网蜜芽| 97在线精品视频| 欧美女优在线| 欧美揉bbbbb揉bbbbb| 18啪啪污污免费网站| 蓝色福利精品导航| 一二三四中文字幕| jizz久久精品永久免费| 97视频国产在线| 精品美女视频在线观看免费软件| 欧美伊人久久久久久午夜久久久久| 夫妇交换中文字幕| 美女精品自拍一二三四| 天天干天天色天天爽| 一级毛片精品毛片| 日本久久91av| 在线播放日本| 欧美xxxxxxxx| 久久影视中文字幕| 中文字幕中文字幕在线一区| 亚洲热在线视频| 99在线|亚洲一区二区| 日韩福利一区二区三区| 亚洲欧洲日韩精品在线| 久久久噜噜噜久久久| 日韩三级电影网| 欧美精选一区二区| 国产无遮挡又黄又爽又色| 久久久久高清精品| 五月天丁香花婷婷| 亚洲精品乱码| 亚洲一区二区在线免费观看| 欧美电影院免费观看| 91av视频在线观看| 免费av在线网站| 日韩国产欧美精品在线| 国产又大又黑又粗| 黑人巨大精品欧美一区二区三区| 懂色av粉嫩av浪潮av| 丁香婷婷综合激情五月色| 欧美xxxxx在线视频| 亚洲影视一区| 日本一区二区三区www| 中文字幕av一区二区三区四区| 日本最新高清不卡中文字幕| 尤物在线网址| 日韩在线免费高清视频| 涩爱av在线播放一区二区| 3atv在线一区二区三区| 无码无套少妇毛多18pxxxx| 夜夜精品浪潮av一区二区三区| 国产成人一区二区在线观看| 成人视屏免费看| 污污的视频免费观看| 天堂一区二区在线免费观看| 国产精品久久久久9999爆乳| 91视频综合| 日韩高清av电影| 欧美精品中文字幕亚洲专区| 51蜜桃传媒精品一区二区| 成人在线观看免费视频| 欧美亚洲成人xxx| 丝袜中文在线| 另类天堂视频在线观看| www视频在线观看免费| 日韩乱码在线视频| 亚洲第一色网站| 欧美一激情一区二区三区| 中文字幕永久在线观看| 色系网站成人免费| 天天做天天爱夜夜爽| 婷婷六月综合网| 欧美福利视频一区二区| 亚洲va欧美va天堂v国产综合| 青青草成人免费| 亚洲精品国久久99热| 国产黄a三级三级| 国产精品毛片无遮挡高清| 人妻av无码一区二区三区| 久久在线观看免费| 自拍视频一区二区| 99久久精品情趣| 中文字幕在线播放视频| 成人白浆超碰人人人人| 亚洲色图欧美另类| 成人精品鲁一区一区二区| 激情综合激情五月| 丁香另类激情小说| 日本精品一二三区| 99久久综合精品| 性久久久久久久久久| 92精品国产成人观看免费| 在线观看日韩精品视频| 2014亚洲片线观看视频免费| 扒开jk护士狂揉免费| 国产欧美日韩在线| 五月天色婷婷丁香| 亚洲黄一区二区三区| 国产一级免费av| 黑人欧美xxxx| 亚洲第一网站在线观看| 欧美日韩在线播放三区| 亚洲系列第一页| 日韩一级二级三级精品视频| www.av黄色| 亚洲精品福利视频| 国产粉嫩一区二区三区在线观看| 深夜精品寂寞黄网站在线观看| 成人短视频在线观看| 国内精品国产三级国产在线专| 欧亚在线中文字幕免费| 国产精品91免费在线| 精品久久在线| 大波视频国产精品久久| 伊人精品一区| 桥本有菜av在线| 伊人天天综合| 三级在线视频观看| 国产精品亚洲第一| 中文字幕一区二区三区人妻不卡| 亚洲国产精品传媒在线观看| 久久久久亚洲AV成人| 欧美日韩精品在线播放| 一区二区精品视频在线观看| 精品欧美一区二区久久| 国产www.大片在线| 久久99久久亚洲国产| 成人福利视频| 91黄在线观看| 国产欧美日韩精品一区二区免费| 一本色道婷婷久久欧美| 在线精品一区| 午夜剧场高清版免费观看| www.视频一区| 91n在线视频| 丁香五六月婷婷久久激情| 国产精品久久久久久久免费看| 亚洲福利视频免费观看| 色综合久久影院| 欧美又大又粗又长| 天堂av一区| 日韩欧美一区二区视频在线播放| 欧美三级免费| 欧美午夜aaaaaa免费视频| 成人美女视频在线观看| 成年人二级毛片| 欧美视频在线观看免费| www.黄色片| 中文字幕日本欧美| 欧洲一区精品| 国产成人女人毛片视频在线| 日韩久久电影| 情侣黄网站免费看| aaa国产一区| 国产女片a归国片aa| 在线免费观看日本一区| 熟妇人妻av无码一区二区三区| 久久精品亚洲94久久精品| 亚洲不卡系列| 精品日韩欧美| 激情综合激情| 超级砰砰砰97免费观看最新一期 | 久久久精品99| 欧美精品v国产精品v日韩精品| 你懂得在线网址| 午夜精品视频在线| 91成人精品在线| 日本a级片在线观看| 看片的网站亚洲| 国产亚洲精品熟女国产成人| 欧美视频免费在线| 日韩电影免费| 欧美一级视频免费在线观看| 九九热hot精品视频在线播放| 欧洲金发美女大战黑人| 国产毛片精品一区| 在线免费观看亚洲视频| 欧美精品丝袜中出| 日本天堂在线观看| 成人黄色片在线| 99久久99久久精品国产片果冰| 邪恶网站在线观看| 中文一区一区三区高中清不卡| 亚洲成人av网址| 亚洲天堂男人天堂女人天堂| 伊人久久综合一区二区| 蜜桃麻豆www久久国产精品| 国产日韩一区二区三区在线| 久久久久国产精品无码免费看| 亚洲在线观看免费视频| 国产91麻豆视频| 久久久亚洲国产天美传媒修理工| av不卡一区| 日韩xxxx视频| 不卡视频在线看| 国产免费av一区| 亚洲网址你懂得| 国产一区精品福利| 午夜在线视频免费观看| 国产一区在线不卡| 免费麻豆国产一区二区三区四区| 日韩免费观看高清完整版| 亚洲婷婷噜噜| 精品一区二区国产| 久久综合网络一区二区| 人妻无码一区二区三区免费| 欧美精品成人一区二区三区四区| 91蜜桃在线视频| 精品视频一区二区三区四区| 久久亚洲图片| 国产农村妇女精品一区| 3751色影院一区二区三区| 色呦呦在线观看视频| 久久久久免费网| 麻豆国产精品视频| 久久久久噜噜噜亚洲熟女综合| 亚洲精品国产精品国自产观看浪潮| 成人性生活视频| av不卡在线免费观看| 成人中文字幕在线| 在线免费观看av网址| 久久久成人精品视频| 国产成人av毛片| 男人插女人下面免费视频| 亚洲欧美乱综合| 飘雪影视在线观看免费观看 | 精品国产拍在线观看| 一区二区日韩| 三级在线视频观看| 亚洲高清免费在线| av男人的天堂在线| 动漫美女被爆操久久久| 蜜臀久久99精品久久久久宅男| 人妻少妇精品一区二区三区| 亚洲欧美国产精品专区久久| 国产在线一区不卡| 日本在线观看a| 一区二区三区丝袜| caoporn国产精品免费视频| 99高清视频有精品视频| 日本视频免费一区|