精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CoT提出者Jason Wei:大模型評估基準的「七宗罪」

人工智能 新聞
Jason Wei 是思維鏈提出者,并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。目前他正在 OpenAI 進行工作。

在 CV 領域,研究者一直把李飛飛等人創建的 ImageNet 奉為模型在下游視覺任務中能力的試金石。

在大模型時代,我們該如何評估 LLM 性能?現階段,研究者已經提出了諸如 MMLU、GSM8K 等一些評估基準,不斷有 LLM 在其上刷新得分。

但這些評估基準真的完美嗎?思維鏈提出者 Jason Wei 在一篇博客中進行了深入的研究。

Jason Wei 首先列舉了幾種成功的評估基準,然后總結了評估基準失敗的常見原因,共七條,包括樣本數量少、評估基準太復雜等等。

進一步的,Jason Wei 認為有些評估工具命名方式并不完美,比如 HumanEval 雖然叫做人類評估,實際上并沒有用到人類進行評估,只是因為問題是由人類創建的。

Jason Wei 表示如果想讓自己創建的評估工具得到廣泛使用,一定要幫助研究者使用它,從而得到推廣。此外,文中還提到了一些針對特定領域的小眾評估工具,Jason Wei 認為這些評估可能不會引起領域之外的任何關注。大家關心的測試集污染問題,Jason Wei 也給出了一些解決方案。

接下來,我們看看 Jason Wei 原博客內容:

成功評估的定義是什么?我想說,如果一個評估基準被用在突破性論文中,并在社區中得到信任,那么它顯然就是成功的。

以下是過去五年中一些成功的評估基準:


  • GLUE/SuperGLUE:LLM 之前基本上所有 NLP 論文(BERT、T5 等)都使用。
  • MMLU:幾乎所有 LLM 論文都使用,也是 DeepMind 和 Google 最喜歡的評估基準。
  • GSM8K:激發了 LLM 的推理能力,并被用于每一篇關于思維鏈(chain-of-thought)的論文中。
  • MATH:大多數 LLM 論文會使用。
  • HumanEval:是 LLM 編碼的經典評估基準。

成功的評估往往會有一篇大論文聲稱使用該評估基準取得了一些突破。例如,GLUE 由 BERT 推廣,MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推廣。思維鏈提示(chain-of-thought prompting)聲稱在 GSM8K 上取得了突破。Minerva 的超凡能力在 MATH 上得到體現。Codex 等模型使用了 HumanEval。

更深入地說,在評估基準上得到好分數必須意味著一些重要且易于理解的事情,例如實現超越人類的表現、解決小學水平的數學問題。

而大多數不成功的評估基準都至少犯了如下七個錯誤之一:

1、如果評估沒有足夠的樣本,那么對于研究人員來說,它會很嘈雜(noisy),而且 UI 會很糟糕。例如,有人可能在模型訓練過程中運行評估,并發現它在各個檢查點之間波動很大。這使得評估對于研究人員來說非常痛苦,因此他們不會喜歡使用該評估基準。評估基準最好有至少 1000 個樣本供您評估;如果是多項選擇評估,可能需要更多。例如盡管 GPQA 是一個很好的評估基準,但它根據 prompt 而波動的事實使其難以使用。

2、評估基準應該是高質量的。如果評估基準中有很多錯誤,人們就不會相信它,例如 Natural Questions(NQ)基準。

3、如果你的評估基準太復雜,人們會很難理解它,并且會很少使用它。我認為 HELM 的第一個版本是一項巨大的努力,但它有太多的指標和子集。擁有單一數字指標至關重要 —— 我想不出任何偉大的評估基準是沒有單一數字指標的。

4、如果評估需要太多工作來運行,即使其他一切都很好,它也不會有很大的吸引力。BIG-Bench 是我最喜歡的評估基準之一,但運行起來非常痛苦。有對數概率評估和生成評估,這需要不同的基礎設施。子集太多,而且有些子集的樣本太多,所以評估花了很長時間。我相信這就是為什么 BIG-Bench 沒有獲得太多關注,盡管它提供了很多優勢。

5、如果評估不是針對一項有意義的任務,人工智能研究人員不會深度關注它。例如,在 BIG-Bench Hard 中,有推薦電影等任務。這些任務具有挑戰性,并且隨著模型大小的變化性能有所變化,但在這些任務上做得好并不能對模型的智能程度做出實質性的結論。成功的評估通常會衡量對智能至關重要的事物,例如語言理解、考試問題或數學。

6、評估的評分應該非常正確。如果有人認為模型評分不正確或者不認同該評分,那么他們可以立即取消使用該評估基準?;〞r間來盡量減少解析引起的錯誤,或者盡可能獲得最好的自動評分器 prompt 是值得的。

7、為了使評估經得起時間的考驗,性能不能太快飽和。例如,GLUE/SuperGLUE 飽和得太快,很難顯示出巨大的增益,人們就不再使用它們。

對于評估工具,還有不完善的地方

看起來很多優秀的評估工具都有些糟糕的名字。比如 GSM8K 其實并不需要加上 8K,而 HumanEval 雖然叫做人類評估,實際上并沒有用到人類進行評估(之所以叫 HumanEval 是因為問題是由人類創建的)。MATH 這個名字太普通了,所以人們開始稱之為「Hendrycks-math」,這應該算是一個聰明的命名方式,以創建者的名字來命名。 

如果你想讓你的評估工具得到廣泛使用,你首先要做的是幫助人們使用它。例如,當我制定了一個評估工具時,我通常會幫助他人在模型上運行它。如果他們的模型在這個評估上表現良好,那么人們通常會喜歡它并進一步的推廣它。HELM 就非常擅長為其他人評估模型并公布結果。

此外,如果你能為人們使用你的評估工具創造激勵機制也很有幫助。對員工來說,最好的激勵之一就是他們領導所重視的東西。因此,獲得實驗室或公司內部領導的支持對你的評估工具可能會有所幫助,他們會要求底下員工運行它。當我在谷歌創建 MGSM 時,我選擇與 Dipanjan Das(Google Deepmind 的研究主管)合作完成,盡管我們不在同一個團隊。我與他合作純粹是因為他是個有趣的人(并不是為了推廣這個評估工具),但我認為 Dipanjan 很喜歡這個工具,并且在他的團隊中獲得了一些人的支持使用。

然而,LLMs 的出現,對評估工具提出了更高的要求。LLMs 具有大規模多任務處理能力并能生成長回答。目前還沒有一個單一的評估工具能夠充分評估 LLMs。當前流行的評估工具仍然使用非常簡單的評分方式(要么是多項選擇,要么是檢查數字,或者執行單元測試),即便這些方法也存在問題。如果我們能圍繞一個單一的提示,比如零樣本思維鏈(zero-shot chain-of-thought),那會很好。我知道由于很多原因這不是一個完美的解決方案,但我認為為了讓大家統一標準,這是合理的。 

一個新的推動力是人類對模型進行配對評估,比如 LMSYS,但這種評估方式是一把雙刃劍。它們之所以強大, 是因為你可以通過一組簡單的提示得到一個單一的數字指標來衡量一個語言模型的好壞,并且可以通過大量的樣本來平均掉樣本級別的噪聲。不過,成對評估的危險之處在于你并不完全確定你在測量什么 —— 例如,相對于正確性,風格等這類因素的權重影響有多大。 

對模型生成內容(model-generated)的評估也變得有些流行。雖然我傾向于對模型生成的評估比較挑剔,但如果做得好,它們可以用于快速實驗和觀察性能的大幅提升,這是有可能的。但是創建一個經得起時間考驗的偉大的評估需要非常小心,我不想在合成評估中冒任何風險。

一個顯而易見的觀點是,評估的主題決定了有多少人會關心這個評估。你可以創建一個非常高質量的特定領域評估(例如,法律、醫療等),在這些情況下,最重要的是根據該領域專家所重視的內容來定制評估。

我曾經制作過一個組織病理學圖像基準,不出所料,它在醫學圖像分析領域之外幾乎沒有引起任何關注,只獲得了 40 次引用。話雖如此,一旦更多人意識到其重要性,你創建的特定領域評估也有可能獲得更多關注。

評估中一個日益重要的問題是測試集污染。創建了一個好的評估之后,評估的示例往往會傳播到互聯網的各個地方,如 arxiv 論文、ChatGPT 示例或 reddit。解決這個問題的一個方法是對測試集進行「隱藏」,但這種方法引起了很多分歧。斯坦福大學教授 Chris Manning 提出了一個很好的建議,即對公開測試集、私有測試集都進行評估,并監控模型在這兩個測試集上是否有大的偏差。這種方法平衡了在公開測試集上測試的低摩擦性和私密測試集的高可信度。

我注意到的最后一件事是,你關心的評估很大程度上表明了你的身份。一個充滿博士的研究室可能會對語言模型在數學、編碼和物理上的推理能力感興趣。相反,我看到像 LMSYS 這樣的面向用戶的評估被來自軟件或產品背景的工程師視為黃金標準。雖然我兩者都關心,但我個人更傾向于智能,因為我相信智能是 AI 與人類交互的根本驅動力。

社區應該更多地投資于評估,盡管這可能很痛苦,通常不會像建模工作那樣得到很多回報。但歸根結底,好的評估工具是 AI 研究人員對模型的客觀評價指標,并且是對該領域產生重大影響的一種方式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-07 10:11:20

模型AI

2023-05-08 10:54:39

IT管理CIO

2024-06-19 19:28:51

2018-02-05 23:14:35

光纖網絡光纖施工

2011-02-21 09:04:25

2014-01-13 09:35:13

創業企業

2021-03-01 18:48:21

Go管理工具

2013-01-17 17:14:52

Objective-C

2015-09-15 13:22:08

數據分析七宗罪

2013-05-10 10:49:53

2010-08-18 10:05:27

IE7IE6

2011-02-23 10:51:36

Chrome

2015-07-16 09:14:50

數據中心數據中心效率

2019-04-15 09:00:00

SQLOracle數據庫

2016-12-08 13:12:36

數據中心綠色認證

2021-03-03 14:08:48

自動化高管IT投資

2012-04-04 22:15:19

移動游戲

2023-10-17 20:28:13

軟件開發代碼

2012-09-07 14:41:26

2017-01-09 15:25:49

物聯網策略設計
點贊
收藏

51CTO技術棧公眾號

亚洲日本丝袜连裤袜办公室| 日本午夜精品一区二区三区电影| 亚洲国产女人aaa毛片在线| 日本福利视频一区| 春暖花开成人亚洲区| 免费人成精品欧美精品| 久久久久久久av| 国产成人福利在线| 国产精品一区二区精品视频观看| 亚洲成av人片在www色猫咪| 日本不卡久久| 亚洲老妇色熟女老太| 久久久久国产精品一区三寸| 久久五月情影视| theav精尽人亡av| 91精品福利观看| 日韩欧美成人免费视频| 桥本有菜av在线| 精品乱码一区二区三四区视频| 国产一区二区三区在线看麻豆| 欧美性视频在线| 天天操天天操天天操天天操天天操| 全球av集中精品导航福利| 欧洲精品一区二区三区| 国产精品一区二区不卡| 国产成人精品视频| 日本少妇全体裸体洗澡| 一区二区三区在线电影| 在线播放国产一区中文字幕剧情欧美| 久久久久久久久久久久国产精品| 色狠狠一区二区三区| 日韩欧美国产视频| 欧美深夜福利视频| 欧美大片黄色| 亚洲欧美激情一区二区| 午夜精品一区二区三区在线观看| 五月天婷婷在线观看| 国产69精品久久久久毛片| 91精品国产自产在线| 激情网站在线观看| 久久人人97超碰国产公开结果| 久久久久久久一| 激情小说中文字幕| 91tv精品福利国产在线观看| 最近2019年中文视频免费在线观看 | 超薄肉色丝袜一二三| 羞羞色国产精品网站| 精品成人私密视频| 美女日批在线观看| 久久天堂久久| 欧美精品三级日韩久久| 性生活免费在线观看| 亚洲成人va| 欧美视频日韩视频| 久草综合在线观看| 性欧美freehd18| 在线欧美一区二区| 亚洲欧美国产日韩综合| 激情中国色综合| 欧美日韩三级一区| 国产欧美一区二| 国产精品一区免费在线| 日韩一区二区三区在线| 男人的天堂免费| 午夜诱惑痒痒网| 国产小视频在线观看| 久久久久久久久久久久久夜| 欧美精品中文字幕一区二区| 黄色影院在线播放| 国产精品视频第一区| 亚洲砖区区免费| 中文av资源在线| 亚洲影视在线观看| 国产免费毛卡片| 亚洲承认视频| 在线成人高清不卡| 亚洲欧洲日韩综合| 自拍视频一区| 最新的欧美黄色| 免费一级黄色大片| 国产手机视频一区二区| 国产精品久久久久久久久久ktv| 在线观看免费视频a| 国产a区久久久| 欧美不卡三区| 国产美女福利在线| 婷婷夜色潮精品综合在线| 精品一卡二卡三卡| 超碰在线人人干| 爱草tv视频在线观看992| 亚洲精品久久久蜜桃| 97超碰在线人人| 蜜桃视频成人m3u8| 欧美一区二区成人| 无码人妻aⅴ一区二区三区| 欧美日韩水蜜桃| 欧美激情欧美狂野欧美精品| 久久久精品福利| 精品写真视频在线观看| 国产日韩欧美二区| 欧美人xxx| 欧美性xxxx极品hd满灌| 97超碰人人看| 欧美一区二区三区激情视频| 精品中文字幕在线| 日韩 国产 欧美| 国产成人精品影院| 亚洲高清123| 深夜福利视频一区二区| 7777精品久久久大香线蕉| 免费看黄色aaaaaa 片| 在线天堂中文字幕| 婷婷亚洲最大| 欧美综合一区第一页| 国产毛片毛片毛片毛片| 久久综合色8888| 久久男人资源站| 九九久久国产| 亚洲桃花岛网站| 日韩欧美亚洲视频| 国产在线视频一区二区| 日韩欧美亚洲日产国产| 97人人在线视频| 日韩精品影音先锋| 中国一级片在线观看| 视频一区二区三区在线| 精品国产免费久久久久久尖叫| 成人av福利| 精品视频一区二区不卡| 国产美女免费无遮挡| 在线国产欧美| yellow视频在线观看一区二区| 最新国产在线观看| 在线一区二区三区四区五区| 国产麻豆xxxvideo实拍| 亚洲精品免费观看| 成人欧美视频在线| av网站在线免费| 91麻豆精品国产自产在线观看一区 | 国产不卡视频在线播放| 特级毛片在线免费观看| 欧美综合影院| 久久激情视频免费观看| 国产偷人爽久久久久久老妇app | 麻豆久久久久| 一区二区三区天堂av | 制服丝袜激情欧洲亚洲| 女教师淫辱の教室蜜臀av软件| 日本91福利区| 性欧美.com| 伊人久久精品一区二区三区| 日韩av在线播放网址| 国内精品视频一区| 人妻va精品va欧美va| 亚洲午夜电影网| wwwxx日本| 日韩午夜激情| 日本精品视频一区| 亚洲电影有码| 色播久久人人爽人人爽人人片视av| 黄色片视频免费| 国产精品久久久久婷婷| 亚洲综合激情视频| 中文字幕免费精品| 99re在线观看| 在线视频超级| 中文字幕精品网| 国产精品久久久久久久久毛片| 亚洲欧美日韩中文播放| 蜜桃色一区二区三区| 一本色道久久综合| 日韩久久在线| 成人污版视频| 性色av一区二区三区免费| 四虎成人免费在线| 欧美日韩成人在线一区| 欧美毛片在线观看| 久久综合久久综合九色| 日本在线一二三区| 国产精品草草| 欧洲精品国产| 欧州一区二区三区| 97不卡在线视频| 色综合久久久久综合一本到桃花网| 日韩午夜三级在线| 国产精品自拍99| 中文字幕欧美一| 亚洲国产精品无码久久久久高潮 | 亚洲色图在线看| 波多野结衣视频播放| 日本特黄久久久高潮| 久久久99精品视频| 国产a久久精品一区二区三区| 91精品久久久久久| 三妻四妾的电影电视剧在线观看| 国产一区二区动漫| 性中国xxx极品hd| 欧洲一区二区av| 欧美日韩中文视频| 国产精品色呦呦| 日本japanese极品少妇| 久久99精品久久久| 人妻有码中文字幕| 欧美色图17p| 日韩成人精品在线| 久草视频这里只有精品| 成人精品天堂一区二区三区| 国产欧美日韩一区| 欧美黄色网络| 人妖精品videosex性欧美| 怡红院红怡院欧美aⅴ怡春院| 亚洲欧美日韩高清| 欧美熟妇交换久久久久久分类| 欧亚洲嫩模精品一区三区| 日韩免费av片| 亚洲免费在线观看视频| 欧美老女人性生活视频| 99久久er热在这里只有精品66| 老司机久久精品| 日本成人在线电影网| 无码人妻丰满熟妇区96| 国产精品hd| 蜜臀av.com| 91麻豆国产自产在线观看亚洲| 精品在线不卡| 风间由美性色一区二区三区四区| 成人黄色av播放免费| 欧美xxxx做受欧美护士| 欧美在线视频免费观看| av在线小说| 久久久久久这里只有精品| bestiality新另类大全| 久久精品2019中文字幕| av网站在线免费播放| 亚洲人a成www在线影院| 欧美女优在线观看| 日韩av中文字幕在线播放| 国产香蕉在线观看| 欧美大片拔萝卜| 国产婷婷在线视频| 欧美一卡二卡在线| 国产视频一二三四区| 5566中文字幕一区二区电影| 亚洲在线精品视频| 欧美精品丝袜中出| 91久久精品国产91性色69 | 日韩在线xxx| 久久精品人人| 亚洲免费av一区二区三区| 首页国产欧美日韩丝袜| 国产av人人夜夜澡人人爽| 丝袜亚洲精品中文字幕一区| 国产视频一区二区视频| 青青草国产精品亚洲专区无| 一本色道久久亚洲综合精品蜜桃| 美女视频一区二区三区| 亚洲怡红院在线| 国产风韵犹存在线视精品| 在线播放第一页| 精品视频免费| 欧美一区二区三区四区五区 | 在线不卡免费av| 99精品视频免费看| 精品国产一区久久| 亚洲aaaaaaa| 国产亚洲精品成人av久久ww| 91美女视频在线| 久久中文字幕在线| 999av小视频在线| 国产成人在线亚洲欧美| 四虎国产精品免费久久5151| 97人人干人人| 亚洲制服一区| 亚洲成人一区二区三区| 一区二区三区国产精华| 久久视频这里有精品| 免费看精品久久片| 久久久久亚洲av无码专区首jn| 不卡一区在线观看| 免费看91的网站| 亚洲激情一二三区| 国产原创视频在线| 欧美精品亚洲二区| 午夜影院免费视频| www.亚洲成人| 国产美女高潮在线观看| 国产精品视频精品| 国产伦精品一区二区三区免费优势| 欧美一区二区三区四区夜夜大片| 91日韩免费| 高清在线观看免费| 韩国视频一区二区| 成人无码www在线看免费| 最新中文字幕一区二区三区| 日韩欧美三级在线观看| 7777精品伊人久久久大香线蕉 | 国产精品美女在线观看直播| 日韩色妇久久av| 136国产福利精品导航网址| 99久久国产宗和精品1上映| 国产精品一级片在线观看| xxxx日本免费| 亚洲国产日日夜夜| 中文字幕有码无码人妻av蜜桃| 日韩精品一区在线| yiren22综合网成人| 97高清免费视频| 国产精品视频首页| 日韩精品一区二区三区四区五区| 韩国自拍一区| 中文国产在线观看| 日本一区二区三区久久久久久久久不| 九九在线观看视频| 欧美日韩大陆在线| 二人午夜免费观看在线视频| 久久久久久久久久国产精品| 福利精品一区| 欧美日韩一区二| 好看的日韩av电影| 久久久久久久91| 亚洲h视频在线观看| 这里只有视频精品| 国偷自产一区二区免费视频| 国产精品视频在线免费观看 | 国产欧美精品aaaaaa片| 蜜臀a∨国产成人精品| 玖草视频在线观看| 天天综合色天天综合| 高h震动喷水双性1v1| 欧美男插女视频| 国产高清亚洲| 在线观看亚洲视频啊啊啊啊| 日韩av一区二| 国产美女免费网站| 91国偷自产一区二区开放时间 | 国产精品久久毛片| 少妇一级淫片日本| 亚洲性生活视频| 婷婷综合六月| 日本视频一区二区在线观看| 国产精品夜夜夜| aaaaa级少妇高潮大片免费看| 性久久久久久久久| 色噜噜在线播放| 91成人福利在线| 伊人久久大香线蕉综合网蜜芽| 久久精品视频16| 成人精品免费网站| 亚洲免费激情视频| 国产偷国产偷亚洲清高网站| 香蕉成人av| 亚洲一区二区精品在线| 精品一区二区三区免费毛片爱| 美国黄色片视频| 欧美一级黄色录像| 欧美日韩在线视频免费观看| 国产精品久久久一区二区三区| 在线成人h网| 国产精品久久不卡| 91国产视频在线观看| 91在线视频| 5g国产欧美日韩视频| 激情综合自拍| 久久久久国产精品区片区无码| 色婷婷av一区二区三区gif| 国产一级在线观看| 91久久久久久久久久| 欧美国产精品| 中文字幕av观看| 欧美三级视频在线| 91精品久久| 国产一区二区三区四区五区加勒比| 国产精品久久久亚洲一区| 色欲AV无码精品一区二区久久| 欧美日韩国产一二三| 在线免费观看污| 欧美久久久久久久| 精品一区二区日韩| 国产在线视频二区| 一区二区三区国产在线观看| 日韩国产一二三区| 极品粉嫩国产18尤物| 欧美激情在线观看视频免费| 国产福利小视频| 欧美在线视频在线播放完整版免费观看| 欧美日一区二区| 被黑人猛躁10次高潮视频| 精品久久亚洲| 成人午夜小视频| 日韩亚洲国产精品| 欧美手机在线观看| 日韩av影视在线| www.久久久.com| 黄色动漫在线免费看| 国产精品不卡视频| 亚洲aaa在线观看| 91九色综合久久| 免费视频一区二区三区在线观看| 永久免费未视频| 亚洲欧美激情精品一区二区|