精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

每天都看模型評分,但你真的了解嗎?OpenAI研究員最新博客,一文讀懂LLM評估

人工智能 新聞
在LLM能力突飛猛進的當下,所有研究者似乎都在關注數據、算力、算法等模型開發的各個方面,但OpenAI研究員Jason Wei最近發布的一篇博客文章提醒我們,模型評估的工作同樣非常重要。如何開發出優秀的評估測試,對AI能力的發展方向至關重要。

上周六,OpenAI研究院Jason Wei在個人網站上發表了一篇博客,討論了他眼中「成功的語言模型評估」應該具備哪些因素,并總結出了阻礙好的評估在NLP社區獲得關注的「七宗罪」。

圖片

Jason Wei在最近的斯坦福NLP研討會上展示了這篇文章,OpenAI的同事、GPT-4o團隊成員之一William Fedus也轉發了這篇推文。

圖片

如果評估不夠好,進展就會受阻。當我們的評估改進后,一些想法才被發現是好的。當沒有可以攀登的單一指標時,良好的評估在訓練后尤其重要。

Jason Wei從2023年2月開始加入OpenAI,此前他在Google Brain擔任研究科學家。

圖片

今年3月他曾在推特上分享OpenAI的「996」作息(為了AGI,全員主動996!OpenAI匿名員工自曝3年工作感受)

圖片

也在今年5月GPT-4o發布后主動現身說法,比較了大公司谷歌和初創公司OpanAI在人事策略上的不同思路,為我們解開了OpenAI成功之謎的一角。

那么就讓我們看看,這篇博客具體談了哪些內容。

評估對于LLM有多重要

目前,每個開發LLM的人都在使用基準評估,但是這個領域應該得到更多的關注和投入,因為這是對學界工作的直接激勵,與模型的重大性能突破密切相關。

由于LLM大規模、多任務的特性,而且模型通常會給出很長的回答,因此評估工作變得更加困難。目前還沒有一個評估集可以充分測評LLM的能力。

當前流行的評估仍然使用非常簡單的評分機制(單選/多選、核對數字或運行單元測試)。即使這些簡單的機制也存在問題,比如使用了不同的prompt或解析答案的方式。

一個比較好的方案是讓LLM采用同一種prompt,比如零樣本思維鏈。

這可能并不是一個完美的解決方案,但為了「控制變量」,更公平地衡量所有LLM的能力,付出一些代價也是值得的。

零樣本思維鏈prompt:https://arxiv.org/abs/2205.11916

什么是成功的評估

首先,如果一個評估測試被用在突破性論文中,而且受到整個領域的信任,那么它顯然是成功的。

按照這個標準,過去5年中有一些成功的評估被廣泛采用:

- GLUE/SuperGLUE(General Language Understanding Evaluation):基本被前LLM時代的所有NLP論文所使用,包括BERT、T5等。

圖片

論文地址:https://gluebenchmark.com/

- MMLU(Measuring Massive Multitask Language Understanding):幾乎所有LLM論文都使用MMLU,也是DeepMind和Google最喜歡的評估。

這項測試涵蓋了基礎數學、美國歷史、計算機科學、法律等領域的57項任務,模型想要在這項測試中獲得高評分,則必須具備廣泛的世界知識和解決問題的能力。

論文地址:https://arxiv.org/abs/2009.03300

- GSM8K(Grade Scholl Math 8K):包括多種語言的小學數學應用題,可以刺激LLM進行多步推理,每一篇關于思想鏈(CoT)的論文中都會使用。

圖片

https://klu.ai/glossary/GSM8K-eval

- MATH:包含超過1.2萬個競賽難度的數學題目,也被大多數LLM論文使用。

圖片

論文地址:https://arxiv.org/pdf/2103.03874

- HumanEval:由OpenAI建立的手寫評估測試,用于衡量從文檔字符串生成程序的功能正確性

圖片

項目地址:https://github.com/openai/human-eval?tab=readme-ov-file

當然,這里列出的是一個不完全列表,還有很多其他非常優秀的評估測試,包括HellaSwag、SQuAD以及Jason Wei本人參與開發的MGSM、BBH等。

一篇突破性的論文提出一個全新的評估,并宣稱在上面取得了性能突破,再將其推廣開來,這是一種常見的范式。

比如GLUE由BERT推廣,MMLU 由DeepMind推出的Gopher、Chinchilla和Flan-PaLM推廣,首先提出CoT prompting的論文宣稱在GSM8K上取得性能突破,Minerva在MATH上體現了數學能力,OpenAI的Codex首先嘗試HumanEval。

這些評估為什么可以在LLM領域流行起來?

Jason認為,一個評估集上的高分必須能體現出一些有重要意義而且易于理解的事情。

比如「超越人類表現」是容易理解的,「解決小學水平的數學題」對于模型能力的意義,也不難明白。

此外,評估的主題也直接影響著研究者們的關注程度。

在為某個特定領域(如法律、醫療等)創建高質量評估集時,最重要的是基于領域專家的意見和價值判斷,而且不要對流行程度期待過高。

Jason曾做過一個組織病理學的圖像基準測試,不出所料,除了醫學圖像分析領域,這項研究幾乎沒有引起任何關注,文章只有40次引用。

但也有例外,比如OpenAI曾經投入大量資金開發LLM的代碼能力,在Codex和CoPilot等項目獲得關注后,人們也開始意識到這個小眾領域的重要性,HumanEval也因此流行起來。

另一個現實層面的因素是,如果希望自己開發的評估基準獲得更多關注,你應該積極地幫助或激勵別人使用它。

Jason Wei說,他開發一個評估集之后,會主動提出幫別人在上面運行模型。如果模型表現良好,開發人員就會喜歡這個評估,并主動幫你推廣。

此外,也可以試著讓公司或實驗室內部的經理認可你的評估,這樣他們就會要求研發人員撰寫報告,闡述模型在這個評估上表現如何。

評估的「七宗罪」

好的評估是相似的,糟糕的評估各有各的缺陷。大多數不成功的評估都至少犯過以下錯誤中的一個:

1. 沒有足夠的示例

這相當于一個嘈雜的且糟糕的用戶界面。例如,在訓練過程中運行評估時,各個checkpoint之間分數波動很大,研究人員就不會喜歡使用這種評估。

最好有至少1000個示例,對于單選/多選題目組成的評估集,示例數應該更多。GPQA就是這方面的反例,盡管是一個很好的評估,但它隨著輸入的prompt不同會發生波動,因而很難使用。

2. 質量不夠高

如果評估中有很多錯誤,就得不到大家的信任。

例如,Jason曾經長期使用NQ數據集(Natural Questions)進行評估,但GPT-4的能力強大到跨過了一個閾值——即如果模型給出的答案被判定為錯,更可能的情況是評估提供的真實答案錯了,因此他不再使用NQ。

3. 指標過于復雜

過于復雜的評估會讓人難以理解,因而很少使用,這方面的反例是HELM評估集。

HELM的第一版是一項巨大的努力,但它有太多的指標和子集。擁有單一數字指標至關重要——我想不出任何優秀的評估是沒有單一數字指標的。

4. 運行太麻煩

如果運行起來太麻煩,即使其他方面都很好,也不會吸引很多人使用,比如BIG-Bench。

BIG-Bench運行起來非常痛苦,包括對數概率評估和生成評估,子集太多、示例太多,而且需要不同的基礎設施,所以運行花了很長時間。這也許就是BIG-Bench沒有獲得太多關注的原因,盡管它提供了很多信號。

5. 沒有針對一項有意義的任務

如果評估不是針對一項有意義的任務,AI研究人員就不會非常關心它。

例如,BIG-Bench Hard有諸如推薦電影或正確結束括號之類的任務。這些任務具有挑戰性,并且隨著模型大小的改變,體現出良好的的變化趨勢。

但是,在這些任務上做得好并不能對模型的智能程度做出實質性結論。成功的評估通常會衡量對模型智能至關重要的方面,例如語言理解、考試問題或數學等。

6. 評分不正確

如果有人因為模型評分不正確需要調試代碼,并且他們不同意評分,那么他們可以立即舍棄這個評估。所以,盡量減少解析模型引起的錯誤,或者盡可能給出最好的自動評分的prompt。

7. 性能飽和過快

大模型的性能飛速發展,為了使評估集能經得起時間考驗,因此不能使模型性能飽和過快。

例如,GLUE/SuperGLUE的分數飽和得太快,改進模型很難帶來巨大的收益,大家就會停止使用這種評估測試。LM在摘要、翻譯等任務上的性能也進步很快,開發評估集的速度很難追上,因此幾乎沒有人使用這類任務了。

除了傳統的評估數據集,還有一種范式正在興起——以LMSYS為代表的人類成對評估(human pairwise rating),這種機制有很強的普適性,可以用于所有類型的模型。

但這也是一把雙刃劍。優勢在于,得到的單一的數字指標可以衡量LLM在一組通用prompt上的表現,非常簡單直觀,而且樣本級別的噪聲可以在大量樣本上得到平均。

另一方面,我們不清楚人類評估者具體在為模型的哪一方面打分——與答案的正確性相比,感覺和風格在評分中有多少占比?

此外,還需要關注到的一個問題是評估集的數據污染。一個良好的評估發布之后,其中的示例往往會在互聯網上流傳開來,傳播到arxiv論文、ChatGPT示例或Reddit帖子中。

解決方法之一是建立隱藏測試集,但這會帶來很多分歧和沖突。Christopher Manning曾提出一個很好的建議——

為評估同時建立公開測試集和私有測試集,并監控哪些模型在兩個測試集上的分數有較大差異。這種方法可以平衡公開測試集的高認可度和私有測試集的高可信度。

雖然LLM的評估工作如此重要,但一個現實的困境是,投身于評估測試的工作可能比較痛苦,而且通常不會和模型開發的工作得到同等的回報。

但是無論如何,良好的評估發揮著「目標函數」的作用,會對整個領域產生有力影響,也值得我們投入持續的關注和努力。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-24 14:38:51

2024-05-27 00:45:00

2023-12-27 14:03:48

2024-01-15 05:55:33

2022-07-26 00:00:03

語言模型人工智能

2020-09-21 14:25:26

Google 開源技術

2025-05-20 11:55:22

人工智能Vision RAGLLM

2023-04-05 14:25:58

LLM谷歌OpenAI

2024-02-04 16:40:11

LLM人工智能AI

2020-11-10 10:26:16

串口打印工具

2025-04-07 08:40:00

開源Llama 4大模型

2017-11-07 12:35:53

比特幣區塊鏈虛擬貨幣

2024-06-04 12:59:41

2023-04-10 11:35:31

評估模型業務流程

2025-05-30 05:00:00

AI模型數據訓練

2024-05-28 11:32:01

2021-08-04 16:06:45

DataOps智領云

2023-12-22 19:59:15

2019-09-17 09:31:10

2025-10-11 02:25:00

點贊
收藏

51CTO技術棧公眾號

www.四虎精品| 国产精品亚洲一区二区三区妖精| 99久久久无码国产精品| 亚洲人成电影网站色| 国产精品麻豆va在线播放| jjzzjjzz欧美69巨大| 色综合久久影院| 欧美wwwwww| 一区二区在线观看视频在线观看| 国产97在线观看| 岛国精品一区二区三区| 日韩电影毛片| 99久久国产综合精品麻豆| 久久97精品久久久久久久不卡| 色悠悠久久综合网| 国产毛片av在线| 久久电影一区| 精品小视频在线| 免费观看国产精品视频| 亚洲乱码在线观看| 国产精品三级| 一本久久综合亚洲鲁鲁五月天| 鲁片一区二区三区| 在线观看精品国产| 麻豆一区二区麻豆免费观看| caoporn国产| 菠萝蜜视频在线观看www入口| 精品一区二区免费在线观看| 中文字幕亚洲综合久久筱田步美| 毛葺葺老太做受视频| 国产午夜在线视频| 风间由美性色一区二区三区| 欧美国产中文字幕| 99久久久无码国产精品性波多| 超薄肉色丝袜脚交一区二区| 国产亚洲成av人在线观看导航| 欧美制服第一页| 新91视频在线观看| 日本国产欧美| 黑人巨大精品欧美一区免费视频 | 精品国产一区二区亚洲人成毛片| 男人的天堂成人| 精品人妻一区二区三区日产乱码| 欧美三级乱码| 日韩av在线免费观看一区| 国产午夜伦鲁鲁| 高清中文字幕一区二区三区| 91视频国产资源| 国产精品日日摸夜夜添夜夜av| 欧美三日本三级少妇99| 影音先锋久久久| 亚洲欧美成人在线| 亚洲欧美日韩三级| 波多野结衣精品| 一区二区三区在线观看欧美| 18视频在线观看娇喘| 深夜福利视频网站| 青青草原综合久久大伊人精品优势| 久久精品国产69国产精品亚洲 | 成人免费黄色在线| 欧美一二三视频| 农村老熟妇乱子伦视频| 视频精品国内| 在线亚洲免费视频| 三年中国中文在线观看免费播放| 免费在线国产| 国产毛片精品国产一区二区三区| 国产日本欧美一区二区三区| 久久9999久久免费精品国产| 精品国产一级毛片| 欧美成人高清电影在线| 污污视频网站免费观看| 91这里只有精品| 成人黄色av网站在线| 国产精品午夜一区二区欲梦| 久久精品国产亚洲av高清色欲 | 日韩中文字幕一区二区高清99| 日韩一区二区影院| 美女福利视频在线| 二区三区在线观看| 日本一区二区视频在线| 国产精品av一区| 国产精品九九九九| 久久免费高清| 国模叶桐国产精品一区| 神马久久精品综合| 国产va免费精品观看精品视频| 亚洲天堂成人在线视频| 69夜色精品国产69乱| 亚洲无吗在线| 欧美大尺度在线观看| 亚洲一区 欧美| 精品一区毛片| 亚洲免费人成在线视频观看| 日本理论中文字幕| 亚洲精品推荐| 亚洲精品美女在线观看| 非洲一级黄色片| 免费欧美一区| 久久视频精品在线| www.黄色com| 精品视频免费在线观看| 久久久国产精品亚洲一区| 国产成人av在线播放| 密臀av一区二区三区| 粉嫩av国产一区二区三区| 91豆麻精品91久久久久久| 日本a视频在线观看| av在线免费播放| 色综合久久久久久久久久久| 久久精品一卡二卡| 欧美videos粗暴| 欧美日韩中字一区| 自拍偷拍21p| 免费成人毛片| 亚洲国产一区自拍| 插我舔内射18免费视频| 国产精品色呦| 亚洲精品98久久久久久中文字幕| 国产99在线 | 亚洲| 狠狠爱综合网| 91久久久久久久久久久久久| 国产美女三级无套内谢| 久热成人在线视频| 成人高h视频在线| 99久久国产免费| 99免费精品视频| 99视频精品全部免费看| 午夜伦理大片视频在线观看| 亚洲国产精品一区二区www在线 | 91嫩草国产在线观看| 国产麻豆精品一区| 欧美极品另类videosde| 欧美日韩一道本| 另类激情视频| 欧美午夜宅男影院| 天天爽人人爽夜夜爽| 黄色成人美女网站| 久久69精品久久久久久国产越南| 又污又黄的网站| 国产精品888| 国产一区二区精品在线| 免费看男男www网站入口在线| 亚洲制服丝袜在线| 亚洲中文字幕久久精品无码喷水| 国产 日韩 欧美 综合 一区| 欧美美女18p| av 一区二区三区| 91性感美女视频| 美脚丝袜脚交一区二区| 美女福利一区二区| 亚洲奶大毛多的老太婆| 麻豆成人免费视频| 久久伊人蜜桃av一区二区| 一区在线电影| 成人bbav| 欧美日韩国产欧美日美国产精品| 特种兵之深入敌后| 蜜臀久久99精品久久一区二区 | 伊人av成人| 四虎成人精品一区二区免费网站| 欧美成人a∨高清免费观看| 国产精品三区在线观看| 性欧美xxxx大乳国产app| 成人激情视频小说免费下载| 欧美日韩欧美| 狠狠色狠狠色综合日日五| 漂亮人妻被黑人久久精品| 宅男噜噜噜66国产日韩在线观看| 国产精品一区二区性色av| 成a人片在线观看www视频| 亚洲国产欧美日韩另类综合| 69xxx免费视频| av不卡免费看| 日韩电影大全在线观看| 2021中文字幕在线| 欧美一区二视频| 亚洲天堂最新地址| 久久66热偷产精品| 久久久久99精品成人片| 同性恋视频一区| 欧美精品亚州精品| 秋霞av鲁丝片一区二区| 亚洲欧美日韩国产手机在线| 国产无套粉嫩白浆内谢的出处| 久久综合成人| 国产成人精品一区二区在线| 五月婷婷在线观看| 精品精品国产高清a毛片牛牛 | 丝袜美腿一区二区三区| 艳色歌舞团一区二区三区| 污污的网站免费| a视频在线免费看| 亚洲精品国产综合区久久久久久久 | 中文字幕免费不卡| 浮妇高潮喷白浆视频| 国产一区二区三区91| 国产精品久久久久久久久久尿| 日本黄色不卡视频| 欧美天堂亚洲电影院在线播放| 欧美日韩在线视频免费| 免费成人在线网站| 日韩欧美亚洲日产国| 国产亚洲亚洲国产一二区| 欧美一区二区.| 97caopor国产在线视频| 欧美高清www午色夜在线视频| 摸摸摸bbb毛毛毛片| 狠狠色狠狠色综合系列| 一本久道久久综合狠狠爱亚洲精品| 亚洲啊v在线免费视频| 国产成人精品免费久久久久| 羞羞的视频在线观看| 夜夜嗨av色一区二区不卡| 成人免费毛片视频| 久久久精品人体av艺术| 日韩一级片播放| 欧美体内she精视频在线观看| 午夜精品亚洲一区二区三区嫩草| www.26天天久久天堂| 日韩在线观看你懂的| 国产精品国产精品国产专区| 色婷婷综合激情| 日本五十路女优| 91在线视频免费观看| 亚洲黄色片免费| 国产精品v日韩精品v欧美精品网站 | 亚洲 国产 欧美 日韩| 亚洲成人一二三| 在线免费观看亚洲视频| 国产精品女人毛片| 在线成人免费av| 激情综合自拍| 一区二区三区四区免费观看| 日韩国产一区| 91中文字精品一区二区| 亚洲图片小说区| 欧美激情一区二区三区高清视频 | 亚洲永久一区二区三区在线| 九九免费精品视频在线观看| 精品久久久久久乱码天堂| 成人欧美大片| 91精品国产网站| 在线免费看av| 中文字幕无线精品亚洲乱码一区 | 一级日本不卡的影视| 国产高潮流白浆| 亚洲美女免费视频| 欧美国产日韩综合| 亚洲最大成人综合| 国产亚洲精品成人| 国产免费成人在线视频| 国产肥白大熟妇bbbb视频| 337p粉嫩大胆噜噜噜噜噜91av| 中文视频在线观看| caoporn国产精品| 精品无码国产一区二区三区51安| 久久午夜精品一区二区| 美女福利视频在线| 免费精品视频最新在线| 免费一区二区三区在线观看| 久久99精品久久只有精品| 五月花丁香婷婷| 国产成人av一区二区三区在线 | 国产精品嫩草影院com| 亚洲熟女少妇一区二区| 亚洲日本在线看| 李宗瑞91在线正在播放| 久久久九九九九| 战狼4完整免费观看在线播放版| 国产精品入口麻豆九色| 国产美女福利视频| 久久―日本道色综合久久| 久久久久亚洲av成人无码电影| 欧美激情在线免费观看| 小泽玛利亚一区| 亚洲一区二区三区四区五区黄| 激情高潮到大叫狂喷水| 亚洲精品国产a久久久久久 | 在线一区二区视频| 99久久国产热无码精品免费| 亚洲国产精品电影在线观看| 国产精品伦理一区| 精品国产乱子伦一区| 蜜桃视频在线观看视频| 久久精品夜夜夜夜夜久久| 国产www视频在线观看| 日本伊人精品一区二区三区介绍 | 欧美日韩国产首页| 日韩永久免费视频| 国产亚洲综合久久| 欧美中文在线| 亚洲精品久久久久久久久久久久| 黄视频在线观看免费| 日韩av中文字幕在线免费观看| 国内在线精品| 久久69精品久久久久久久电影好 | 色呦呦在线看| 国产精品福利片| 风间由美中文字幕在线看视频国产欧美| 麻豆成人av| 欧美日韩亚洲国产精品| www日韩在线观看| 成人看片黄a免费看在线| 欧美a在线播放| 精品久久久久久国产91| 99视频在线看| 91精品国产综合久久久久久久| 一区二区三区麻豆| 欧美在线看片a免费观看| 99在线精品视频免费观看软件| 亚洲天堂av女优| 成年人在线网站| 91精品国产一区二区三区动漫 | 在线播放国产一区中文字幕剧情欧美| 亚洲按摩av| 国产啪精品视频| 国产精品一区2区3区| 日韩精品在线观看av| 麻豆一区二区99久久久久| 亚洲av片不卡无码久久| 久久免费美女视频| 国产一级二级毛片| 91麻豆精品国产91久久久更新时间 | 丰满白嫩尤物一区二区| 亚洲欧美日韩第一页| 欧美午夜美女看片| 波多野结衣视频在线观看| 欧美三区免费完整视频在线观看| 天天干在线观看| 欧美激情免费观看| 经典三级久久| 久久国产主播精品| 成人精品影院| 国产香蕉一区二区三区| 男人操女人的视频在线观看欧美| 黄瓜视频污在线观看| 欧美国产综合一区二区| 在线免费黄色av| 欧美色精品在线视频| 裸体xxxx视频在线| 8x海外华人永久免费日韩内陆视频| 亚洲网一区二区三区| 你懂的网址一区二区三区| 亚洲精品免费观看| 色免费在线视频| 中文av字幕一区| 中文字幕在线观看1| 日韩精品一区在线观看| 男女视频在线观看| 热re99久久精品国产66热 | 亚洲欧洲一区二区在线观看| 亚洲国产精品久久久天堂 | 精品日韩av一区二区| 欧美24videosex性欧美| 国产成人福利网站| 精品国产91乱码一区二区三区四区| 99999精品视频| 久久久久久免费毛片精品| 天堂网一区二区| 综合欧美国产视频二区| 日韩综合久久| 亚洲激情免费视频| 成人国产免费视频| 国产精品视频免费播放| 亚洲欧洲xxxx| 免费成人毛片| 中文字幕人妻熟女人妻洋洋| 男女视频一区二区| 国产麻豆视频在线观看| 日韩一卡二卡三卡四卡| 精品捆绑调教一区二区三区| 欧美精品国产精品久久久| 欧美午夜不卡| 一起草在线视频| 在线观看三级视频欧美| 老司机午夜在线| 国产精品爽爽爽爽爽爽在线观看| 色综合久久网| 少妇熟女视频一区二区三区| 国产精品伦一区二区三级视频| 在线观看亚洲国产| 欧美日韩aaaa| 真实原创一区二区影院| www.com黄色片| 亚洲成人www| 国产高清在线| 97人人模人人爽视频一区二区| 国产精品主播| 亚洲熟女一区二区| 在线国产电影不卡| 国产二区三区在线| 久久综合九九| 国产伦精品一区二区三区视频青涩| 日本天堂网在线观看| 日韩在线播放视频| 欧美美女被草| 国产av麻豆mag剧集| 国产精品视频在线看| 欧美天堂在线视频|