精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

媲美OpenAI事實性基準,這個中文評測集讓o1-preview剛剛及格

人工智能 新聞
評測集涵蓋 99 個主題和領域,能夠全面檢測模型在各個領域的知識水平,可以幫助各個領域的研究者識別最適合其特定需求的模型。

核心作者包括賀彥程,李世龍,劉佳恒,蘇文博。作者團隊來自淘天集團算法技術 - 未來生活實驗室團隊。為了建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果,淘天集團集中算力、數據和頂尖的技術人才,成立未來生活實驗室。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AI Native 應用,引領 AI 在生活消費領域的技術創新。

如何解決模型生成幻覺一直是人工智能(AI)領域的一個懸而未解的問題。為了測量語言模型的事實正確性,近期 OpenAI 發布并開源了一個名為 SimpleQA 的評測集。而我們也同樣一直在關注模型事實正確性這一領域,目前該領域存在數據過時、評測不準和覆蓋不全等問題。例如現在大家廣泛使用的知識評測集還是 CommonSenseQA、CMMLU 和 C-Eval 等選擇題形式的評測集。

為了進一步同步推進中文社區對模型事實正確性的研究,淘天集團算法技術 - 未來生活實驗室團隊提出了 Chinese SimpleQA,這是第一個系統性地全面評估模型回答簡短事實性問題能力的中文評測集,可以全面探測模型在各個領域的知識水平。具體來說,Chinese SimpleQA 主要有六個特點:

  1. 中文:專注于中文語言,并特地包含中國文化等特色知識相關的問題
  2. 全面性:涵蓋 6 個大類主題(中華文化、人文與社會科學、自然科學、生活藝術與文化、工程技術與應用科學、社會)和 99 個子類主題
  3. 高質量:我們進行了全面且嚴格的質量控制,有包括 52 位外包和 6 位算法工程師的參與
  4. 靜態:參考答案都是在時間上保持不變的,保證了評測集的長期有效性,可以長期作為模型知識能力的評估基準
  5. 易于評估:評測數據的問題和答案非常簡短,評測可以基于任意的模型,能夠以較低成本和較快速度進行高一致性的評測。
  6. 有難度和區分度:我們評估了 40 + 國內外開源和閉源大模型。目前在評測集上 o1-preview 都僅剛過及格線 (正確率 63.8), 其他大部分模型都處于低分狀態,其中 GPT-4o mini 僅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 僅 11.2 和 11.1 的準確率。

基于中文 SimpleQA,我們對現有 LLM 的事實性能力進行了全面的評估。并維護一個全面的 leaderboard 榜單。同時我們也在評測集上實驗分析了推理 scaling law、模型校準、RAG、對齊稅等研究問題,后續本評測集都可以作為這些方向的重要參考之一。

總之,我們希望 Chinese SimpleQA 能幫助開發者深入了解其模型在中文領域的事實正確性,同時也能為他們的算法研究提供重要基石,共同促進中文基礎模型的成長。

圖片

圖片


  • 論文鏈接:https://arxiv.org/abs/2411.07140
  • 項目主頁:https://openstellarteam.github.io/ChineseSimpleQA
  • 數據集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
  • 代碼倉庫:https://github.com/OpenStellarTeam/ChineseSimpleQA

一、數據集構建

圖片

在構建 Chinese SimpleQA 數據集的過程中,我們采用了嚴格且周密的流程,確保數據質量達到高標準。主要分為自動化構建和質量控制兩個階段:

1. 自動化構建階段,主要包括五個步驟:

(1)知識內容提取與過濾:我們從維基百科等多種知識領域中收集大量富含知識的文本內容,并利用規則和質量評估模型篩除低質量數據。

(2)自動生成問答對:制定問題標準,基于高質量的知識內容,利用大型語言模型(LLM)基于標準條例自動生成問題與答案對。其中大概制定了 9 條嚴格的細則,包括:答案必須唯一且確定、答案不應隨時間變化等。

(3)自動質量驗證:通過 LLM 根據預先設定的標準對生成的問答對進行初步篩選,剔除不符合要求的樣本。

(4)結合工具驗證:引入 RAG 和 Agent 的方式,結合外部檢索工具收集驗證信息,指導 LLM 進一步準確評估答案的事實正確性。

(5)難度級別過濾:過濾掉過于簡單的樣本,提升數據集的難度,以發現 LLM 的普遍存在的知識邊界。具體來說,如果一個問題四個模型都能正確回答,則認為該問題過于簡單并予以舍棄。

2. 質量控制階段,我們引入了嚴格的人工驗證流程:

(1)每條數據在隱藏答案后交由兩位獨立的標注員進行標注,首先判斷問題是否符合預定標準。不符合的問題將被淘汰。然后要求每位標注員結合權威來源(如維基百科、百度百科)的相關信息填寫答案,同時需要提供至少兩個參考鏈接,確保答案可溯源。

(2)若兩位標注員的答案不一致,由第三位標注員進行復審,最終確定答案。

(3)安排多名算法工程師進行多輪抽檢與反饋,同時不斷細化標準

整個構建和標注過程中,初步生成了 10,000 對問答對,經過難度評估和多輪驗證,最終只保留了約 3,000 對高質量的問答對,確保了數據集的高質量和嚴謹性,希望為評估 LLM 的事實正確性提供正確的引導。

二、評測指標

評測方式和指標直接遵循 OpenAI 的方式,主要有以下四個指標:

圖片

三、評測榜單

我們評估了 17 個閉源模型和 24 個開源模型,排名榜如下:

圖片

不同模型在 Chinese SimpleQA 上的結果。關于指標,Correct(CO)、Not attempted(NA)、Incorrect(IN) 和 Correct given attempted(CGA) 分別表示 “回答正確率”、“未回答率”、“回答錯誤率” 和 “回答精確率”。關于主題,Chinese Culture(CC)、Humanities(HU)、Engineering, Technology、Applied Sciences(ETAS)、Life, Art, and Culture(LAC)、Society(SO) 和 Natural Science(NS) 分別表示 “中華文化”、“人文與社會科學”、“工程、技術與應用科學”、“生活、藝術與文化”、“社會” 以及 “自然科學”。

總的來看,o1-preview 表現最佳,同時有幾個近期專注于中文的閉源大模型(如 Doubao-pro-32k 和 GLM-4-Plus)的表現與 o1-preview 相近。從榜單表現來看,首先,“mini” 系列模型(如 o1-mini, GPT-4o-mini)的表現明顯不如其對應的大模型(如 o1-preview, GPT-4o),這表明 “mini” 系列在記憶事實知識方面有明顯的下降。其次通常越大的模型表現更好,例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未嘗試(NA)” 項上得分較高,比如 o1-mini 和 InternLM2.5-1.8B,其 NA 分數分別為 20.5 和 31.2,遠高于對應大模型的得分(如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7)。另外,各模型在不同主題上的表現差異顯著,特別是中文社區的大模型(如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek)在 “中國文化(CC)” 主題上明顯優于 GPT 或 o1 模型,而在科學相關主題(如 ETAS 和 NS)上,o1 則具有顯著優勢。

四、實驗發現

我們還在 Chinese SimpleQA 上探索了 inference scaling law、模型校準、RAG、對齊稅等熱門研究課題(具體詳見論文)。得出了以下幾個有見地的發現:

1. 更大規模的模型有更好的校準性能

我們要求模型在回答問題時提供 0 到 100 的信心指數,以衡量模型的校準程度,即模型對其答案的自信程度。理想的校準模型應該是信心指數與答案的實際準確率相匹配。實驗結果顯示,GPT-4o 的校準優于 GPT-4o-mini,而 o1-preview 優于 o1-mini。在 Qwen2.5 系列中,校準效果依次為 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B,說明更大規模的模型具有更好的校準性能。此外,對于所有評估的模型,當信心指數大于 50 時,它們的信心水平都低于了完美校準線,表明它們普遍對自身回答的準確性過于自信。

圖片

2.O1 提出的推理 scaling law 在事實類 QA 上也成立

我們研究了不同模型在增加推理計算資源和回答準確性之間的關系。具體方式是從 Chinese SimpleQA 中隨機抽取 50 個樣本,每個樣本要求模型獨立回答 100 次。通過 Best-of-N 方法隨著推理次數的增加來計算模型的回答準確性。結果表明,隨著推理次數的增加,所有模型的響應準確性都提高,并最終達到上限。這一現象與 OpenAI o1 發布時提出的結論表現一致。

圖片

3.RAG 仍是快速提升模型能力的捷徑

我們同時在 Chinese SimpleQA 上探討了檢索增強生成(RAG)策略在提升 LLMs 事實正確性方面的效果。我們基于 LlamaIndex 和谷歌搜索 API 搭建了 RAG 系統。結果表明,所有模型在配置 RAG 后準確性都顯著提高,例如,Qwen2.5-3B 的性能提升了三倍多。同時,在配置 RAG 后各模型之間的性能差異也顯著減少,例如,帶有 RAG 的 Qwen2.5-3B 與 Qwen2.5-72B 的 F-score 相差僅 6.9%。這表明 RAG 可顯著縮小模型性能差距,使得較小模型在 RAG 支持下也能獲得高性能。因此,RAG 仍是增強 LLMs 事實性的一條強有效的捷徑。

圖片

4. 大部分模型都有明顯的 “對齊稅” 問題

我們對比分析了預訓練模型與對齊后的模型在評測集上的表現。結果顯示,盡管不同模型在后期訓練后表現各異,但大多數模型的表現都顯著下降。其中,Baichuan2 系列模型下降最為明顯,Baichuan2-7B 和 Baichuan2-13B 的 F-score 分別下降了 47% 和 28%。這反映出當前大多數大語言模型的對齊訓練在幻覺緩解方面仍有明顯不足,也突顯了評測集的價值。

圖片

圖片

評測集涵蓋 99 個主題和領域,能夠全面檢測模型在各個領域的知識水平,可以幫助各個領域的研究者識別最適合其特定需求的模型。目前 o1-preview 模型表現最為全面,但是評測結果展示了許多其他模型在特定垂直領域的強有力的表現(具體詳見論文和榜單)。

最后,歡迎廣大研究者使用我們的評測集進行實驗和研究。淘天集團算法技術 - 未來生活實驗室團隊將持續更新和維護數據集及評測榜單,為中文社區的發展貢獻力量。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-23 16:00:00

AI模型測評

2024-12-27 09:00:00

訓練模型數據

2025-01-02 09:53:17

2024-11-15 09:36:07

2024-11-21 12:43:06

2024-12-20 14:30:00

2025-01-23 10:45:52

2025-02-11 16:17:42

2024-06-21 13:04:43

2025-01-13 10:30:59

2025-03-20 09:46:06

OpenAI模型AI

2024-11-07 15:40:00

2024-09-13 06:32:25

2025-03-20 10:20:16

2025-04-18 09:13:00

2025-02-19 15:40:00

OpenAI編程模型

2025-05-14 10:09:12

2025-02-06 14:28:16

2025-02-13 08:30:00

2025-02-19 13:50:00

明星編程軟件
點贊
收藏

51CTO技術棧公眾號

少妇一级淫片免费看| 免费网站在线高清观看| 久久香蕉av| 99国产精品一区| 国产91在线播放九色快色| jizz日本在线播放| 日本免费一区二区视频| 富二代精品短视频| 中文字幕在线观看一区二区三区| 精品人妻一区二区三区浪潮在线| 国产精品人人爽人人做我的可爱| 一区二区三区日韩在线| 99999精品| 一二三四视频在线中文| 亚洲日本在线视频观看| 国产一区二区三区四区hd| 中文字幕在线一| 亚洲人体偷拍| 久久韩剧网电视剧| 波多野结衣 在线| crdy在线观看欧美| 欧美日韩在线第一页| 91看片淫黄大片91| 国产精品免费观看| 成人午夜免费av| 91精品国产自产在线老师啪| 欧美特黄aaaaaa| 欧美成人首页| 神马久久桃色视频| 精品人伦一区二区三电影| 亚洲日本va中文字幕| 欧美日韩一区国产| 久久久久久久久久久福利| av网站网址在线观看| 亚洲国产精品传媒在线观看| 激情视频在线观看一区二区三区| 国产精品伦一区二区三区| 亚洲女同同性videoxma| 久久久久久噜噜噜久久久精品| 貂蝉被到爽流白浆在线观看| 亚洲动漫精品| 亚洲精品国产电影| 涩视频在线观看| vam成人资源在线观看| 欧美日韩不卡视频| 久久婷婷国产91天堂综合精品| 麻豆成全视频免费观看在线看| 一区二区三区日韩欧美| 91嫩草国产丨精品入口麻豆| 免费网站黄在线观看| 国产欧美视频一区二区三区| 蜜桃av噜噜一区二区三区| 少妇一级淫片免费看| 成人aaaa免费全部观看| 国产福利久久精品| 成人福利小视频| 国产精品亚洲综合一区在线观看| 成人欧美一区二区三区黑人| 一级黄色片在线看| 国模一区二区三区白浆| 91热精品视频| 国产日产亚洲系列最新| 国产精品一区二区在线播放 | 无人区在线高清完整免费版 一区二 | 欧美日韩精品高清| 性欧美videossex精品| 岛国精品在线| 欧美群妇大交群的观看方式| 中文字幕中文在线| 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | 国产成人精品免费网站| 98国产高清一区| 人妻91麻豆一区二区三区| 99久久er热在这里只有精品15 | 女人18毛片水真多18精品| 高清不卡一区二区在线| 激情视频一区二区| 久久天堂电影| 国产精品久久久久久久第一福利| 五月天男人天堂| 青青草原av在线| 精品高清一区二区三区| 亚洲男人天堂色| www 久久久| 亚洲第一级黄色片| 中文字幕高清视频| 国产精品黑丝在线播放 | 欧洲久久久久久| 中文字幕在线播放| 亚洲综合久久久| 成人三级视频在线播放| 91精品在线免费视频| 精品国产免费视频| 一级黄色性视频| 欧美福利影院| 日韩免费在线播放| 国产精品视频一二区| 成人短视频下载| 夜夜爽99久久国产综合精品女不卡 | 亚洲人成77777| 欧美韩日亚洲| 色哦色哦哦色天天综合| 一个人看的视频www| 日韩有码av| 精品久久久999| 国产九色在线播放九色| 国产综合久久久久影院| 久久久精品动漫| 免费在线你懂的| 欧美性xxxx18| 久久久久久久久久久影视| 久久99国产成人小视频| 欧美日本精品在线| 中国a一片一级一片| 成人黄色国产精品网站大全在线免费观看| 欧美一区二区在线| 日韩三级电影视频| 欧美日韩在线播放三区| 亚洲av成人片色在线观看高潮| 欧美第十八页| 日本精品在线视频 | 亚洲欧美日韩精品久久亚洲区 | 国产精品狠色婷| www香蕉视频| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 欧美理论在线播放| 久久久久久久久久婷婷| 97超碰国产在线| 国产日韩欧美精品综合| 18禁裸男晨勃露j毛免费观看| 久久影视精品| 国产亚洲xxx| 国产精品老女人| 久久一区激情| 成人91免费视频| 国产美女福利在线| 欧美三级在线播放| 精品人妻无码一区| 亚洲专区免费| 精品欧美国产一区二区三区不卡| 在线观看男女av免费网址| 欧美高清视频一二三区| 亚洲一级黄色录像| 老司机午夜精品视频| 精品国产免费一区二区三区| 草美女在线观看| 精品国产一二三| 久草视频在线资源| 国产福利91精品一区二区三区| 一本一道久久久a久久久精品91 | 欧美双性人妖o0| 午夜日韩视频| 国产v亚洲v天堂无码| 图片区小说区亚洲| 日韩欧美中文字幕一区| 亚洲国产精品久| 国产成人在线色| 天堂8在线天堂资源bt| 99ri日韩精品视频| 午夜精品久久久久久99热软件| 好男人在线视频www| 亚洲二区视频在线| 91av在线免费| 久久久精品五月天| 视频一区在线免费观看| 日本h片久久| 久久久久www| 国产综合在线播放| 亚洲第一精品在线| 在线免费观看黄色小视频| 丝袜美腿亚洲色图| 亚洲蜜桃在线| 视频一区视频二区欧美| 久久久在线观看| 手机福利在线| 欧美日韩精品一区二区天天拍小说 | 久色乳综合思思在线视频| 国产深喉视频一区二区| 亚洲国产精品一区二区www| 黄色网址在线视频| 久久永久免费| 青少年xxxxx性开放hg| 欧美视频二区欧美影视| 97国产精品视频人人做人人爱| 男男激情在线| 欧美一区二区二区| 日韩精品一区二区av| 国产亚洲欧美色| √天堂资源在线| 亚洲日本免费| 亚洲欧洲国产精品久久| 97久久超碰| 国产精品99蜜臀久久不卡二区| 看黄网站在线| 亚洲精品久久久一区二区三区| 日韩精品在线一区二区三区| 亚洲黄色av一区| www.黄色在线| 国产成人自拍网| 国产免费人做人爱午夜视频| 亚洲精品99| 青青草原亚洲| 99久久婷婷国产综合精品青牛牛 | 亚洲欧美在线综合| 久久久亚洲国产天美传媒修理工| 在线视频1区2区| 日韩精品视频在线观看免费| 91av久久久| 高潮白浆女日韩av免费看| 成人免费黄色小视频| 99精品欧美一区二区蜜桃免费| 91极品视频在线观看| 精品1区2区3区4区| 热这里只有精品| 九热爱视频精品视频| 99三级在线| 欧美成人黄色| 日韩免费av在线| 2020国产在线| 麻豆一区二区在线观看| 邻居大乳一区二区三区| 亚洲成人网在线| 精品国产区一区二| 欧美日韩一区二区在线观看| 国产69精品久久久久久久久久| 亚洲欧美国产高清| 先锋影音av在线| 久久综合狠狠综合| 中文字幕一区二区三区乱码不卡| 国产综合色视频| 国产成年人视频网站| 日日欢夜夜爽一区| av免费播放网址| 亚洲美女视频在线免费观看| 一本色道久久88亚洲精品综合| 手机亚洲手机国产手机日韩| 欧美日韩免费精品| 欧美精品中文| 精品国产乱码久久久久久久软件| 999精品视频在这里| 91九色露脸| 国产精品中文| 91最新在线免费观看| 青青在线精品| 国产在线日韩在线| 欧美视频精品| 国产日韩在线一区| 成人动漫视频在线观看| 91精品久久久久久久久不口人| 成人国产网站| 国产日韩精品综合网站| 亚洲四虎影院| 国产精品入口日韩视频大尺度| 91看片一区| 国产精品免费视频xxxx| 成人日韩av| 国产欧美一区二区白浆黑人| 日本亚洲欧洲无免费码在线| 国产精品视频在线观看| 91九色成人| 成人在线视频电影| 欧美a一欧美| 欧美中日韩免费视频| 成人看的羞羞网站| 宅男一区二区三区| 午夜激情一区| 9久久9毛片又大又硬又粗| 久久国产88| 亚洲男人天堂色| 国产一区二区伦理| 国产chinese中国hdxxxx| 久久婷婷国产综合精品青草| www..com.cn蕾丝视频在线观看免费版| 国产女同互慰高潮91漫画| 亚洲欧美另类日本| 亚洲精品高清视频在线观看| 久久久久久免费观看| 欧美天天综合色影久久精品| 懂色av中文字幕| 制服丝袜亚洲播放| 午夜精品久久久久久久99热黄桃| 日韩精品www| 一级毛片视频在线| 欧美日本高清视频| 性感美女一区二区在线观看| 国产免费成人av| **爰片久久毛片| 日本一区二区三区精品视频| 亚洲v在线看| 欧美亚洲国产成人| 久久99久久99精品免视看婷婷| 国产精品91av| 国产三级久久久| 欧美日韩一级在线观看| 一本色道久久综合亚洲aⅴ蜜桃| 一本色道久久综合无码人妻| 亚洲国产精品电影| 欧美日本高清| 91国偷自产一区二区三区的观看方式 | 中文字幕中文乱码欧美一区二区 | 欧美一区二区三区另类| 成人在线免费在线观看| 精品在线亚洲视频| 添女人荫蒂视频| 亚洲色图一区二区三区| 国产在线观看黄色| 日韩一区二区不卡| 国产色a在线| 久久久久久久久久久免费| 国产第一亚洲| 免费在线国产精品| 欧美日本一区二区高清播放视频| 欧美黄色一级片视频| 岛国av在线一区| 麻豆天美蜜桃91| 欧美在线免费播放| 刘亦菲毛片一区二区三区| 日韩在线欧美在线| av有声小说一区二区三区| 国产精品区二区三区日本| 国产欧美高清视频在线| 丰满的少妇愉情hd高清果冻传媒 | 成人av资源在线播放| 色天天色综合| 欧美 日韩 亚洲 一区| 国产一区不卡视频| 中国美女黄色一级片| 一本大道av伊人久久综合| 色综合视频在线| 久久亚洲电影天堂| 日本免费成人| 一区二区不卡在线观看| 日韩激情在线观看| 99久久久久久久久久| 午夜电影久久久| 欧美视频在线观看一区二区三区| 欧美xxxx做受欧美.88| 日韩电影免费观看高清完整版在线观看| 欧美激情论坛| 久久五月激情| 91网站免费视频| 色悠悠久久综合| 黄色在线小视频| 日韩av电影手机在线| 亚洲丝袜啪啪| 国产成人无码av在线播放dvd| wwwwxxxxx欧美| 国产日产精品一区二区三区| 精品小视频在线| 欧美日韩电影免费看| 日本午夜精品电影| 青青草97国产精品免费观看 | 亚洲日本电影在线| 一级黄色免费看| 精品国产伦一区二区三区免费| 国产成人三级一区二区在线观看一| 在线日韩中文字幕| 91p九色成人| 亚洲精品在线免费| 久久99久久99小草精品免视看| 亚洲人与黑人屁股眼交| 欧美日韩久久不卡| 国产精品va在线观看视色| 成人激情电影一区二区| 婷婷综合在线| 国产精品一区二区在线免费观看| 亚洲大片在线观看| 深夜福利在线观看直播| 国产成人精品一区二区在线| 青草国产精品| 在线一区二区不卡| 亚洲国产精品久久人人爱蜜臀| 日本不卡免费播放| 国产精品丝袜视频| 亚洲欧洲日韩| 亚洲午夜久久久久久久久| 欧美日韩中文字幕综合视频| yw在线观看| 99电影在线观看| 久久久久99| 成人免费黄色小视频| 亚洲国产小视频| 黑人一区二区三区| 老司机激情视频| 91在线视频官网| 日批视频免费观看| 久久99精品久久久久久噜噜| 欧美日韩直播| 中文字幕22页| 偷拍一区二区三区| 日本电影在线观看网站| 国产综合精品一区二区三区| 日本不卡一区二区三区高清视频| 日韩a级片在线观看| 亚洲精品国产精品自产a区红杏吧| 日韩欧美精品电影| av在线com| 国产精品美女一区二区| 丰满人妻一区二区三区无码av| 欧美一性一乱一交一视频|