精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

面對無解問題大模型竟會(huì)崩潰?港中文&華為聯(lián)合提出首個(gè)大模型推理可靠性評估基準(zhǔn)

人工智能 新聞
本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn),希望借此拋磚引玉,引出更多對新生代推理模型可靠性的關(guān)注和優(yōu)秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務(wù)于人類~?

本文作者是香港中文大學(xué)博士三年級薛博陽,導(dǎo)師為黃錦輝教授,目前在倫敦大學(xué)學(xué)院進(jìn)行訪問交流,他的研究方向包括可信大模型,模型不確定性,對話系統(tǒng)等,在 ACL, EMNLP, TASLP 等會(huì)議期刊作為第一作者發(fā)表多篇論文,并長期在知乎寫作大模型、機(jī)器學(xué)習(xí)等專欄文章,個(gè)人主頁為:https://amourwaltz.github.io

研究問題

面對無解問題最強(qiáng)模型也會(huì)束手無策?

今年初以 DeepSeek-r1 為代表的大模型在推理任務(wù)上展現(xiàn)強(qiáng)大的性能,引起廣泛的熱度。然而在面對一些無法回答或本身無解的問題時(shí),這些模型竟試圖去虛構(gòu)不存在的信息去推理解答,生成了大量的事實(shí)錯(cuò)誤、無意義思考過程和虛構(gòu)答案,也被稱為模型「幻覺」 問題,如下圖(a)所示,造成嚴(yán)重資源浪費(fèi)且會(huì)誤導(dǎo)用戶,嚴(yán)重?fù)p害了模型的可靠性(Reliability)。

圖片

對于復(fù)雜的推理任務(wù),一個(gè)可靠的模型應(yīng)當(dāng)在思考分析后,對可解問題給出正確答案,對不可解問題則指出無解;如果問題超出模型能力范圍無法判斷可解性,一個(gè)次優(yōu)的選擇就是拒答以避免誤導(dǎo)用戶,如上圖(b)和(c)所示,這樣回復(fù)才是可靠的,同時(shí)也能抑制幻覺發(fā)生。

近期由港中文和華為諾亞實(shí)驗(yàn)室聯(lián)合提出的 ReliableMath 基準(zhǔn),旨在探究大模型推理任務(wù)的可靠性。該工作文章和數(shù)據(jù)集均已開源,并持續(xù)在 leaderboard 上更新最新模型結(jié)果,目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性測試結(jié)果,歡迎大家關(guān)注補(bǔ)充~

圖片

  • 論文題目:ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
  • 論文作者:Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
  • 論文地址:https://arxiv.org/pdf/2507.03133
  • GitHub 地址:https://github.com/AmourWaltz/ReliableMath
  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/BeyondHsueh/ReliableMath
  • Leaderboard 地址:https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性評估準(zhǔn)則

知之為知之,不知為不知,是知也

此前大模型可靠性的研究集中在知識(shí)任務(wù)上,探究是否知道某個(gè)知識(shí),缺乏對更難的推理任務(wù)的探索。由于推理問題本身可能無解,并且問題可解性以及模型能否回答都需要經(jīng)過推理才能得出,增加了研究挑戰(zhàn)。

根據(jù)前文對推理任務(wù)可靠性的定義,本工作提出一套推理任務(wù)可靠性的評估準(zhǔn)則,如下圖所示,將問題分為可解(A)和不可解(U),將模型回復(fù)分為成功(S),拒答(R)和失敗(F)。成功表示對可解問題匹配到正確答案或?qū)Σ豢山鈫栴}指出其無解,這是最好的情況;次優(yōu)是拒答,即對可解和不可解問題都回復(fù)我不知道;其余回復(fù)均認(rèn)為是失敗。

圖片

分別使用精度(Prec.)和謹(jǐn)慎度(Prud.)來表示成功率和拒答率,評估可靠性時(shí)優(yōu)先看精度,其次看謹(jǐn)慎度。

圖片

ReliableMath 數(shù)據(jù)集

首個(gè)高質(zhì)量數(shù)學(xué)無解問題集

由于缺乏無解的數(shù)學(xué)問題,本文提出一個(gè)評估數(shù)學(xué)推理可靠性的數(shù)據(jù)集 ReliableMath,包含可解和不可解的問題??山鈫栴}從當(dāng)前開源數(shù)學(xué)問題集中收集,不可解問題通過對可解問題進(jìn)行改寫構(gòu)造獲得,改寫方式有兩種:刪除必要數(shù)學(xué)條件或增加與已知條件矛盾的條件,如下圖所示。

圖片

為了得到高質(zhì)量的無解問題,本文提出一套完整的無解解問題構(gòu)造流程,如下圖所示,包含三步:1)通過對現(xiàn)有可解問題進(jìn)行改寫使其不可解;2)對改寫問題使用模型驗(yàn)證,并過濾掉不合格的問題;3)對過濾數(shù)據(jù)再次進(jìn)行人工驗(yàn)證評估問題是否無解,保留確實(shí)無解的問題,這樣就得到了高質(zhì)量的無解問題構(gòu)成 ReliableMath 數(shù)據(jù)集。

圖片

ReliableMath 包含不同難度的數(shù)學(xué)任務(wù),包括奧賽級的 AIME、AMC、Minerva、及高中級的 MATH。人工標(biāo)注時(shí),對判斷問題無解的難度也進(jìn)行了標(biāo)注,對那些很容易判斷出無解的,比如幾何題缺失圖片信息等,難度標(biāo)為 0,而對于需要經(jīng)過思考才能判斷無解的,難度標(biāo)為 1,數(shù)據(jù)統(tǒng)計(jì)可參考原文。

實(shí)驗(yàn)分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了實(shí)驗(yàn),并指出以下幾條關(guān)鍵發(fā)現(xiàn):

圖片

  1. 對模型直接輸入無解問題時(shí)(standard prompt),模型幾乎不具備拒答或指出不可解的能力,可靠性極差;我們發(fā)現(xiàn)模型能注意到無解問題本身存在問題,但不敢承認(rèn)其無解或拒答,反而是會(huì)不斷地回溯、反思導(dǎo)致生成大量無意義的思考過程,直到截?cái)嗷蛱摌?gòu)一個(gè)答案,造成嚴(yán)重浪費(fèi)和幻覺,損害了可靠性;
  2. 當(dāng)在提示詞中加入允許模型拒答或指出問題無解的指令后(reliable prompt),我們發(fā)現(xiàn)在可解問題上的可靠性變化不大,但大部分模型在不可解問題上可靠性有明顯提升,盡管仍低于可解問題的可靠性,并且生成序列長度也有明顯下降,說明使用 reliable prompt 可以在不損害可解問題性能的前提下,提高不可解問題的可靠性,并減少過度思考。
  3. 對較大的模型,使用 reliable prompt 后慢思考模型的可靠性普遍高于對應(yīng)快思考模型,如 Deepseek-r1 vs. Deepseek-v3;而對于小模型,使用 reliable prompt 后慢思考模型在不可解問題上的可靠性仍然很差,并沒有高于對應(yīng)的快思考模型,如 Distill-7b vs. Qwen-7b,意味著小模型可靠性有進(jìn)一步提升空間。
  4. 較簡單的數(shù)學(xué)測試集的可靠性要高于較難的測試集的可靠性。

此外,本文也對 ReliableMath 數(shù)據(jù)集做了分析,下圖(a)分別測試了使用移除必要條件和增加矛盾條件兩種改寫方式構(gòu)造的問題的可靠性,結(jié)果表明移除條件構(gòu)造的不可解問題可靠性偏低,這是因?yàn)槟P蛢A向于假設(shè)缺失條件虛構(gòu)答案。圖(b)分別展示了不同難度的無解問題的可靠性,發(fā)現(xiàn)難度為 1 的不可解問題可靠性偏低,即這些問題需要模型經(jīng)過推理才能發(fā)現(xiàn)問題無解,這種情況更難也符合預(yù)期,說明大模型與人類在識(shí)別問題無解難度的相關(guān)性是一致的,盡管人工評估難度存在主觀性。

圖片

可靠性對齊

如何提高大模型可靠性?

本文最后提出一個(gè)提高可靠性的對齊策略,在開源訓(xùn)練集上構(gòu)造一批無解問題。在較強(qiáng)的模型上蒸餾獲得成功回復(fù),然后在小模型上自采樣獲得拒答回復(fù),最后使用監(jiān)督學(xué)習(xí)訓(xùn)練小模型提升可靠性,如下圖所示。經(jīng)過對齊后,小模型的可靠性也得到顯著提升。

圖片

結(jié)語和展望

本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn),希望借此拋磚引玉,引出更多對新生代推理模型可靠性的關(guān)注和優(yōu)秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務(wù)于人類~

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-07-17 13:07:26

模型開源

2024-07-15 07:52:00

2024-01-26 16:33:00

2023-12-01 09:36:59

華為云大模型混合云華為云行業(yè)高峰論壇

2025-08-18 08:40:00

模型AI算法

2024-09-12 12:46:36

2025-01-13 07:00:00

2025-09-23 09:06:00

AILLM系統(tǒng)

2024-07-11 11:53:56

2025-02-28 08:00:00

大語言模型DeepSeek機(jī)器學(xué)習(xí)

2025-08-01 09:03:16

2024-05-27 12:45:53

2025-01-21 13:15:16

搜索版Search-o1框架

2025-08-04 08:22:00

模型AI指南

2024-10-05 11:30:00

模型訓(xùn)練

2025-03-17 08:48:00

大模型AI生成

2010-12-28 19:50:21

可靠性產(chǎn)品可靠性

2025-05-14 09:15:00

2021-12-01 10:05:12

模型人工智能計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

91九色综合久久| 99久在线精品99re8热| 亚洲国产综合视频在线观看| √天堂资源地址在线官网| 男女激情免费视频| 日韩一级片在线观看| 色欧美自拍视频| 五月婷婷丁香在线| 日韩国产伦理| 欧美色图第一页| 国产精品密蕾丝视频下载| 日韩精品一区三区| 黄色小网站91| 狠狠干狠狠久久| 国产乱码精品一区二区亚洲| 亚洲GV成人无码久久精品| 免费av一区二区三区| 精品欧美一区二区三区| 欧美国产不卡| 高潮毛片又色又爽免费 | 日韩高清不卡av| 亚洲深夜影院| 成人性生交大片免费看午夜 | 国产精品美女视频| 成人综合网站| 一区二区三区四区在线视频| 欧美午夜久久久| 日韩精品免费一区二区三区| 国产精品久久久久久久一区二区| 欧美日韩视频免费在线观看| 亚洲精品在线电影| 日韩影院免费视频| 午夜小视频在线观看| 久久无码人妻精品一区二区三区 | 在线亚洲男人天堂| 精品一区二区三区久久| av免费不卡| 国内毛片毛片毛片毛片毛片| 国产精品推荐精品| 欧美日韩在线免费视频| 极品av少妇一区二区| 精品视频二区| 人妻 丝袜美腿 中文字幕| 国产精品伦子伦免费视频| 亚洲精品日韩一| 不卡中文字幕| 五月婷婷开心中文字幕| 一级网站在线观看| 色播五月激情综合网| 女同一区二区三区| 亚洲天堂一二三| 国产精品wwwww| 97成人在线视频| 亚洲一线二线三线视频| 在线成人超碰| 久久久久久久久免费视频| 懂色av粉嫩av浪潮av| 久久久久综合一区二区三区| 精品免费一区二区三区| 成人免费毛片嘿嘿连载视频| 日本成人手机在线| www国产一区| 91亚洲一区二区| 亚洲影视九九影院在线观看| 欧美久久久久免费| 国产精品 欧美精品| **日韩最新| 后进极品白嫩翘臀在线视频| 蜜臀av粉嫩av懂色av| 国产伦精品一区二区三毛| 精品国产精品一区二区夜夜嗨| 福利电影一区二区| 高清精品xnxxcom| 久草福利在线| 亚洲精品国产系列| 亚洲香蕉成人av网站在线观看| 国产日韩成人精品| 亚洲国产精品日韩专区av有中文| 成人av福利| 91久久国产视频| 超碰在线97免费| 国产嫩草一区二区三区在线观看| 精品亚洲一区二区三区在线播放| 中文字幕成人在线观看| 国产后进白嫩翘臀在线观看视频| 视频国产一区二区| 激情综合在线观看| 成人欧美在线视频| 亚洲国产精品久久久久久| 国产精品久久久久久福利一牛影视 | 中文字幕资源网在线观看免费| 一区二区视频网站| 爱爱的免费视频| 精品人妻大屁股白浆无码| 国产精品第一视频| 亚洲国产高清自拍| 一级特黄大欧美久久久| 美女视频黄免费的久久| 神马影视一区二区| av影院在线免费观看| 99热这里只有精| 日本欧美一区二区三区不卡视频| xxxx18hd亚洲hd捆绑| 亚洲精品女av网站| 两个人的视频www国产精品| 欧美中文字幕一区二区三区亚洲| 99久久国产免费看| 亚洲欧洲一区| 国产欧美啪啪| 成人免费网站观看| 午夜视频免费在线| 日韩人妻无码一区二区三区99| 亚洲成人激情小说| 久久久久久久9| 精品乱子伦一区二区三区| 午夜精品久久久久久久99热浪潮| 日韩视频一区二区在线观看| 一区二区三区免费观看| 国产麻豆视频精品| 亚洲高清激情| 国产一区不卡| 爱情电影网av一区二区| 成人在线播放免费观看| 天堂在线视频免费| 在线精品免费视| 在线不卡视频一区二区| 国模视频一区二区三区| 亚洲美女性视频| 欧美日韩精品二区第二页| 一区二区三区在线播| 不卡欧美aaaaa| 视频一区在线视频| 在线成人超碰| 国内成人精品| 麻豆一区二区| 综合欧美精品| 亚洲精品永久免费视频| 快射av在线播放一区| 内射无码专区久久亚洲| 亚洲天堂中文网| 精品无码久久久久久久| 欧美美女性生活视频| 国产亚洲无码精品| 男插女视频网站| 国产又猛又黄的视频| 你真棒插曲来救救我在线观看| 亚洲一区尤物| 日韩动漫在线观看| 久久精品中文字幕一区二区三区 | 在线日韩欧美视频| 亚洲精品福利视频| 精品1区2区在线观看| 日韩一区二区三区在线观看| 老司机一区二区三区| 小说区亚洲自拍另类图片专区| 亚洲裸色大胆大尺寸艺术写真| 日韩精品三级| 国产高清视频一区二区| 日韩福利影视| 成人国产精品一区二区网站| 日韩色性视频| 色狠狠一区二区三区| 国产三级一区| 国产美女亚洲精品7777| 精品一区91| 欧美日韩黄网站| 澳门久久精品| 亚洲深夜福利在线观看| 精品大片一区二区| 欧美hentaied在线观看| 婷婷久久国产对白刺激五月99| 亚洲激情五月| 伊人久久成人| 久久国产精品一区二区| 国产成人精品影院| 成人妖精视频yjsp地址| 久久综合九色综合欧美就去吻| 久久久午夜电影| 18涩涩午夜精品.www| 亚洲一级电影视频| 91激情在线视频| 3d动漫精品啪啪一区二区竹菊| 亚洲福利视频久久| www.久久久久| 91成人国产在线观看| 国产精品欧美一区二区| 国产偷国产偷亚洲高清97cao| 欧美影视一区二区| 日韩精品在线观看av| 超碰在线播放91| 黄色网址在线视频| av成人免费网站| 自拍偷拍校园春色| 黑人精品一区二区三区| 国产一二区在线| 粉嫩一区二区| 欧美大胆视频| 国产精品草草| 国产精品亚洲专一区二区三区| 国产日韩三级在线| 色综合久久88色综合天天免费| 日韩精品一区二区三区四区| 中文字幕日韩综合av| 国产激情综合五月久久| 精品卡一卡二| 午夜精品久久久内射近拍高清 | 亚洲小说区图片| 日韩综合一区二区三区| 久久久久久久久久久妇女| 精品一二线国产| 亚洲欧美日韩人成在线播放| 欧美人伦禁忌dvd放荡欲情| 中文字幕精品久久| 91精品国产综合久久香蕉922| 中文字幕一区二区三区在线乱码| 久久久久久久片| 色欲狠狠躁天天躁无码中文字幕 | 97久久久久久久| 性感美女视频一二三| 亚洲美女尤物影院| 国产精品一在线观看| 精品中文字幕一区二区 | 97netav| 欧美黄网在线观看| 亚洲成人av免费在线观看| 91精品国产高清一区二区三密臀| 福利在线午夜| 国产成人精品福利| 男女精品网站| 国产精品久久精品日日| 日韩视频一区二区| 日韩美女激情视频| 日韩精品福利片午夜免费观看| 亚洲区 欧美区| 中文字幕+乱码+中文乱码www| 国产精品久久久久久福利| 精品综合久久88少妇激情| 免费人成在线不卡| 亚洲一二三级电影| 久久精品在线播放| 欧美日韩国产免费一区二区三区 | 成人免费视屏| 欧美禁忌电影| 99久久国产免费看| 日韩欧美不卡在线观看视频| 国产精品麻豆va在线播放| 青草网在线观看| 日本激情视频一区二区三区| 国自产拍在线网站网址视频| 999久久精品| 国产高清不卡一区| 91精品国产综合久久久蜜臀粉嫩 | 欧美日本国产在线| 国产美女视频免费| 中文字幕免费高清| 精品乱码一区二区三四区视频| 老汉色老汉首页av亚洲| 成人午夜av影视| 日韩美女天天操| 国产在线欧美日韩| 免费看黄色片的网站| 国产区精品在线| 亚洲性视频在线| 成人免费电影视频| 精品爽片免费看久久| 日本一区视频在线观看| 亚洲一区视频在线播放| 国产大学生校花援交在线播放| 精品一区二区三| 亚洲日本一区二区| 欧美日韩xxx| 免费在线a视频| 中文字幕日本视频| 疯狂欧洲av久久成人av电影| 国产二区国产一区在线观看| 日韩av在线导航| 视频一区二区在线| 久久久久成人网站| 国产高清不卡| 国产不卡视频在线观看| 亚洲精品永久免费| 日本特级黄色大片| 亚洲另类欧美日韩| 深夜日韩欧美| wwwwxxxxx欧美| 精品国产一区二区三区久久狼黑人 | 西西44rtwww国产精品| av成人在线播放| 成人中文字幕合集| 不用播放器成人网| 国产无套内射久久久国产| 国产成人精品免费看视频| 台湾色综合娱乐中文网| 亚洲免费三区一区二区| 国产91热爆ts人妖在线| chinese麻豆新拍video| 福利在线视频网站| 久久精品国产**网站演员| 亚洲女人天堂色在线7777| www.18av.com| www久久久久久| 欧美成人久久| 日韩欧美的一区| 激情视频小说图片| 99久久免费国产精精品| 91蜜臀精品国产自偷在线 | 国产精品久久毛片av大全日韩| 7m第一福利500精品视频| 91丝袜超薄交口足| 中国av在线播放| 国产精品一区二区免费不卡| 久久综合网hezyo| 能看毛片的网站| 大桥未久在线播放| 97久久人人超碰| 国产精品国产自产拍高清av水多| 免费看污片网站| 台湾佬成人网| 国产午夜亚洲精品午夜鲁丝片| 国产精品欧美日韩| 免费在线观看av网址| 欧美五码在线| 在线亚洲一区观看| 亚洲小说欧美另类激情| 亚洲成人一级片| 亚洲在线视频| 啊v视频在线一区二区三区| 久久久久久久人妻无码中文字幕爆| 福利影院在线看| 国产女人18水真多18精品一级做| 91精品在线播放| 国产精品美女久久久久av爽| 精品国产中文字幕第一页 | 国产v日韩v欧美v| 欧美国产欧美综合| 国产精品国产一区二区| 午夜影院在线看| 欧美在线日韩| 伊人久久男人天堂| 成人在线观看一区二区| 一区二区三区日本视频| 欧美日韩激情视频| 欧美 亚洲 视频| 日本天堂在线观看| 久久免费精品国产久精品久久久久| 97超碰人人看人人| 亚洲图片中文字幕| 日韩精品高清不卡| 97国产精品免费视频| 欧美成人一区二区三区高清| 欧美精品一区二区三区中文字幕| 精品精品欲导航| 久久久久久久久久影视| 国产精品一区二区精品视频观看| 欧美曰成人黄网| 男人天堂成人在线| 欧美一级大黄| 日本韩国精品一区二区在线观看| 91专区在线观看| av高清不卡| 91黄色免费观看| 少妇网站在线观看| 四虎国产精品免费久久5151| 欧美三级日韩在线| 污视频网站观看| 久久久91麻豆精品国产一区| 欧美精品久久一区| 伊人av在线播放| 亚洲精品动态| 在线观看不卡av| 国产精品久久久精品四季影院| 欧美三区不卡| 日本精品性网站在线观看| 99成人精品视频| 国产精品亚洲综合一区在线观看| 91视频网页| 国产一级在线观看| 自拍偷在线精品自拍偷无码专区 | av在线综合网| 视频一区三区| 欧美wwww| 欧美乱妇20p| 日韩精品一区二区三区高清免费| 深爱激情综合网| 97在线精品国自产拍中文| 一级片视频免费| 91麻豆精品视频| 免费人成在线观看视频播放| 麻豆精品蜜桃| 日韩成人中文字幕在线观看| 精品一区二区三区蜜桃在线| 激情另类综合| 91网在线免费观看| 深夜福利视频一区| 亚洲成人精品一区二区| 亚洲欧美aaa| 久久精品国产大片免费观看| 国产91精品久久久久久久| 噜噜噜久久,亚洲精品国产品| 中文字幕亚洲区|