精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思

發(fā)布于 2024-6-17 12:46
瀏覽
0收藏

本文第一作者和通訊作者均來自上海算法創(chuàng)新研究院。其中,通訊作者李志宇博士畢業(yè)于中國人民大學(xué)計(jì)算機(jī)專業(yè),并曾在阿里巴巴、小紅書等互聯(lián)網(wǎng)公司從事算法落地與研究工作,曾參與了包括千億級(jí)商品知識(shí)圖譜、用戶圖譜和輿情圖譜的研發(fā)工作,累計(jì)發(fā)表論文四十余篇。李志宇當(dāng)前在上海算法創(chuàng)新研究院大模型部門(由熊飛宇博士帶領(lǐng))負(fù)責(zé)整體的技術(shù)研發(fā)工作。研究院主頁:https://www.iaar.ac.cn/


大語言模型(LLM)的迅速發(fā)展,引發(fā)了關(guān)于如何評(píng)估其公平性和可靠性的熱議。


盡管現(xiàn)有的評(píng)估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動(dòng)了行業(yè)進(jìn)步,但專注于這些評(píng)估框架核心組件可信度或可靠性度量的團(tuán)隊(duì)卻為數(shù)不多。


近日,上海算法創(chuàng)新研究院和中國人民大學(xué)的研究團(tuán)隊(duì)發(fā)布了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評(píng)估框架的整體流程,重點(diǎn)評(píng)估了答案抽取器組件在大模型評(píng)估中的可靠性和一致性。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

當(dāng)前的評(píng)估框架主要依賴正則表達(dá)式(RegEx)來抽取答案,但這種方法存在明顯缺陷。人工復(fù)核結(jié)果顯示,其最佳抽取正確率僅為74.38%,評(píng)估結(jié)果極不可靠。


此外,RegEx方法容易被有意或無意地?cái)M合,增加了「作弊」的可能性,從而影響評(píng)估結(jié)果的可靠性和一致性。下圖展示了LLM評(píng)估框架中RegEx組件抽取錯(cuò)誤的情況。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

為了有效解決這一問題,上海算法創(chuàng)新研究院和中國人民大學(xué)的研究團(tuán)隊(duì)開發(fā)了一個(gè)名為 xFinder 的新模型,用于更準(zhǔn)確地抽取關(guān)鍵答案。


xFinder 具有以下優(yōu)勢(shì):


(1)不要求特定格式的答案輸出,具備較強(qiáng)的答案抽取魯棒性,抽取準(zhǔn)確率高達(dá)95.18%,顯著優(yōu)于目前最佳LLM評(píng)估框架中的RegEx方法。


(2)支持多樣化題型,能夠?qū)⒆帜高x擇題自動(dòng)轉(zhuǎn)換為問答題,并支持不同題型的混排評(píng)估,從而降低測(cè)試者擬合題型的可能性。 


方法介紹

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

xFinder的實(shí)現(xiàn)過程主要包括LLM響應(yīng)內(nèi)容的生成、KAF數(shù)據(jù)集的標(biāo)注和xFinder的訓(xùn)練。為了實(shí)現(xiàn) xFinder 模型的有效訓(xùn)練,團(tuán)隊(duì)構(gòu)建了一個(gè)專門的數(shù)據(jù)集——關(guān)鍵答案查找(KAF)數(shù)據(jù)集。該數(shù)據(jù)集包含 26,900 個(gè)訓(xùn)練樣本、4,961 個(gè)測(cè)試樣本和 4,482 個(gè)泛化樣本,涵蓋多種評(píng)估任務(wù)。


大語言模型響應(yīng)生成


首先,研究團(tuán)隊(duì)從現(xiàn)有的主要評(píng)估基準(zhǔn)和報(bào)告中挑選了多個(gè)典型的評(píng)估任務(wù)數(shù)據(jù)集,這些任務(wù)被分類為四種類型:字母選項(xiàng)任務(wù)、短文本選項(xiàng)任務(wù)、分類標(biāo)簽任務(wù)和數(shù)學(xué)任務(wù)。


接著,團(tuán)隊(duì)使用不同系列的 LLM(如 Qwen、InternLM、ChatGLM 等)生成這些任務(wù)的數(shù)據(jù)對(duì)。通過多種 LLM,團(tuán)隊(duì)生成了豐富多樣的數(shù)據(jù)對(duì),為 xFinder 模型的訓(xùn)練提供了充分的數(shù)據(jù)支持。 


自動(dòng)標(biāo)注與人工復(fù)核


團(tuán)隊(duì)使用了一種策略,從 LLM 響應(yīng)中提取關(guān)鍵答案并將其用作標(biāo)簽,以構(gòu)建高質(zhì)量的 KAF 數(shù)據(jù)集。為提高訓(xùn)練集的標(biāo)注效率,他們采用了半自動(dòng)化流程,通過不同提示使用 GPT-4 生成了兩組標(biāo)注,并利用自一致性策略篩選出標(biāo)注不一致的項(xiàng)和所有數(shù)學(xué)問題,提交給人工復(fù)查。為了確保測(cè)試集和泛化集的有效性和可靠性,所有標(biāo)簽都經(jīng)過兩輪手動(dòng)注釋。 


訓(xùn)練 xFinder


為了增強(qiáng) KAF 數(shù)據(jù)集的多樣性和模型的泛化能力,研究團(tuán)隊(duì)采用了兩種數(shù)據(jù)增強(qiáng)策略:


(1)模擬 LLM 響應(yīng):對(duì) KAF 訓(xùn)練集中 50% 的字母選項(xiàng)問題進(jìn)行修改,增加或刪除一到兩個(gè)選項(xiàng),以模擬 LLM 的多樣化響應(yīng)。


(2)豐富提示形式:提取包含關(guān)鍵答案句子的 LLM 響應(yīng)的 10%,替換其中的提示部分,例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。


此外,團(tuán)隊(duì)使用 XTuner 工具和 QLoRA 方法,對(duì) Llama 系列、Qwen 系列和 Gemma 系列等基座模型進(jìn)行微調(diào),最終獲得 xFinder。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果


該團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn),評(píng)估xFinder在不同任務(wù)上的表現(xiàn),并與現(xiàn)有的RegEx方法進(jìn)行了對(duì)比。


KAF 測(cè)試集上的結(jié)果


在 KAF 測(cè)試集上,xFinder-qwen1505 的平均提取準(zhǔn)確率達(dá)到了 96.88%,顯著高于最佳評(píng)估框架中的 RegEx 方法的 74.38%。


具體來看,xFinder-qwen1505 在字母選項(xiàng)任務(wù)中的提取準(zhǔn)確率為 97.35%;在短文本選項(xiàng)任務(wù)中為 96.83%;在分類標(biāo)簽任務(wù)中為98.05%;在數(shù)學(xué)選項(xiàng)任務(wù)中為 92.76%。這些結(jié)果表明,xFinder 在各類任務(wù)中均表現(xiàn)出色,顯著提升了評(píng)估的準(zhǔn)確性和可靠性。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

KAF 泛化集上的結(jié)果


在全新的 KAF 泛化集上(該泛化集使用了與 KAF 數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集不同的 LLM 和測(cè)試任務(wù)生成的樣例構(gòu)造的),xFinder-qwen1505 展現(xiàn)了卓越的性能,平均提取準(zhǔn)確率達(dá)到了 93.42%。


實(shí)驗(yàn)結(jié)果表明,xFinder 的表現(xiàn)不僅優(yōu)于其他基于 RegEx 的評(píng)估框架,甚至顯著優(yōu)于 GPT-4,充分展示了其高魯棒性和泛化能力。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

在現(xiàn)實(shí)世界場(chǎng)景中的評(píng)估


研究團(tuán)隊(duì)使用 xFinder 和傳統(tǒng)評(píng)估框架對(duì) 10 種 LLM 進(jìn)行了綜合評(píng)估。評(píng)估任務(wù)涵蓋了 CommonsenseQA、BoolQ 和 GSM8K 等。通過對(duì) 10 種不同的 LLM 應(yīng)用五種答案提取方案,進(jìn)行了一系列對(duì)比實(shí)驗(yàn)。


概括起來,實(shí)驗(yàn)結(jié)果主要揭示了三個(gè)關(guān)鍵發(fā)現(xiàn):


(1)同一模型在不同框架下的排名常常出現(xiàn)較大差異,難以準(zhǔn)確反映模型的真實(shí)能力,顯示出一致性較低。


(2)不同的 xFinder 在這些實(shí)驗(yàn)中顯示出了高度的一致性,并且在提取答案的準(zhǔn)確率上也超越了其他評(píng)測(cè)框架,表明 xFinder 是一種更加可靠的評(píng)測(cè)方法。


(3)與傳統(tǒng)的字母選項(xiàng)設(shè)置相比,直接使用選項(xiàng)文本能顯著提升排名的一致性,反映了字母選項(xiàng)設(shè)置的不穩(wěn)定性。更多的細(xì)節(jié)和實(shí)驗(yàn)結(jié)果已在附錄中展示,這些內(nèi)容進(jìn)一步證實(shí)了上述發(fā)現(xiàn)的有效性。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

結(jié)語


總的來說,xFinder通過優(yōu)化關(guān)鍵答案提取模塊,提高了LLM評(píng)估的準(zhǔn)確性和可靠性。實(shí)驗(yàn)結(jié)果表明,xFinder在多種任務(wù)上均表現(xiàn)出色,具備較高的魯棒性和泛化能力。未來,該研究團(tuán)隊(duì)將繼續(xù)優(yōu)化xFinder,并研究其他評(píng)估關(guān)鍵問題,為L(zhǎng)LM性能的可靠評(píng)估提供堅(jiān)實(shí)基礎(chǔ)。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/C5G-rpen9OM4MmBhrByTIQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
成人在线国产| 成人国产激情| 久久免费看少妇高潮| 国产精品色婷婷视频| 久久av红桃一区二区禁漫| 在这里有精品| 在线看日本不卡| 乱熟女高潮一区二区在线| 日本一本草久在线中文| 免费在线观看视频一区| 欧美国产高跟鞋裸体秀xxxhd| 少妇户外露出[11p]| 国产第一亚洲| 五月天激情小说综合| 亚洲精品二区| 天堂在线视频网站| 激情综合一区二区三区| 欧美性受xxx| 国产极品国产极品| 精品国精品国产自在久国产应用| 91精品欧美综合在线观看最新| 久久精品国产sm调教网站演员| 一区二区三区视频网站| 91蝌蚪porny| 99re在线观看| 91麻豆国产在线| 亚洲综合国产激情另类一区| 欧美成人中文字幕在线| 亚洲欧美综合7777色婷婷| 色婷婷狠狠五月综合天色拍| 日韩欧美国产三级| 91视频这里只有精品| 女海盗2成人h版中文字幕| 亚洲欧美经典视频| 亚洲最大色综合成人av| 国产视频福利在线| 26uuu欧美| 狠狠色综合网站久久久久久久| 国产美女无遮挡永久免费| 日本在线播放一区二区三区| 45www国产精品网站| 久久久久久久久久综合| 中文字幕人成人乱码| 精品国产依人香蕉在线精品| 国精产品一区一区| 欧美一级精品片在线看| 亚洲欧美日韩高清| 国产精品伦子伦| 国产一区二区三区亚洲| 精品国产伦一区二区三区观看体验| 国产探花在线观看视频| 精品精品视频| 日韩欧美卡一卡二| 国产男女无遮挡猛进猛出| 亚洲人成777| 欧美丰满少妇xxxxx高潮对白| 免费看污污网站| 69堂精品视频在线播放| 欧美在线观看禁18| 日日碰狠狠躁久久躁婷婷| 男人av在线播放| 欧美体内谢she精2性欧美| 国产淫片免费看| 自由日本语热亚洲人| 欧美视频第一页| 成人性做爰aaa片免费看不忠| 日本一区二区三区视频在线| 欧美日韩亚洲综合在线| 超碰91在线播放| 91国内精品| 亚洲国产精品福利| 国产精品久久久久无码av色戒| 美日韩中文字幕| 视频在线观看99| 激情综合网五月天| 国产精品一页| 国产精品国模在线| 一级黄色免费看| 国产suv精品一区二区6| 久久本道综合色狠狠五月| 国产美女性感在线观看懂色av| 中文天堂在线一区| 免费看黄色a级片| 高h视频在线播放| 色哟哟一区二区| 在线黄色免费看| 久久中文字幕导航| 国产一区二区三区视频在线观看 | 中文字幕免费播放| 激情综合五月婷婷| 国产在线一区二区三区欧美| 国产在线电影| 一区二区三区久久| 精品中文字幕av| 四虎在线精品| 亚洲精品视频中文字幕| 可以免费看av的网址| 亚洲精品护士| 成人免费网站在线观看| 欧美一区二区公司| 国产精品青草综合久久久久99| 免费观看国产视频在线| 天天综合av| 欧美一级日韩一级| 国产综合精品在线| 国产精品第十页| 国产精品高潮呻吟久久av野狼| 国产黄色一级大片| 国产日韩三级在线| 一卡二卡三卡视频| 日本免费在线一区| 亚洲激情视频在线| 亚洲国产美女视频| 日本va欧美va瓶| 黄色99视频| 亚洲性图自拍| 欧美日韩一区二区三区在线| 成年人的黄色片| 亚洲老妇激情| 国产精品久久久久久婷婷天堂| 可以免费看毛片的网站| 亚洲欧洲精品一区二区精品久久久| heyzo亚洲| 亚洲欧洲国产精品一区| 色多多国产成人永久免费网站| 亚洲另类欧美日韩| 国产成人精品免费| 欧美爱爱视频网站| jizz亚洲女人高潮大叫| 亚洲精品有码在线| 国产系列精品av| 国产精品亚洲一区二区三区在线| 中文字幕欧美人与畜| 国产一区一一区高清不卡| 亚洲精品视频在线播放| 国产精品黄色大片| 成人av网站大全| 国产九色porny| 欧美另类中文字幕| 久久成人18免费网站| 艳妇乳肉豪妇荡乳av| 欧美国产日韩在线观看| 国产极品美女高潮无套久久久| 久久午夜影院| 久久久噜噜噜久久久| 亚洲精品97久久中文字幕| 自拍偷在线精品自拍偷无码专区| 九九热免费精品视频| 精品一区不卡| 国产精品丝袜白浆摸在线| 国产在线视频资源| 欧洲色大大久久| 欧美福利第一页| 久久精品国产在热久久| 亚洲国产一区二区三区在线播| 最新日韩一区| 日韩在线观看精品| jizz中国少妇| 亚洲电影第三页| 日本一区二区三区网站| 亚洲一区自拍| 日韩av高清在线播放| 日本欧美一区| 另类少妇人与禽zozz0性伦| 国产精品特级毛片一区二区三区| 亚洲色图清纯唯美| 男人女人拔萝卜视频| 亚洲国产日韩欧美一区二区三区| 精品在线观看一区二区| 成人日韩在线观看| 色哟哟入口国产精品| 97免费观看视频| 亚洲一区二区三区四区中文字幕| 性色av蜜臀av浪潮av老女人| 老司机精品视频网站| 一区二区三区欧美在线| 日韩精品一区国产| 81精品国产乱码久久久久久| 国产视频网站在线| 日韩一区二区电影网| 一级免费在线观看| 亚洲国产精品精华液ab| 无码国产精品一区二区高潮| 一本综合久久| 亚洲欧美在线网| 精品伊人久久久| 国产精品爽爽爽| h片精品在线观看| 国产一区二区成人| 亚洲成人一二三区| 欧美中文字幕不卡| 国产91av视频| 国产午夜精品一区二区三区视频| 性欧美在线视频| 99亚洲一区二区| 亚洲日本japanese丝袜| 成人涩涩网站| 国产日韩精品视频| 成av人片在线观看www| www.日本久久久久com.| 天天射天天操天天干| 777午夜精品免费视频| 日韩一区二区视频在线| 亚洲三级在线播放| 99精品欧美一区二区| 成人免费看视频| 久久久久久久久久一区二区| 亚洲一区国产| 成人区一区二区| 久久激情电影| 欧美日韩一区二区视频在线| 日韩精品成人在线观看| 国产精品va在线播放| 国产美女高潮在线观看| 欧美成人精品一区二区三区| www日韩tube| 亚洲精品视频在线播放| 三级在线观看网站| 日韩一区二区精品| 国产裸体无遮挡| 欧美日韩一区二区三区四区 | 视频一区二区欧美| 久无码久无码av无码| 综合天堂av久久久久久久| 亚洲精品在线免费| 中日韩免视频上线全都免费| 精品久久精品久久| 一区二区三区亚洲变态调教大结局| 国产精品亚洲综合天堂夜夜| 黑人巨大精品| 欧洲精品毛片网站| а√天堂中文资源在线bt| 欧美成人精品不卡视频在线观看| 巨大荫蒂视频欧美大片| 日韩有码片在线观看| 69久久精品| 亚洲丝袜在线视频| 户外极限露出调教在线视频| 日韩精品中文字幕在线观看| 婷婷色在线观看| 亚洲精品成人久久电影| 国内爆初菊对白视频| 日韩欧美不卡在线观看视频| 国产肥老妇视频| 欧美一二三四在线| 国产高清不卡视频| 日韩欧美国产精品| 人妻夜夜爽天天爽| 亚洲国产精品国自产拍av秋霞| 黄片毛片在线看| 亚洲精品按摩视频| 亚州av在线播放| 亚洲美女激情视频| 成人免费黄色网页| 日韩视频在线观看免费| 精品美女在线观看视频在线观看| 日韩一中文字幕| 先锋成人av| 91国产一区在线| 亚洲精品国产嫩草在线观看| 国产精品久久久久久久久久三级| 精品福利在线| 51蜜桃传媒精品一区二区| 97久久精品| 久久综合福利| 成人羞羞网站入口免费| 波多野结衣三级在线| 欧美91视频| 欧美丰满熟妇bbbbbb百度| 视频一区欧美精品| av免费一区二区| 成人精品在线视频观看| 亚洲精品视频久久久| 国产精品久久一卡二卡| 青娱乐国产盛宴| 大桥未久av一区二区三区| 亚洲成人av网址| 91精品久久久久久久91蜜桃| 成人午夜精品福利免费| 亚洲免费一级电影| 欧美边添边摸边做边爱免费| 九色精品免费永久在线| 亚洲小少妇裸体bbw| 国产日产亚洲精品| 精品午夜电影| 亚洲毛片aa| 亚洲承认在线| 日本不卡一区在线| 成人毛片老司机大片| 国产一级淫片久久久片a级| 一区二区免费在线| 国产亚洲欧美日韩高清| 日韩一级片网站| 久青青在线观看视频国产| 久久中文字幕在线视频| 末成年女av片一区二区下载| 91麻豆国产语对白在线观看| 欧美人成在线观看ccc36| 在线观看日韩羞羞视频| 一区二区三区国产盗摄| 亚洲精品国产久| 久久久精品黄色| 日本天堂网在线观看| 欧美久久久影院| 日韩三级电影网| 欧美成人午夜激情在线| 成人18视频在线观看| 国产日韩精品一区观看| 亚洲精品国产成人影院| 三级a在线观看| 久久看人人爽人人| 久久精品这里有| 欧美一区二区三区男人的天堂| 黄色av网址在线免费观看| 性欧美xxxx| 亚洲第一二区| 免费观看黄色的网站| 日韩精品1区2区3区| 中国一级特黄录像播放| 一区二区三区在线观看视频| 在线视频你懂得| 亚洲午夜精品久久久久久久久久久久| ririsao久久精品一区| 亚洲自拍欧美另类| 国产精品成人a在线观看| 婷婷丁香激情网| 国产亚洲婷婷免费| 特级做a爱片免费69| 日韩欧美在线123| 黄色网址在线免费| 91老司机精品视频| 98精品久久久久久久| 欧美成年人视频在线观看| 国产偷国产偷亚洲高清人白洁| 可以免费在线观看的av| 精品国产乱码久久久久久浪潮| 在线看三级电影| 91夜夜未满十八勿入爽爽影院| 日韩国产一区二区三区| 天美星空大象mv在线观看视频| 久久一留热品黄| 性无码专区无码| 亚洲女人天堂视频| 欧美大胆成人| 色播亚洲视频在线观看| 日欧美一区二区| 91社区视频在线观看| 在线观看亚洲专区| 91大神在线网站| 成人国产精品av| 欧美一区二区三区另类| 亚洲妇女无套内射精| 亚洲午夜三级在线| 日韩一级中文字幕| 欧美一区二区视频97| 国产精品一区二区av交换| 嫩草影院国产精品| 亚洲欧洲精品天堂一级 | 国产精品一区二区三区99| 91视频综合网| 精品日韩一区二区三区免费视频| 免费电影视频在线看| 精品婷婷色一区二区三区蜜桃| 久久久久综合| 人与动物性xxxx| 日韩三级精品电影久久久| heyzo中文字幕在线| 欧美人xxxxx| 精品综合久久久久久8888| 免费视频一二三区| 亚洲韩国日本中文字幕| 国产精品专区免费| 一区二区三区视频| 国产成人亚洲综合a∨婷婷| 久草国产精品视频| 亚洲天天在线日亚洲洲精| 国产999精品在线观看| 无码粉嫩虎白一线天在线观看| 久久精品一区八戒影视| 97人妻精品一区二区三区视频| 欧美精品第一页在线播放| 日韩美女毛片| 三日本三级少妇三级99| 亚洲高清中文字幕| 川上优的av在线一区二区| 亚洲精品日韩激情在线电影| 国产精品综合| 极品色av影院| 日韩风俗一区 二区| 国产资源一区| 日本在线xxx| 成人免费一区二区三区视频| 成人久久久精品国产乱码一区二区| 国产成人久久精品| 国产专区一区| jizzjizzjizz国产| 亚洲国产精品久久久久久| 日韩电影精品| av天堂永久资源网| 亚洲精品视频在线观看免费|