精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎? 精華

發布于 2024-9-10 12:10
瀏覽
0收藏

1. 背景

大語言模型在工業界應用的一個主要障礙就是大語言模型(LLMs)不遵循標準化輸出格式。這種不一致性,使得輸出解析變得更為復雜,也削弱了這些模型的可靠性。

所以,大家普遍會采用結構化輸出的方式來規避這一問題,也就是使用格式化限制,比如以標準化格式進行輸出,比如:Json、XML等。

這些限制可以通過多種方式來實現,比如指示模型遵循帶有格式限制指令的指定格式,或者使用像JSON模式這樣的標準解決方案。這些方案讓LLMs能夠更加順利的融入到實際AI應用中去。

那么,這種格式限制指令,是否會影響LLMs生成內容的質量?

比如下圖,GPT-3.5-turbo 在這個 GSM8K數學問題上用標準自然語言輸出時,可以給出正確答案,但是一旦添加了格式限制,GPT-3.5-turbo就輸出了錯誤答案。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

1.1 對比的格式限制方法

為了系統性研究這個問題,作者針對三種格式限制方法進行對比研究:

  • ? 約束性解碼(JSON模式,):在生成階段添加超參的方式來實現的,確保模型生成的內容符合預設的JSON格式。
  • ? 格式限定指令(FRI,Format-Restricting Instructions):通過提示詞來指導模型用JSON、XML、YAML等標準格式生成內容,與約束性解碼相比,這種方法更為寬松。
  • ? 自然語言轉格式(NL-to-Format):首先指導大型語言模型以自然語言形式回答問題,隨后再將其回答轉換為目標格式的模式。

1.2 測試的數據集

作者對比了兩大類任務,分別是:推理任務和分類任務。

1.2.1 推理任務

  • ? GSM8K :數學問題集合,測試大型語言模型生成必要的中間推理步驟。
  • ? Last Letter Concatenation :該任務要求大型語言模型通過串聯一系列單詞的最后字母來生成一個字符串,以此測試其符號推理能力。
  • ? Shuffled Objects:評估在給定初始狀態和一系列打亂事件的情況下推斷最終狀態的能力。

1.2.2 分類任務

  • ? DDXPlus :醫療診斷數據集,大型語言模型必須依據給定的患者資料從 49 種可能的疾病中選出最合適的診斷。由
  • ? MultiFin :一個多項選擇的金融數據集,要求將給定的段落分類為五個類別之一。
  • ? Sports Understanding :用于測試大型語言模型判斷與體育相關的人工構建句子是否合理的能力。
  • ? NI - Task 280 :基于給定段落的多項選擇刻板印象分類任務。納入此任務,是因為發現它對提示格式的變化較為敏感,性能變化高達 56% 。

1.3 測試的模型

對 gpt-3.5-turbo-0125  、claude-3-haiku-20240307 、gemini-1.5-flash 進行了比較。

對于開源模型,使用 LLaMA-3-8B-Instruct 和 Gemma-2-9B-Instruct ,并借助 Text-Generation-Server 進行推理,因其支持 JSON 模式 。

1.4 評估指標

對于基于分類的任務(體育理解、DDXPlus、自然指令任務 280 和 MultiFin),將準確率作為主要指標。

對于Last Letter Concatenation和 GSM8K,使用精確匹配指標,即最終答案必須與實際答案完全字符串匹配。

2. 格式限制對最終結果的影響

通過對比三種逐步放寬的提示方式——JSON 模式、FRI 以及 NL 到格式的轉換,來探究格式限制對大型語言模型(LLM)性能的影響。

2.1 推理任務

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

我們在具有精確匹配分數的數據集上對這些方式進行評估,如上圖中呈現的 GSM8K 和Last Letter Concatenation。

在Last Letter Concatenation任務中,JSON 模式的表現明顯遜于 FRI(JSON)。經檢查,發現 100%的 GPT 3.5 Turbo JSON 模式響應將“答案”鍵置于“原因”鍵之前,導致了零樣本直接回答,而非零樣本思維鏈推理。

將 NL 到格式與不受限制的自然語言響應相比較,發現大多數模型的性能近乎相同,因為兩者均從相同的初始自然語言響應得出答案。然而,NL 到格式偶爾會引入生成錯誤,致使 LLaMA 3 8B Instruct 的性能略低,而其他模型在兩種設定下保持了一致的分數。

格式限制的程度和實施方式能夠顯著影響大型語言模型的性能,尤其在推理任務中。

結構化輸出中的鍵的順序以及推理與格式遵循的解耦,成為在提供結構化響應的同時保持大型語言模型能力的重要因素。

2.2 分類任務

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

在評估分類數據集時,觀察到了與推理任務不同的趨勢,如上圖所示。值得注意的是,在 DDXPlus 數據集中,啟用 JSON 模式時,Gemini 1.5 Flash 的性能顯著提升。在其他分類數據集中,JSON 模式具有競爭力,在某些情況下,超越了其他三種方法。

JSON 模式通過限制可能的答案從而減少答案選擇中的錯誤,提高了分類任務的性能。

相反,自然語言響應可能會引入干擾,導致解析錯誤。

格式限制對大型語言模型性能的影響取決于任務:嚴格的格式可能會阻礙推理密集型任務,但能提高需要結構化輸出的分類任務的準確性。

2.3 對較寬松格式限制的影響

為進一步探究格式限制所帶來的影響,考察了 Soft Restrict 設置的一種變體,即從提示描述中移除模式限制。不再提供特定的模式(比如:“以以下模式用 JSON 格式回復您的答案:{‘reason’:…,‘answer’:…}”),而是單純指示大型語言模型以目標格式語言進行輸出(比如:“以 JSON 格式回復您的答案。”)。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

上表展示了在 GSM8K 數據集上移除模式限制后的效果。對于 Claude 3 Haiku、GPT-3.5 Turbo 以及 LLaMA 3 8B Instruct 而言,在不同的提示擾動下,平均得分顯著提升,標準差降低。

這些結果表明,雖然結構化輸出對下游處理可能有益,但過于嚴格的模式可能會妨礙大型語言模型的性能,尤其在推理密集型任務中。

這一發現意味著,在希望獲得易于解析的結構化輸出與保留大型語言模型固有推理能力之間,必須達成平衡。

在處理復雜推理任務時,或許應考慮采用較寬松的格式限制,同時仍保持一定程度的結構,以利于下游處理。

2.4 不同格式的比較

通過對比不僅是 JSON,還有 XML 和 YAML 格式來消融格式語言。由于這三種語言有著不同的語法規則和限制。推斷每個模型的表現可能各異,例如 Claude-3-Haiku 將 XML 用于工具使用模式,所以回過頭來看,未見到任何一種結構格式能在所有模型中始終表現出色,如下圖。對于 Gemini 模型,發現 JSON 更具一致性,但并非總是優于其他格式。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

發現在分類任務中,由于答案空間的限制,JSON 模式的表現比文本好很多。

然而,在推理相關任務中,JSON 模式未能遵循先推理后回答的順序,致使最終性能大幅下降。

2.5 結構格式與解析錯誤率

最初推測文本與結構化格式之間的性能差距可能源于答案提取過程中的解析錯誤。

然而,對不同格式和模型的錯誤率分析表明,解析錯誤并非主要因素。

實際上,Gemini 1.5 Flash 和 GPT 3.5 Turbo 在這三種格式中均幾乎不存在解析錯誤。在 LLaMA 3 8B 的設置中,JSON 格式下 Last Letter 任務的解析錯誤率僅為 0.148%,但卻存在高達 38.15%的性能差距。

表明格式間的性能差異主要并非源于解析錯誤,而是格式限制對大型語言模型推理和生成過程的影響。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

通過提示 Claude-3-Haiku 為 Claude 3 Haiku 和 LLaMA 3 8B(解析錯誤百分比最高的兩個模型)重新格式化任何存在解析錯誤的輸出,觀察到 JSON 和 YAML 格式的得分有所提高,如上圖 所示。這種方法展現了在不犧牲特定格式優化優勢的情況下提升結構化輸出可靠性的潛力。

3. 結論

格式的限制,尤其是約束解碼(JSON 模式),會阻礙推理能力,卻能提升分類任務的準確率。

較寬松的格式限制通常能提高性能,并減少推理任務中的差異。

解析錯誤雖非性能差異的主因,但通過糾正提示可得以緩解。

在 LLM 應用中平衡格式遵循、推理能力與成本效率的重要性。

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

收藏
回復
舉報
回復
相關推薦
久久综合久久网| caoporn国产精品免费公开| 日韩网站在线播放| 精品网站在线| 亚洲激情五月婷婷| 日韩免费精品视频| 欧美a级片免费看| 国产精伦一区二区三区| 在线一区二区三区| 大陆极品少妇内射aaaaaa| 色综合久久网女同蕾丝边| 免费欧美在线视频| 在线中文字幕日韩| 91人人澡人人爽人人精品| av网址在线免费观看| 2024国产精品视频| 亚洲www在线观看| 亚洲欧美一区二区三区在线观看| 好吊妞国产欧美日韩免费观看网站| 亚洲欧美日韩在线| 欧洲成人一区二区| 风流少妇一区二区三区91| 日韩国产欧美在线视频| 一区二区亚洲欧洲国产日韩| 国产调教打屁股xxxx网站| 视频在线日韩| 黄色成人av网| 无码人妻精品一区二区蜜桃网站| 亚洲av综合色区无码一区爱av| 女人色偷偷aa久久天堂 | 九九热国产视频| 成人三级视频| 亚洲另类欧美自拍| 亚洲麻豆一区二区三区| 亚洲伦理网站| 一区二区三区美女| 中文字幕在线亚洲三区| 亚洲国产日韩在线观看| 国产欧美一区二区三区国产幕精品| 亚洲精品99久久久久中文字幕| 久无码久无码av无码| 国产在线激情| 亚洲欧洲日韩女同| 亚洲精品一品区二品区三品区| 国产精品视频一区二区三区,| 欧美fxxxxxx另类| 日韩视频永久免费观看| 国产美女永久免费无遮挡| 97精品资源在线观看| 亚洲mv在线观看| 日本精品一区二区三区不卡无字幕| 亚洲天堂中文网| 日韩电影网1区2区| 国产精品男人的天堂| 久久精品人妻一区二区三区| 欧美一区影院| 欧美精品在线免费| 无码 人妻 在线 视频| 日韩美女毛片| 日韩一区二区三区在线视频| 青青草原播放器| 国产在线一区不卡| 欧美一级日韩免费不卡| 国产偷人视频免费| 影视一区二区三区| 午夜视黄欧洲亚洲| 国产福利片一区二区| 日韩欧美亚洲系列| 国产日韩av一区二区| 日韩一区二区电影在线观看| sese一区| 亚洲男人的天堂一区二区| 玛丽玛丽电影原版免费观看1977 | 蜜桃av一区二区| 国产精品视频久久久| 91久久精品无码一区二区| 久久动漫亚洲| 国产精品久久久久久久一区探花| 久久这里只有精品国产| 亚洲第一黄网| 国产成人精品视频在线观看| 一区二区三区在线免费观看视频| 国产精品亚洲综合色区韩国| 2021国产精品视频| 久草视频中文在线| 精品69视频一区二区三区Q| 668精品在线视频| jizz国产在线| 精品亚洲aⅴ乱码一区二区三区| 欧美专区在线播放| 懂色av.com| 日韩和欧美的一区| 国产97免费视| 亚洲婷婷综合网| 麻豆精品久久精品色综合| 99在线首页视频| 欧美大片aaa| 国产欧美精品一区二区色综合 | 亚洲视频在线观看一区| 欧美 日韩 国产精品| 婷婷电影在线观看| 51精品秘密在线观看| 亚洲自拍偷拍精品| 久久a爱视频| 色噜噜狠狠狠综合曰曰曰| 国产在线观看99| 麻豆91在线看| 欧美xxxx黑人又粗又长精品| 免费a级在线播放| 日韩欧美成人网| 午夜性福利视频| 97视频精品| 欧美一级视频在线观看| 99在线无码精品入口| 国产欧美一区二区精品性色超碰| 欧美激情论坛| 欧美hdxxxx| 欧美日韩国产综合草草| 亚洲永久无码7777kkk| 亚洲精品a级片| 国产精品精品久久久| 怡红院男人天堂| 99精品久久免费看蜜臀剧情介绍| 久久久一本精品99久久精品| av观看在线| 亚洲一区二区三区四区中文字幕| 精品成在人线av无码免费看| 国产亚洲人成a在线v网站| 国产视频自拍一区| eeuss中文字幕| 小嫩嫩精品导航| 国产精品亚洲不卡a| av香蕉成人| 欧美一区二区女人| 日韩成人毛片视频| 韩国理伦片一区二区三区在线播放| 亚洲一区中文字幕| 久久久久久国产精品免费无遮挡| 亚洲国产日韩在线一区模特| 丁香啪啪综合成人亚洲| 蜜臀av一区| 国内偷自视频区视频综合| 台湾佬中文在线| 91在线免费视频观看| 亚洲国产精品无码av| 成人台湾亚洲精品一区二区| 久久国产精品久久精品| 国产又黄又爽视频| 亚洲三级久久久| 久久精品亚洲天堂| 亚洲九九视频| 亚洲一区二区自拍| 国产三级视频在线| 欧美性大战久久久久久久| 在线观看日本中文字幕| 日韩电影一区二区三区| 亚洲精品成人a8198a| av不卡高清| 日韩精品在线免费播放| 人妻丰满熟妇av无码区| 国产精品亚洲成人| 欧日韩免费视频| 五月综合久久| 欧美国产极速在线| 人妻与黑人一区二区三区| 午夜精品一区在线观看| 无码人妻aⅴ一区二区三区| 久久精品亚洲人成影院 | 久久99久久久精品欧美| 色伦专区97中文字幕| 国产三级自拍视频| 亚洲国产日日夜夜| 蜜桃av免费看| 久久精品国产99久久6 | 精品国产无码AV| 怡红院av一区二区三区| 黄色录像a级片| 亚洲视频观看| 鲁片一区二区三区| 2020国产在线| 亚洲欧美成人网| 一级特黄aaa大片在线观看| 亚洲精品乱码久久久久久黑人| 久久精品免费网站| 午夜精品视频一区二区三区在线看| 国产成人a亚洲精品| 日本免费在线视频| 亚洲第一精品夜夜躁人人躁 | 亚洲精品视频网| 色综合久久久久久久久久久| 在线观看亚洲大片短视频| 日韩影院精彩在线| 在线观看18视频网站| 久久午夜影院| 91精品久久久久久久久| 草美女在线观看| 亚洲最新在线视频| 色呦呦中文字幕| 欧美精品aⅴ在线视频| 亚欧洲精品在线视频| 欧美激情一区二区三区| 校园春色 亚洲色图| 凹凸成人精品亚洲精品密奴| 91久久爱成人| av在线加勒比| 久久精品国产亚洲精品| 国产免费福利视频| 色综合天天性综合| 久久久美女视频| 国产精品久久久久一区二区三区共 | 久久久无码人妻精品无码| 久久久久欧美精品| av在线播放亚洲| 亚洲精品久久| 日韩精品欧美一区二区三区| 久久影视三级福利片| 91视频婷婷| 日韩午夜电影免费看| 奇米影视亚洲狠狠色| 成人免费高清观看| 好久没做在线观看| 一区二区三区中文在线观看| 无码一区二区三区在线| 丁香网亚洲国际| 亚洲18在线看污www麻豆| 91亚洲一区| 日韩精品久久久| 成人av在线播放| 国产精品九九九| 污影院在线观看| 美女999久久久精品视频| av在线中文| 亚洲美女av在线播放| 六月婷婷综合网| 精品美女被调教视频大全网站| 久久狠狠高潮亚洲精品| 亚洲国产一区二区三区| 国产女人被狂躁到高潮小说| 99久久精品国产观看| 中国黄色片视频| 成人一级片网址| 稀缺呦国内精品呦| 成人精品视频一区二区三区尤物| 免费男同深夜夜行网站| 国产毛片久久| 国产精品丝袜久久久久久消防器材| 欧美激情黄色片| 亚洲成色最大综合在线| 欧美日韩中字| 一道精品一区二区三区| 成人在线免费小视频| 亚洲三区四区| 一区二区中文字| 国产九色porny| 性欧美xxxx大乳国产app| 久久久久久久久久久福利| 噜噜噜在线观看免费视频日韩| 91网站在线观看免费| 不卡在线一区| 中文字幕99| 欧美日韩天堂| 97成人在线免费视频| 老鸭窝91久久精品色噜噜导演| 久久久天堂国产精品| 亚洲黄色成人| 男人舔女人下面高潮视频| 在线成人欧美| 亚洲熟妇av一区二区三区| 久色婷婷小香蕉久久| 奇米777在线| av欧美精品.com| 亚洲一区视频在线播放| 1024亚洲合集| 日本一区二区欧美| 色婷婷久久久综合中文字幕 | 999国产精品999久久久久久| 一区二区91美女张开腿让人桶| 欧美人与牛zoz0性行为| 97操在线视频| 欧美一级二级三级视频| 日日骚一区二区网站| 91成人精品| 欧美牲交a欧美牲交| 欧美aⅴ一区二区三区视频| 妓院一钑片免看黄大片| 国产毛片精品视频| 亚洲色图偷拍视频| 91丝袜高跟美女视频| 国精产品视频一二二区| 国产精品嫩草99a| 久久久国产成人| 在线观看亚洲一区| 丰满人妻一区二区三区无码av | 国内爆初菊对白视频| 日韩免费福利电影在线观看| 天天影院图片亚洲| 日韩有码在线观看| 伊人久久国产| 日本久久久久久| 青草伊人久久| 日韩精品一区二区三区丰满| 国内自拍一区| 欧美成人福利在线观看| 久久国产尿小便嘘嘘| 国产xxxxxxxxx| 久久综合色8888| 欧美日韩在线国产| 欧美三级资源在线| 日韩av高清在线| 欧美老女人性视频| 欧美一级免费| 日韩av影视| 亚洲欧美日本视频在线观看| 中文字幕第66页| 日本一区二区三区国色天香 | 欧美黄网免费在线观看| 成人黄色图片网站| 欧洲成人一区二区| 国产偷自视频区视频一区二区| 男人插女人下面免费视频| 成人动漫在线一区| 亚洲色婷婷一区二区三区| 欧美日韩黄色影视| av在线资源站| 国产精品欧美激情在线播放| 亚洲裸色大胆大尺寸艺术写真| 日韩一区二区三区高清| 欧美一区二区三区久久精品| 久久亚洲中文字幕无码| 国产成人精品影视| 私库av在线播放| 91精品国产麻豆| 天堂成人在线| 精品国产欧美成人夜夜嗨| 欧美va在线观看| 日本一区二区三区在线视频 | 久久99精品久久久久久青青91| 97人人在线视频| 国产精品久久久久久av福利| 香蕉国产成人午夜av影院| 成年人看的毛片| www.亚洲色图| 中日韩黄色大片| 国产视频精品在线| 性欧美18一19sex性欧美| 欧美精品在线一区| 日本亚洲最大的色成网站www| 一区二区在线免费观看视频| 久久毛片高清国产| 人人爽人人爽人人片av| 日韩电影大片中文字幕| 黄在线免费观看| 成人黄色av播放免费| 亚洲91中文字幕无线码三区| 亚洲一区二区偷拍| 一区二区三区毛片| 日本毛片在线观看| 欧美重口另类videos人妖| 精品免费一区二区| 午夜国产福利在线观看| 亚洲女同女同女同女同女同69| 二区视频在线观看| 亚洲欧洲在线视频| 91探花在线观看| 久久综合九色综合久99| 欧美午夜电影在线观看| 欧美极品jizzhd欧美仙踪林| 精品美女久久久久久免费| 99久久亚洲精品日本无码| 亚洲性夜色噜噜噜7777| 国产精品99| 久久艹国产精品| 久久久www免费人成精品| 亚洲天堂网在线视频| 欧美激情视频网址| 久久av资源| 欧美一级xxxx| 午夜国产精品影院在线观看| 国产小视频在线观看| 成人欧美一区二区三区在线湿哒哒| 国产亚洲电影| 三日本三级少妇三级99| 中文字幕一区二区三区在线不卡| 中文字幕黄色片| 欧美成人免费va影院高清| 台湾色综合娱乐中文网| 亚洲欧美自拍另类日韩| 亚洲无人区一区| 国产二区在线播放| 国产精品久久久久久久免费大片 | 国产精品调教| 美女网站视频黄色| 亚洲尤物视频在线| 草草影院在线观看| 黑人另类av| 亚洲欧美激情诱惑| 欧美极品aaaaabbbbb| 日韩一级大片在线| 精品肉辣文txt下载| www.xxx麻豆|