精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM推理性能受輸出格式影響,JSON最嚴重

人工智能 新聞
這是臺灣大學和Appier AI Research新研究中的一幕,他們發現——格式限制這玩意兒會降低LLMs的推理能力,且限制越嚴推理越差。

輸出格式不同,竟然還能影響大模型發揮?!

兩種提示下讓大語言模型(LLMs)解同一道數學題,問題如下:

Eliza每周工作的前40小時,每小時的工資是10美元,加班費每小時x1.2。如果Eliza這周工作了45小時,她這周的收入是多少?

思維鏈prompt:“按照以下格式提供輸出,逐步推理:…回答:最終答案是…”。

格式限制prompt:“按照以下有效的JSON格式提供輸出:…(具體JSON格式見圖)“。

正確答案是460,可以看出,思維鏈(讓模型一步步思考)奏效,格式限制(“以JSON格式輸出”)卻失敗了!!

圖片

這是臺灣大學和Appier AI Research新研究中的一幕,他們發現——

格式限制這玩意兒會降低LLMs的推理能力,且限制越嚴推理越差。(主打一個叛逆)

不過好消息是,能治。

他們發現,最佳解決方案是搞個“二次轉換”(倒爺是吧),即LLMs首先用自然語言回答問題,然后再將答案轉換為目標格式。

在這個過程中,他們對比了GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash等不同模型在生成不同格式數據時的性能差異,結果又發現

GPT喜歡YAML、Claude喜歡XML、Gemini/Gemma喜歡JSON。(主打各有所愛)

看完研究,有網友點出了它對平衡結構化生成和任務推理的意義:

圖片

格式限制會降低LLMs推理能力

上述研究已發表在arXiv上,論文主要揭示了,在格式限制下,LLMs的推理能力顯著下降,尤其是在JSON模式下。

圖片

一直以來,將LLMs納入工業應用程序的一個主要障礙是它們缺乏對標準化輸出格式的遵守。

一種常見解決方法是結構化生成,即通過格式限制讓LLMs以JSON或XML等標準化格式提供輸出。

不過話說回來,雖然有多種方式可以實現這種限制,但后續影響卻無人研究。(限制是否影響模型性能呢?)

說干就干,研究人員采用3種常見方法來評估不同格式限制對下游性能的影響:

  • JSON-mode:通過預定義的標記空間限制LLMs的輸出
  • FRI:指導LLMs生成符合特定模式的標準化格式響應
  • NL-to-Format:兩步過程,首先用自然語言回答問題,然后轉換為目標格式

對了,還要加上自然語言(NL),它是最不受限的格式,允許模型以自然語言自由地回答問題。

評估對象是GSM8K(包含自然語言環境中的數學問題)和Last Letter Concatenation(最后一個字母連接任務)這兩個需要精確匹配答案的數據集,以及Shuffled Objects(洗牌對象追蹤任務)。

圖片

他們發現,在這些涉及推理的任務中,更寬松的提示通常會得到更好的結果。

同時,JSON模式在大多數情況下表現最差,其次是格式限制指令(FRI),然后是自然語言到格式(NL to Format)轉換,以及自然語言(NL)提示。

研究還發現,不同的LLMs對不同的數據格式表現出不同的偏好。

例如,GPT更喜歡YAML格式,Claude更喜歡XML格式,而Gemini/Gemma則更傾向于JSON格式。

不過,在分類任務中,格式限制可能提高了準確性,因為它減少了可能的答案選擇,從而降低了錯誤率。

圖片

他們進一步總結了格式限制會降低模型推理能力的原因,主要包括:

  • 限制了模型生成必要中間推理步驟的能力。
  • 強制的格式要求可能與模型自然生成答案的方式不兼容。
  • 格式錯誤可能導致即使推理正確,答案也因為格式問題而被判定為錯誤。

好消息:能治

針對這一問題,他們提出了幾種應對之策:

首先,前面提到了JSON模式在大多數情況下表現最差,最后才是自然語言到格式(NL to Format)轉換。

那么反過來說,解決格式限制的最佳方案就成了NL to Format,即LLMs首先用自然語言回答問題,然后再將答案轉換為目標格式。這種方式允許推理與格式遵守分離,從而表現更佳。

此外,結構化輸出中的鍵順序對LLMs的回答方式有重要影響。

例如在使用GPT-3.5 Turbo時,100%的JSON-mode響應錯誤地將“answer” 鍵位于 “reasoning” 之前,這導致模型直接給出答案,而不是展示思考過程。

研究還表明,格式限制導致的解析錯誤不是性能差異的主要原因。

例如,在LLaMA 3 8B模型中,Last Letter任務的JSON格式解析錯誤率僅為0.15%,但與自然語言響應相比,性能差距達到了38.15%。

圖片

而且可以通過糾正提示來減輕這些錯誤,例如對于Claude-3-Haiku模型,在Last Letter任務中,通過糾正步驟,JSON和YAML格式的準確率分別提高了+2.8%和+44.8%。

圖片

以上也意味著,在應用LLMs時,需要在易于解析的格式和保留固有推理能力之間找到平衡點。

最后,研究人員在論文中提醒了:

相比于正則表達式,LLMs作為答案解析器能夠提供更加深入和準確的文本理解,不僅僅局限于表面的模式匹配,而是能夠真正理解答案的含義和上下文。

論文:https://arxiv.org/abs/2408.02442

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-09 13:40:26

2025-09-03 10:02:19

2021-09-17 12:54:05

AI 數據人工智能

2024-11-21 14:00:00

模型AI

2025-04-21 09:07:00

2023-11-30 18:25:57

數據訓練

2025-04-07 09:00:00

數據測試工具

2023-09-10 12:37:38

模型英偉達

2024-12-02 12:37:42

2025-05-29 09:14:17

2024-01-08 13:33:00

數據訓練

2011-06-03 09:37:33

諾基亞Android蘋果

2020-05-29 15:40:40

NVIDIA

2025-10-23 08:50:32

2025-08-04 08:40:00

2019-10-14 09:58:00

機器學習人工智能計算機

2024-08-29 12:58:35

2025-06-04 08:35:00

2025-04-15 09:12:00

模型AI強化學習

2025-03-19 10:10:43

點贊
收藏

51CTO技術棧公眾號

精品1区2区3区4区| 涩涩屋成人免费视频软件| 久久久久综合网| 91精品国产综合久久香蕉的用户体验| 天堂网av2018| 日韩欧美久久| 色婷婷久久久亚洲一区二区三区| 涩涩涩999| 超碰人人人人人人| 亚洲女优在线| 久久人人爽人人爽人人片亚洲| 国产清纯白嫩初高中在线观看性色| 天堂网在线最新版www中文网| 欧美国产精品劲爆| 亚洲综合一区二区不卡| 特级西西444www大精品视频免费看| 精品免费在线| 亚洲成色999久久网站| 免费看污污网站| 国产探花在线观看| 中文字幕欧美日韩一区| 国产精品一区二区a| 欧美成人一区二区视频| 精品白丝av| 日韩亚洲综合在线| 最新版天堂资源在线| 日韩一区二区三区免费视频| 亚洲高清免费在线| 最新av在线免费观看| 九色国产在线观看| 成人免费观看av| 成人精品一区二区三区电影黑人| 欧美性猛交bbbbb精品| 国产一区二区三区四区三区四 | 欧洲美女免费图片一区| 少妇被躁爽到高潮无码文| 精品欧美久久| 精品亚洲一区二区三区在线观看| 91av免费观看| 日本一区二区三区中文字幕| 91成人在线精品| 免费无码不卡视频在线观看| 激情图片在线观看高清国产| 亚洲色图在线播放| 制服国产精品| 黄色网在线播放| 欧美激情资源网| 欧美日韩电影一区二区三区| 神马久久久久久久久久| 国产成人日日夜夜| 深夜福利在线观看直播| 国产大学生校花援交在线播放| 国产一区二区三区久久悠悠色av| 国产成人av网址| 黄色一级片免费看| 合欧美一区二区三区| 欧美成人h版在线观看| 黄色精品视频在线观看| 日韩欧美自拍| www国产精品com| 殴美一级黄色片| 日韩精品免费| xx视频.9999.com| 日本美女黄色一级片| 日韩精品午夜| 爱福利视频一区| 小泽玛利亚一区二区免费| 91久久久精品国产| 久久亚洲精品视频| 欧美亚洲日本在线| 亚洲手机在线| 午夜精品久久久久久99热软件| 国产第100页| 亚洲区国产区| 国产999精品视频| 精品一区二区无码| 美女www一区二区| 成人黄色免费网站在线观看| www.久久久久久久久久| 大胆亚洲人体视频| 久久99精品久久久久子伦| 日本五码在线| 中文字幕在线一区免费| 亚洲区成人777777精品| heyzo一区| 欧美午夜精品久久久久久人妖| 99精品人妻少妇一区二区| 欧美亚洲韩国| 91精品免费观看| 9.1在线观看免费| 影视先锋久久| 久久国内精品一国内精品| 青青草手机视频在线观看| 欧美日韩综合| 日韩免费观看视频| 99er热精品视频| 成人网页在线观看| 久久久综合香蕉尹人综合网| 91青青在线视频| 亚洲黄色尤物视频| 99爱视频在线| 91成人app| 亚洲黄色在线看| 永久免费观看片现看| 极品中文字幕一区| 国产精品久久久久久久久久久久| www.国产欧美| 国产亚洲综合性久久久影院| 精品91一区二区三区| 国产v日韩v欧美v| 欧美日韩国产高清一区二区| 亚洲高清无码久久| 久久福利影院| 欧美伊久线香蕉线新在线| 91久久久久久久久久久久| a级高清视频欧美日韩| 亚洲美女搞黄| 中文字幕 在线观看| 日韩一本二本av| 久久久久久久久久久久久久久| 欧美精品网站| 国产精品电影观看| 凸凹人妻人人澡人人添| 亚洲精品久久7777| 亚洲第一狼人区| 无码少妇一区二区三区| 欧美大片第1页| 夜夜狠狠擅视频| 久久一二三国产| www.成年人视频| 精品午夜av| 最近2019免费中文字幕视频三| 国产精品久久久久久久久久久久久久久久久 | 国产免费拔擦拔擦8x在线播放| 欧美精品自拍偷拍| 久久久久久久毛片| 午夜亚洲精品| 极品尤物一区二区三区| 深夜国产在线播放| 666欧美在线视频| 日本视频在线免费| 日本视频一区二区| 久久久久久久久久久久久久久久av | 91精品店在线| 亚洲欧美精品在线| 亚洲日本韩国在线| 99久久精品免费精品国产| 屁屁影院ccyy国产第一页| 精品国产伦一区二区三区观看说明| 一本色道久久88精品综合| 日韩手机在线视频| 91免费观看视频在线| 国产免费黄视频| 亚洲成在人线免费观看| 日本精品性网站在线观看| 亚洲欧美日韩精品永久在线| 欧美日韩裸体免费视频| 成人免费无码大片a毛片| 亚洲精品系列| 欧美日韩一区二区三区在线观看免| 国产免费拔擦拔擦8x在线播放 | 亚洲av人人澡人人爽人人夜夜| 欧美激情aⅴ一区二区三区| 亚洲综合中文字幕在线| 亚洲小说区图片| 精品99一区二区| 久草手机在线观看| 国产视频亚洲色图| 成人亚洲精品777777大片| 亚洲成人国产| yy111111少妇影院日韩夜片 | 少妇高潮久久久| 精品久久久一区二区| 在线免费观看黄色小视频| 免费一区视频| 伊人久久大香线蕉综合75| 2019中文亚洲字幕| 国精产品一区一区三区有限在线| 天天干天天插天天操| 在线观看91视频| 日本中文字幕免费在线观看| 丁香五精品蜜臀久久久久99网站| 日本日本19xxxⅹhd乱影响| 国产成人影院| 亚洲一区二区久久久久久| 欧美日韩在线视频免费观看| 亚洲男人天天操| 国产精品视频一二区| 亚洲成人免费影院| 国产又黄又粗视频| 国产成人免费av在线| 欧美日韩亚洲一二三| 一区二区三区午夜视频| 精品午夜一区二区三区| 91国拍精品国产粉嫩亚洲一区| 欧美国产在线电影| 国产美女性感在线观看懂色av| 欧美电影影音先锋| 中国一级免费毛片| 亚洲欧洲在线观看av| 国产美女视频免费观看下载软件| 日韩精品每日更新| 浴室偷拍美女洗澡456在线| 欧美人妖在线| 99re在线视频上| 九九热线视频只有这里最精品| 久久亚洲精品一区二区| 免费资源在线观看| 欧美一区二区人人喊爽| 亚洲 日本 欧美 中文幕| 一级女性全黄久久生活片免费| 亚洲成人黄色av| 不卡的av网站| 黄色一级片免费播放| 天堂va蜜桃一区二区三区漫画版| 久久久久久久久久久综合| 日韩在线第七页| 久久久久久亚洲精品不卡4k岛国 | 国产美女av在线| 亚洲欧美日韩天堂| 亚洲av无码乱码国产麻豆| 欧美日韩一区二区三区在线看| 日本熟妇乱子伦xxxx| 亚洲欧美另类久久久精品2019| 日韩丰满少妇无码内射| av电影一区二区| 日本黄色大片在线观看| 精久久久久久久久久久| 欧美日韩亚洲自拍| 国产农村妇女精品一区二区| 日韩精品在线中文字幕| 欧美99久久| 法国空姐在线观看免费| 日韩精品第一区| 色一情一区二区三区四区 | 青青草免费av| 中文字幕一区二区日韩精品绯色| 91激情视频在线观看| 久久久久久日产精品| 亚洲啪av永久无码精品放毛片| 国产乱国产乱300精品| 婷婷激情小说网| 久久国产乱子精品免费女| 久久精品网站视频| 性色一区二区| 116极品美女午夜一级| 日韩一级网站| 欧美日韩成人免费视频| 99视频+国产日韩欧美| 精品久久一二三| 在线亚洲精品| 人妻内射一区二区在线视频| 亚洲免费在线| 欧美一级黄色影院| 天堂午夜影视日韩欧美一区二区| 女性隐私黄www网站视频| 久久久一二三| 三级在线视频观看| 美女性感视频久久| www.污污视频| 国产精品一区二区x88av| 国产无套精品一区二区三区| 成人免费高清在线观看| 国产激情第一页| 久久欧美一区二区| 好吊视频在线观看| 欧美在线一级片| 久久久久久久性| 亚洲一二三四五六区| 亚洲精品va在线观看| 日韩免费一二三区| 色综合久久久久综合| 中文字幕人妻精品一区| 欧美丰满美乳xxx高潮www| 亚洲黄色在线播放| 日韩精品久久久久久福利| 国产在线观看网站| 欧美不卡视频一区发布| 成人超碰在线| 国产成人精品综合| 亚洲午夜国产成人| 国产一区二区免费电影| 狠狠色狠狠色综合婷婷tag| 中文字幕精品—区二区日日骚| 欧美精品九九| 国产v亚洲v天堂无码久久久| 国内精品写真在线观看| www国产视频| 中文字幕av免费专区久久| 九九热精品免费视频| 色综合激情五月| a天堂在线视频| 亚洲美女www午夜| 好操啊在线观看免费视频| 77777少妇光屁股久久一区| 成人国产一区| 国产综合欧美在线看| 91视频久久| 欧美精品99久久| 国模娜娜一区二区三区| 亚洲av成人片色在线观看高潮| 国产精品久久久久一区| 国产成人精品a视频一区| 欧美日韩一区二区三区高清| 欧美一级视频免费| 色婷婷久久一区二区| 成人黄色动漫| 亚洲综合第一页| 日韩av密桃| 18禁男女爽爽爽午夜网站免费| 精品一区二区三区视频在线观看| 国产chinese中国hdxxxx| 亚洲视频一区二区在线| 久久国产香蕉视频| 日韩av一卡二卡| av片在线观看免费| 国产精品欧美日韩| 亚洲另类av| 欧美深夜福利视频| 国产乱人伦偷精品视频免下载 | 亚洲蜜臀av乱码久久精品| 天天干,天天干| 日韩av在线最新| 日本一本在线免费福利| 成人妇女淫片aaaa视频| 国产精品免费99久久久| 国内外成人免费激情视频| 丰满少妇久久久久久久| 久久精品一区二区三区四区五区| 欧美影院午夜播放| 精品无人乱码| 欧洲成人性视频| 日韩a级大片| 18禁网站免费无遮挡无码中文| 国产精品99久久久久久似苏梦涵| 黄色一级片一级片| 欧美三日本三级三级在线播放| 毛片免费在线播放| 日韩av大片在线| 天海翼亚洲一区二区三区| 免费拍拍拍网站| 丁香另类激情小说| 国产一级特黄a高潮片| 精品国内二区三区| 超碰中文在线| 国产视频一区二区不卡| 在线欧美不卡| 中文文字幕文字幕高清| 亚洲成av人片| 污视频网站免费观看| 91sao在线观看国产| 欧美精品中文| 欧美一级片中文字幕| 国产婷婷一区二区| 在线观看中文字幕网站| 色噜噜狠狠色综合网图区| 91精品视频一区二区| 中国一级黄色录像| 国产精品88av| 国产香蕉在线视频| 日韩毛片中文字幕| 国产综合av| 亚洲欧美精品在线观看| 激情五月播播久久久精品| 极品久久久久久| 欧美www视频| 三级中文字幕在线观看| 日本一区二区视频| 久久精品久久综合| 欧美偷拍第一页| 亚洲激情视频网站| 校园春色亚洲色图| 性做爰过程免费播放| 成年人网站91| 自拍偷拍18p| 久久国产精品99国产精| 成人自拍在线| 青青视频在线播放| 国产精品你懂的| 亚洲产国偷v产偷v自拍涩爱| 91av在线播放| 人人狠狠综合久久亚洲婷婷| 一级黄色大片儿| 疯狂做受xxxx高潮欧美日本| 国产精品久久一区二区三区不卡 | 久久精品免费一区二区| 中日韩av电影| 风流少妇一区二区三区91| 热久久99这里有精品| 亚洲成人99| 一区二区黄色片| 欧美一级精品在线| 在线精品亚洲欧美日韩国产| 天天综合中文字幕| 91亚洲国产成人精品一区二三| 亚洲国产无线乱码在线观看| 欧美美女15p| av永久不卡| 久久一区二区电影| 欧美一区二区三区喷汁尤物|