精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o1帶火的CoT到底行不行?新論文引發了論戰

人工智能 新聞
對于許多數據集和模型而言,僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規劃+ CoT 求解器是實現強大性能所必需的。

OpenAI ο1 的誕生極大地提升了人們對 LLM 推理能力和思維鏈(CoT)的興趣。一時之間,似乎思維鏈很快就會成為所有 LLM 的標配,但思維鏈并非萬能,就連 OpenAI 自己也提到 o1 在某些任務上的表現并不比 GPT-4o 強,尤其是以語言為中心的任務。

近日,一篇來自德克薩斯大學奧斯汀分校、約翰·霍普金斯大學和普林斯頓大學的論文引發了熱議,其模仿莎士比亞《哈姆雷特》的臺詞提出了一個對 AI 研究者和實踐者來說至關重要的問題:To CoT or not to CoT?

圖片

論文標題:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

論文地址:https://arxiv.org/pdf/2409.12183

GitHub 庫:https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)

簡單來說,這篇論文研究了思維鏈(CoT)技術幫助 LLM 解決各式問題的有效性。

首先,該團隊分析了近期的相關文獻,比較了 CoT 與直接回答方法(DA)的性能表現。

之后,他們使用 20 個數據集和 14 個當今主流的 LLM 在零樣本提示和少樣本提示設置下進行了實驗。

圖 1 簡單總結了這兩項研究的結果。

圖片

結果表明,CoT 能極大助益 LLM 解決涉及數學和符號推理的任務,至于其它任務,CoT 的效果并不顯著甚至可能有損模型性能。

另一個發現是 CoT 能幫助提升執行計算和符號操作的執行步驟,但卻比不上能使用外部工具的 LLM。這是什么意思呢?該團隊發現,相比于使用直接回答方法,使用 CoT 時 LLM 能更好地生成可執行的形式化方案規劃;但如果使用語言模型來生成方案規劃,然后再使用外部符號解算器來求解該規劃,性能表現還會更好一些。

這樣的結果忽然讓 CoT 的處境變得有點尷尬:在 CoT 有用的問題上,我們能使用外部工具做得更好;在另一些問題上,CoT 的能力又有限。

因此,該團隊認為:「第一,很多廣泛使用 CoT 解決的問題其實根本沒必要使用 CoT:現在已有更高效方法,能以遠遠更低的推理成本取得相近的性能。第二,基于提示詞的 CoT 不夠用了,我們看到人們迫切地需要更復雜精妙的方法,比如基于搜索、交互式智能體或針對 CoT 進行過更好微調的模型的方法。」

文獻研究

首先,該團隊調研了近期的相關文獻,比較了使用或不用 CoT 的提示詞的效果。

具體指標和流程這里就不多介紹了。總之,他們從 110 篇論文(35 篇 ICLR 論文和 75 篇 NAACL 和 EACL 論文)中整理出了 1218 個實驗結果,涉及 264 個數據集。之后,他們將這些相關任務分成了 14 類,表 1 展示了其中幾類的定義。

圖片

文獻研究結果

圖 2 展示了 CoT 為不同類型的任務帶來的性能增量,即使用 CoT 提示法取得的性能減去使用直接回答法取得的性能。

圖片

可以看到,在這些任務上,CoT 平均僅能帶來 3.75% 的提升。其中 CoT 帶來增益最大的三類任務分別是:符號推理、數學、邏輯推理。在這三個任務上,CoT 實現的平均性能為 56.9,而不使用 CoT 的表現為 45.5。而在其它任務上表現較好的個例(圖中用黃色高亮標記出了 10 個),也或多或少與這三個任務有關。

但在其它任務上,CoT 的表現就沒什么亮點了,平均成績僅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。該團隊認為,這一點點提升甚至不能算作是提升,畢竟 CoT 的計算成本明顯更高。

實驗研究

除了研究近期文獻,該團隊也執行了實驗,其中涉及到 20 個數據集和 14 個模型,并測試了零樣本提示和少樣本提示兩種設置,見表 2。

圖片

實驗研究結果

下面我們通過對一系列問題的解答來了解實驗結果。

1.在哪些任務上,零樣本 CoT 優于直接提示?

圖 3 左展示了 CoT 在五個推理類別(見圖 1 右)上帶來的平均性能增益;圖 3 右則是 CoT 在每個數據集上帶來的平均性能增益。

圖片

可以看到,在非符號推理類別和數據集上,特別是那些主要包含常識(CSQA、PIQA、SiQA)、語言理解(WinoGrande)和閱讀理解(AGI LSAT、ARC-Easy、ARC-Challenge)的問題上,零樣本 CoT 和零樣本直接回答的性能幾乎沒有區別。盡管這些數據集涉及推理,但 CoT 并沒有帶來增益。

相比之下,數學和符號類別(以及符號和半符號數據集)獲得了更大的提升。CoT 在 MATH 和 GSM8k 上帶來的增益分別高達 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符號數據集上,CoT 表現出了中等程度的增益。這些數據集需要應用邏輯規則才能得出答案,例如從簡單的自然語言(ContextHub)或更復雜的常識性陳述(MuSR Murder Mysteries)中解析得到的一階邏輯。

在少樣本設置下得到的實驗結果類似。

2.回答格式是否會影響 CoT 的有用性?

除了數學之外,許多常用的數據集都是多項選擇題。該團隊指出,對于兩個非多項選擇題的數據集(MuSiQue 和 BiGGen Bench,并且它們需要不同層級的非符號推理才能給出回答),CoT 的表現與直接回答相近。

因此,可以說回答格式對 CoT 的有用性的影響不大。并且,該團隊還表示,預先針對正確響應進行規劃或推理甚至可能妨礙 LLM 自由響應的能力。

3.CoT 在知識、軟推理和常識推理方面帶來的提升是否顯著?

在 13 個涉及知識、軟推理和常識推理的數據集上,該團隊測試了 CoT 的表現,結果發現:答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在這三個數據集上,CoT 可以帶來比較顯著的增益。

詳細研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是兩個范圍廣泛的數據集,因此很難簡單地描述它們的特征。該團隊詳細研究了 CoT 在 MMLU 中每個類別上的性能表現,以了解 CoT 在不同領域的性能差異。

表 3 給出了 CoT 能為 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上帶來最顯著提升的三個類別。

圖片

可以看到,其中一些與數學有關,這不出人意料,但也有的屬于「商業」等類別。不過更進一步研究發現,這些類別通常也涉及數學(比如資產計算等)。

因此,該團隊對 MMLU 進行了更細粒度的研究(實例級)。他們發現問題或生成的響應中是否包含 = 這個符號非常關鍵,可以說是「符號推理的一個強有力的標志」。結果見圖 4。

圖片

可以看到,當有 = 時,CoT 在 MMLU 和 MMLU Pro 上的表現明顯會更好。該團隊認為這是因為 = 通常出現在數學問題中。所以歸根結底,CoT 依然是能在數學問題上為 MMLU 和 MMLU Pro 帶來助益。

CoT 在形式推理方面的優勢和劣勢

下面來解釋 CoT 有助于符號推理任務的原因。很多符號和半符號推理任務都可以分成兩個階段:規劃與執行。該團隊也基于此思路進行了分析。

設置 1 和 2:少樣本直接回答和 CoT:使用之前的少樣本直接回答和 CoT 作為基線。圖 5 給出了在 GSM8K 上每個設置的示例。

圖片

設置 3 和 4:規劃 + 直接求解器以及計劃 + CoT 求解器。

設置 5:規劃+工具求解器。

評估結果

圖 6 展示了選出的代表性模型的結果。

圖片

可以看到,對于許多數據集和模型而言,僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規劃+ CoT 求解器是實現強大性能所必需的。使用其中一種方法跟蹤執行情況可帶來最大的準確性優勢,尤其是對于含有大量數學內容的數據集。

盡管 CoT 或規劃+ CoT 求解器比直接回答和規劃+直接回答更強,但規劃+工具求解器在大多數情況下還要更優。也就是說,很多時候,使用 CoT 還不如讓 LLM 使用工具。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-05-01 20:52:40

2019-10-25 15:45:00

Linux操作系統Windows

2020-09-10 17:22:15

機器人人工智能系統

2024-10-12 13:51:22

2011-04-21 11:47:21

P2000P105

2024-09-23 09:20:00

2024-09-20 15:35:33

2018-09-27 13:56:22

iPhone XS信號手機

2021-01-27 07:33:11

手機充電快充芯片

2024-11-07 15:40:00

2025-01-28 00:00:00

OOMSpringCglib

2024-09-24 11:01:03

2014-06-10 11:21:07

技術侮辱技術

2025-01-20 09:28:00

AI工具模型

2024-10-05 00:00:00

2024-09-19 18:03:31

2025-04-29 09:06:00

2025-01-08 13:08:55

點贊
收藏

51CTO技術棧公眾號

久久精品亚洲国产奇米99| 狠狠入ady亚洲精品经典电影| 色综合色综合色综合色综合色综合| 免费成人在线观看av| 中文字幕91爱爱| 久久久久久免费视频| 亚洲成色777777在线观看影院| 18禁免费无码无遮挡不卡网站| av在线免费播放网站| 国产福利91精品一区二区三区| 欧美亚洲国产视频| 日本成人精品视频| 欧美亚洲大陆| 6080yy午夜一二三区久久| 福利视频一二区| 天堂中文8资源在线8| 成人av电影在线观看| 国产精品网址在线| 91精品国产综合久久久蜜臀九色 | 欧美精品日韩一区| 91免费黄视频| 欧美a免费在线| 久久在线观看免费| 粉嫩av一区二区三区免费观看| 波多野结衣一二区| 亚洲精品社区| 欧美精品一区二区三区国产精品 | 亚洲桃色综合影院| 日韩女优av电影在线观看| 亚洲美免无码中文字幕在线| 色av性av丰满av| 亚洲精品久久久| 亚洲色无码播放| 亚洲香蕉中文网| 91精品国产色综合久久不卡粉嫩| 欧美午夜性色大片在线观看| 日本精品福利视频| 日韩av中文| 国产日韩精品一区| 麻豆一区区三区四区产品精品蜜桃| 国产黄色片av| 国精品**一区二区三区在线蜜桃 | 一本一道久久久a久久久精品91| 污视频在线免费| 岛国一区二区在线观看| 亚洲一区二区三区四区视频| 中文字幕一区二区三区四区免费看 | 久久不射热爱视频精品| a级黄色免费视频| 国产精品欧美三级在线观看| 亚洲欧美一区二区三区情侣bbw| 亚洲中文字幕无码一区| 一区二区中文字幕在线观看| 欧美一区二区三区四区视频| 亚洲欧美日韩综合网| 欧美一级二级视频| 欧美色窝79yyyycom| 北条麻妃在线视频| free欧美| 欧美三级欧美一级| 老司机午夜性大片| 欧美专区一区| 欧美精品一区二区精品网| 中文在线观看免费视频| 欧美自拍一区| 亚洲视频网站在线观看| 日韩视频在线观看免费视频| 日韩国产专区| 不卡av电影院| 日韩免费黄色片| 久久成人在线| 国产精品午夜国产小视频| 一级黄色片在线看| 国产乱码字幕精品高清av| 国产精品国产精品| 天堂成人在线| 国产精品视频线看| 日本一二三区视频在线| a'aaa级片在线观看| 欧美视频国产精品| 亚洲成人福利在线| 一区二区三区在线资源| 亚洲乱码国产乱码精品精| 女女互磨互喷水高潮les呻吟| 日韩欧美高清| 欧美夫妻性生活视频| 男人天堂中文字幕| 日本伊人精品一区二区三区观看方式| 国产日产欧美a一级在线| 国产成人精品一区二区无码呦| www.日韩大片| 日本在线成人一区二区| 69成人在线| 色综合天天综合狠狠| 欧美精品 - 色网| 老司机精品视频在线播放| 中文字幕精品一区二区精品| 清纯粉嫩极品夜夜嗨av| 日韩国产在线一| 91成人免费观看| 久久电影中文字幕| 一区二区三区波多野结衣在线观看| 国产综合av在线| 亚洲日韩中文字幕一区| 日韩欧美中文一区二区| 特级西西www444人体聚色| 欧美/亚洲一区| 国产精品成人观看视频国产奇米| 国产超碰人人模人人爽人人添| 久久综合九色综合久久久精品综合| 欧美爱爱视频网站| 欧美一级大片| 欧美精品一区在线观看| 国产乱子轮xxx农村| 亚洲免费网址| 国产麻豆日韩| 午夜小视频在线观看| 欧洲av在线精品| 怡红院一区二区| 偷拍欧美精品| 国产经典一区二区| 色综合免费视频| 亚洲欧美激情视频在线观看一区二区三区| 草草久久久无码国产专区| 日韩在线精品强乱中文字幕| 在线激情影院一区| 久久久精品福利| 国产成人免费在线观看| 亚洲日本精品| 你懂得影院夜精品a| 日韩av在线资源| 国产在线一区视频| 国产成人精品一区二| 亚洲一区二区三区在线观看视频| 吉吉日韩欧美| 亚洲精品www久久久| 久久免费少妇高潮99精品| 精品一区二区三区免费毛片爱| 欧美日韩另类丝袜其他| 国模冰冰炮一区二区| 亚洲第一网站男人都懂| 欧美成欧美va| 国产成a人亚洲精| 在线观看三级网站| 91精品福利观看| www.日韩视频| 97在线公开视频| 中文字幕一区二区三区在线不卡| 无限资源日本好片| 久久一区二区三区电影| 国产日产欧美精品| 成人video亚洲精品| 7777精品伊人久久久大香线蕉经典版下载| 538精品视频| 麻豆精品国产传媒mv男同| 亚洲va韩国va欧美va精四季| 国产a亚洲精品| 中文字幕亚洲欧美日韩高清| 伊人22222| 中文字幕亚洲在| 三级黄色片免费看| 国产中文一区| 国产一区二区免费电影| 成人黄色动漫| 亚洲日本aⅴ片在线观看香蕉| 免费无码国产精品| 国产精品卡一卡二卡三| 日本网站在线看| 国产精品mm| 久久精品中文字幕一区二区三区| 东京一区二区| 一区国产精品视频| 一区二区三区黄| 亚洲乱码精品一二三四区日韩在线| 韩国三级丰满少妇高潮| 亚洲午夜视频| 欧美日韩一区二区三区在线观看免| 日韩美女在线看免费观看| x99av成人免费| 欧美一区二区三区激情| 色乱码一区二区三区88| 久久精品在线观看视频| 北条麻妃一区二区三区| 成人免费观看毛片| 亚洲成人精品| 好看的日韩精品视频在线| 亚洲播播91| 久久在线精品视频| 亚洲色图欧美视频| 欧美日韩一区二区在线观看 | 午夜激情一区二区| 日本精品在线观看视频| 国产麻豆视频一区| 久久久久久久久久久久久国产精品| 日韩精品dvd| 国产精品一区二区不卡视频| 亚洲不卡系列| 久久久久久久国产| 自拍视频在线| 亚洲国产欧美在线成人app| 亚洲一区二区三区网站| 黄色成人av在线| 老熟妇高潮一区二区三区| 91女人视频在线观看| 91精品国产三级| 日韩中文字幕麻豆| 欧美成人高潮一二区在线看| 久久综合成人| 欧美日韩天天操| 麻豆久久一区| 国产男人精品视频| 中文字幕 在线观看| 欧美老少配视频| av在线资源站| 亚洲小视频在线| 婷婷色在线观看| 欧美一级久久久| 一本一道人人妻人人妻αv| 欧美日韩中文字幕在线| 免费视频一二三区| 亚洲视频1区2区| 欧美午夜激情影院| 久久久噜噜噜久久中文字幕色伊伊 | 成人精品视频在线播放| 亚洲电影在线一区二区三区| 任我爽在线视频精品一| 欧美一区二区三区红桃小说| 国产精品亚洲综合| 亚洲一区二区电影| 亚洲在线免费视频| 亚洲高清影院| 国产精品一区二区电影| 日本.亚洲电影| 国产精品草莓在线免费观看| 久久久男人天堂| 国内精品小视频在线观看| 丝袜国产在线| 久操成人在线视频| h网站久久久| 欧美不卡视频一区发布| av在线影院| 美女撒尿一区二区三区| av片哪里在线观看| 美女少妇精品视频| 在线观看电影av| 欧美极品少妇xxxxⅹ喷水| 黄色在线看片| 国色天香2019中文字幕在线观看| 蜜臀av国内免费精品久久久夜夜| 欧美日本高清一区| 免费毛片在线看片免费丝瓜视频| 九九视频直播综合网| 国产精品69xx| 68精品国产免费久久久久久婷婷| 福利影院在线看| 欧美在线亚洲一区| 欧美日韩美女| 国产精品你懂得| 2019中文亚洲字幕| 亚洲va欧美va国产综合剧情| 日韩一级淫片| 精品国产91亚洲一区二区三区www| 欧美成人基地| 欧美精品一区二区三区在线看午夜 | 三级在线看中文字幕完整版| 国产精品99久久久久久白浆小说| 成人在线观看免费播放| 亚洲aⅴ男人的天堂在线观看| 豆花视频一区二区| 欧美日韩在线观看一区| 日韩毛片视频| 亚洲视频欧美在线| 欧美日韩精品免费观看视频完整| 免费国产a级片| 免费在线观看一区二区三区| 亚洲黄色av片| 成人福利在线看| 久久久久久久久久久久| 国产精品白丝在线| 国产精品美女毛片真酒店| 色成年激情久久综合| 97精品人妻一区二区三区香蕉| 欧美videos中文字幕| 黄色大片在线免费观看| 久久成人精品电影| 天堂中文在线播放| 国产一区二中文字幕在线看| 国产精品videossex| 亚洲精品一区二区三区av| 欧美日韩伊人| 成年人小视频网站| 国产成人精品www牛牛影视| 好吊日免费视频| 亚洲久本草在线中文字幕| 毛片在线免费视频| 这里只有精品电影| 欧美日韩影视| 久久国产精品视频| 欧美特黄aaaaaaaa大片| av成人观看| 日本久久精品| 免费看一级大黄情大片| 黄色日韩网站视频| aaaaa一级片| 亚洲最新视频在线观看| 中文字幕av免费观看| 日韩电影中文 亚洲精品乱码| 色综合久久影院| 国产91av在线| 粉嫩一区二区三区四区公司1| 在线视频亚洲自拍| 久久成人国产| 任你躁av一区二区三区| **欧美大码日韩| 国产裸体美女永久免费无遮挡| 亚洲大胆人体视频| av网址在线免费观看| 国产精品久久久av久久久| 欧美激情网址| 日韩不卡一二区| 另类小说综合欧美亚洲| 成人激情五月天| 日韩欧美在线国产| 天堂网在线播放| 欧美激情影音先锋| 午夜精品在线| 好色先生视频污| 久久99精品久久只有精品| 中文字幕被公侵犯的漂亮人妻| 亚洲国产精品一区二区久久| 国产伦理吴梦梦伦理| 丝袜美腿亚洲一区二区| 精品网站在线| 亚洲国产午夜伦理片大全在线观看网站| 一本不卡影院| 欧洲一级黄色片| 午夜伦欧美伦电影理论片| 男人天堂手机在线观看| 色综合天天狠天天透天天伊人| **国产精品| 日本道在线视频| 国产成人午夜片在线观看高清观看| 日韩av手机在线免费观看| 欧美福利视频一区| 欧美三级理伦电影| 91九色单男在线观看| 天天久久综合| 国产人妻精品久久久久野外| 亚洲欧美日韩中文播放| xxxwww在线观看| 欧美国产日韩免费| 人妖一区二区三区| 久久久免费视频网站| 国产日韩在线不卡| 中文字幕在线观看国产| 久久精品91久久香蕉加勒比 | 日韩精品专区在线影院重磅| 午夜在线激情影院| 黄色小网站91| 狂野欧美性猛交xxxx巴西| 成人无码av片在线观看| 欧美日韩视频在线第一区| 国产精品va在线观看视色| 成人免费在线看片| 亚洲自啪免费| 国产极品视频在线观看| 欧美一激情一区二区三区| 欧美xxxbbb| 免费国产一区二区| 麻豆精品在线看| 国产性猛交普通话对白| 亚洲精品美女久久久| 国产精品美女午夜爽爽| www婷婷av久久久影片| 99久久99久久精品国产片果冻| 精品久久久久久久久久久久久久久久| 欲色天天网综合久久| 国产色99精品9i| 国产午夜福利在线播放| 中文字幕在线不卡视频| 亚洲国产精品suv| 欧美中在线观看| 五月综合激情| 中文字幕 日本| 欧美日韩色一区| 草草影院在线| 亚洲精美视频| av中文字幕在线不卡| 在线免费观看视频网站| 久久久久久国产三级电影| 精品一区欧美| 国产精品igao网网址不卡| 欧美性xxxx在线播放| 成人黄视频在线观看| 久久精品日产第一区二区三区| 激情小说亚洲一区| 天天操天天摸天天干| 久久亚洲电影天堂| 伊人久久大香线蕉| 久久久久久久穴|