精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UC伯克利:讓推理模型少思考,準(zhǔn)確率反而更高了!

人工智能 新聞
UC伯克利新研究發(fā)現(xiàn),強(qiáng)制要求模型跳過思考過程,推理能力卻比正常思考還好。

讓推理模型不要思考,得到的結(jié)果反而更準(zhǔn)確?

UC伯克利新研究發(fā)現(xiàn),強(qiáng)制要求模型跳過思考過程,推理能力卻比正常思考還好。

例如在定理證明任務(wù)當(dāng)中,“不思考”模式僅使用30%的Token,就能實(shí)現(xiàn)和完整思考一樣的準(zhǔn)確率。

圖片

特別是施加Token限制之后,“不思考”模式的效果變得更加明顯。

圖片

這究竟是怎么一回事呢?來看下UC伯克利發(fā)表的論文。

跳過思考,推理模型反而更強(qiáng)了

論文的研究目的,是比較顯式思考過程(Thinking)和跳過思考過程(NoThinking)的效果差異,并在不同約束條件下評(píng)估這兩種方法的表現(xiàn)。

圖片

研究使用DeepSeek-R1-Distill-Qwen-32B作為主要實(shí)驗(yàn)?zāi)P停撃P屯ㄟ^在Qwen-32B基礎(chǔ)上使用DeepSeek-R1生成的數(shù)據(jù)進(jìn)行蒸餾得到。

為了確保結(jié)果的可靠性,研究同時(shí)選擇了Qwen-32B-Instruct作為基線模型,并在7B和14B規(guī)模的相同架構(gòu)模型上進(jìn)行了驗(yàn)證實(shí)驗(yàn)。

在數(shù)據(jù)集的選擇上,研究力求全面覆蓋不同類型的推理任務(wù):

  • 在數(shù)學(xué)問題方面,既包含了AIME 2024、AIME 2025、AMC 2023等標(biāo)準(zhǔn)難度的測試集,也包含了更具挑戰(zhàn)性的OlympiadBench數(shù)學(xué)子集;
  • 在編程能力評(píng)估方面,使用了持續(xù)更新的LiveCodeBench v2版本;
  • 在定理證明領(lǐng)域,則通過MiniF2F測試形式化數(shù)學(xué)推理能力,通過ProofNet評(píng)估邏輯和定理證明能力。

實(shí)驗(yàn)首先進(jìn)行了基礎(chǔ)性能評(píng)估,也就是在不限制token的情況下比較三種方法的表現(xiàn)。研究團(tuán)隊(duì)詳細(xì)記錄了每種方法在不同k值下的pass@k性能表現(xiàn)和token使用量。

結(jié)果顯示,在無預(yù)算限制的情況下,NoThinking在定理證明任務(wù)上能夠以30%的token用量達(dá)到與Thinking相似的性能,兩種方法都明顯優(yōu)于基線模型。

在其他任務(wù)上,雖然NoThinking的初始pass@1性能較低,但隨著k值增加會(huì)逐漸追平Thinking的表現(xiàn),同時(shí)token使用量減少

圖片

隨后,實(shí)驗(yàn)引入了預(yù)算強(qiáng)制,通過設(shè)置token限制來進(jìn)行對(duì)照實(shí)驗(yàn)。

具體來說,當(dāng)模型達(dá)到預(yù)設(shè)的token預(yù)算時(shí),系統(tǒng)會(huì)強(qiáng)制其生成最終答案,如果此時(shí)模型仍在思考框內(nèi),則會(huì)在最終答案標(biāo)簽前添加結(jié)束思考標(biāo)記。

研究分別在低預(yù)算(約3000tokens以下)和高預(yù)算(約3500tokens)兩種場景下進(jìn)行了詳細(xì)測試。

在預(yù)算受限的場景下,NoThinking在低預(yù)算情況下(<3000 tokens)完全優(yōu)于Thinking,這種優(yōu)勢(shì)會(huì)隨著k值的增加而擴(kuò)大。

在高預(yù)算場景下(~3500 tokens),盡管Thinking在pass@1上略有優(yōu)勢(shì),NoThinking從k=2開始就展現(xiàn)出更好的性能。

圖片

在并行擴(kuò)展測試中,研究根據(jù)任務(wù)特性采用了不同的評(píng)估方法。

對(duì)于有完美驗(yàn)證器的任務(wù)(如形式定理證明),可以直接使用驗(yàn)證器選擇最佳答案,并詳細(xì)記錄延遲和token使用量;

對(duì)于沒有驗(yàn)證器的任務(wù),研究實(shí)現(xiàn)了多數(shù)投票機(jī)制和基于置信度的選擇策略,通過實(shí)驗(yàn)比較了不同選擇策略的效果。

對(duì)于具有驗(yàn)證器的任務(wù),NoThinking可以在將延遲降低至1/7、token使用量減少至1/4的同時(shí),保持與傳統(tǒng)方法相似的準(zhǔn)確率。

在沒有驗(yàn)證器的任務(wù)中,比如AMC 2023和OlympiadBench,NoThinking甚至超越了完整版Thinking的表現(xiàn),同時(shí)可將延遲降低至1/9。

圖片

為了避免實(shí)驗(yàn)結(jié)果受到數(shù)據(jù)污染的影響,研究團(tuán)隊(duì)專門使用了新發(fā)布的AIME 2025數(shù)據(jù)集進(jìn)行驗(yàn)證。

結(jié)果作者發(fā)現(xiàn)。相同的性能模式在新舊數(shù)據(jù)集上都能穩(wěn)定重現(xiàn),這證實(shí)了研究發(fā)現(xiàn)反映了模型的真實(shí)行為特征。

大模型“思考過程”引熱議

Hacker News上,有人表示這項(xiàng)研究讓其對(duì)大模型的思考有了新的認(rèn)識(shí):

過去我認(rèn)為大模型“思考”很有用,是因?yàn)樗梢园迅嗟母拍顜У缴舷挛漠?dāng)中,但現(xiàn)在看似乎不是?

圖片

還有人想到了Claude廠商Anthropic前些天發(fā)表的報(bào)告,其中指出大模型輸出的“思考過程”不一定代表其真實(shí)想法。

圖片

這份報(bào)告的實(shí)驗(yàn)發(fā)現(xiàn),Claude 3.7 Sonnet僅在25%的情況下在其思維鏈中提及收到的提示信息,DeepSeek R1則為39%,意味著大多數(shù)情況下模型不會(huì)忠實(shí)反映其真實(shí)決策過程。

Anthropic的這份報(bào)告,引起了針對(duì)大模型“思考過程”的熱烈討論。

有人表示,思維鏈有效的關(guān)鍵是產(chǎn)生了更多用于“思考”的計(jì)算,但如果用它來展示模型工作過程,那只不過是額外的上下文。

圖片

但也有人認(rèn)為Anthropic的研究并沒有切中問題要害,因?yàn)槟P偷挠?xùn)練過程就是為了獲得正確答案而優(yōu)化,不能指望這樣的訓(xùn)練方式能夠讓模型準(zhǔn)確說出推理過程。

圖片

作者簡介

本論文第一作者是UC伯克利博士生馬文潔,導(dǎo)師是Matei Zaharia副教授和Sewon Min助理教授研究重點(diǎn)是理解和提升語言模型的推理能力,以及測試時(shí)計(jì)算。

馬文潔本科畢業(yè)于南京大學(xué)計(jì)算機(jī)學(xué)院,期間曾參加該學(xué)院的PASCAL(編程語言與統(tǒng)計(jì)分析)研究組。

另一名華人作者何靜軒,目前在UC伯克利從事博士后研究,研究興趣為機(jī)器學(xué)習(xí)和計(jì)算機(jī)安全,合作導(dǎo)師是宋曉冬(Dawn Song)教授。

何靜軒博士和本科分別畢業(yè)于蘇黎世聯(lián)邦理工學(xué)院和浙江大學(xué)。

另外,UC伯克利博士生Charlie Snell、Tyler Griggs,以及一作馬文潔的兩名導(dǎo)師也參與了此項(xiàng)研究。

圖片

論文地址:
https://arxiv.org/abs/2504.09858

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-30 09:09:00

2025-04-21 08:52:00

大語言模型生成AI

2025-07-03 09:49:43

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2023-04-07 09:28:31

模型訓(xùn)練

2023-05-04 14:55:02

模型AI

2023-12-04 18:56:03

AI模型

2023-08-05 13:45:46

模型AI

2025-04-10 10:02:43

2025-01-13 00:00:00

訓(xùn)練數(shù)據(jù)模型

2025-01-22 15:21:00

2025-06-03 08:38:00

2023-12-04 13:52:00

模型數(shù)據(jù)

2024-09-23 14:46:27

2024-12-02 08:20:00

2023-12-25 09:23:07

模型技術(shù)

2024-11-26 13:40:00

2023-04-04 13:17:00

GPUCMU開源

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-10-26 08:40:15

模型隱私推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

91精品福利观看| 欧洲成人av| 国内激情久久| 亚洲女同精品视频| 狠狠躁狠狠躁视频专区| 欧美jizzhd欧美| 99re这里只有精品视频首页| 国产精品久久久久9999| caoporn91| 亚洲婷婷丁香| 日韩欧美电影一区| 日韩精品一区中文字幕| av免费在线观看网址| 91丨porny丨蝌蚪视频| 成人免费xxxxx在线观看| 国产成人无码精品亚洲| 婷婷亚洲五月| 亚洲欧洲在线免费| 亚洲一级Av无码毛片久久精品| **欧美日韩在线观看| 亚洲国产综合色| 亚洲一区三区电影在线观看| 五月激情丁香婷婷| 韩国精品久久久| 国产精品99导航| 91久久国产视频| 欧美在线视屏| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 日韩av电影免费播放| 国产毛片久久久久| 日本视频在线一区| 日本最新高清不卡中文字幕| 国产在线观看免费视频今夜| 希岛爱理一区二区三区| 国产一区二区av| 亚洲欧美视频在线播放| 国产精品中文字幕制服诱惑| 欧美一级片在线观看| 午夜激情av在线| 婷婷六月国产精品久久不卡| 欧美视频在线免费| 91视频 -- 69xx| h片精品在线观看| 亚洲一区二区三区四区不卡 | 亚洲人体偷拍| 欧美高清性猛交| 国产精品白丝喷水在线观看| 四虎成人av| 在线观看中文字幕亚洲| 人人人妻人人澡人人爽欧美一区| 群体交乱之放荡娇妻一区二区 | 国产免费av在线| 久久夜色精品一区| 欧美在线一区二区三区四区| 色丁香婷婷综合久久| 不卡av在线免费观看| 国产精品一区二区欧美黑人喷潮水| 一卡二卡三卡在线观看| 久久精品国产精品青草| 国产在线一区二区三区| 国产又大又长又粗| 国模一区二区三区白浆| 92看片淫黄大片欧美看国产片| 国产精品人妻一区二区三区| 国产伦理精品不卡| 国产经品一区二区| 亚洲欧洲国产综合| 欧美国产成人在线| 致1999电视剧免费观看策驰影院| 欧洲日本在线| 亚洲激情网站免费观看| 国产a级片网站| 在线观看欧美日韩电影| 欧美午夜电影网| 日韩av片免费观看| 精品人人人人| 国产亚洲欧美日韩美女| 三上悠亚在线观看视频| 欧美日韩专区| 欧美在线亚洲一区| 日本妇乱大交xxxxx| 激情小说亚洲一区| 国产欧美日韩亚洲| 国产中文字幕在线看| 中文字幕视频一区| 成人黄色大片网站| 日韩中文视频| 91麻豆精品国产自产在线| 麻豆精品国产传媒av| 青青草国产成人a∨下载安卓| 久久天天躁狠狠躁夜夜躁2014| 久久97人妻无码一区二区三区| 国产亚洲在线| 91久久精品国产91性色| 无码国产色欲xxxx视频| 国产精品成人午夜| 欧美成人三级在线视频| 成人国产激情在线| 日韩三级精品电影久久久| 中文字幕丰满孑伦无码专区| 欧美激情国产在线| 4p变态网欧美系列| 国产一区二区波多野结衣 | 东方伊人免费在线观看| 欧美色综合网| 国产精品旅馆在线| 农村少妇久久久久久久| 国产精品日韩精品欧美在线| 久艹在线免费观看| 99综合99| 一区二区国产精品视频| 日本免费一二三区| 黄色精品一二区| 日韩电影大全在线观看| 超碰99在线| 日韩欧美视频在线| 日本不卡一区视频| 久久国产免费| 精品视频在线观看| 欧美6一10sex性hd| 91麻豆精品国产91久久久更新时间| av大片免费在线观看| 日韩伦理精品| 日韩精品一区二区三区在线| 手机看片国产日韩| 久久电影一区| 国产一区二区三区四区五区在线| 久久久久久国产精品免费无遮挡| 日韩欧美在线国产| yy1111111| 亚洲无线一线二线三线区别av| 91精品美女在线| 第九色区av在线| 一本一本久久a久久精品综合麻豆| 日本泡妞xxxx免费视频软件| 欧美aaaa视频| 国产精品一区二区在线| 久草在线青青草| 精品久久中文字幕| 国产免费一区二区三区最新6| 亚洲精品成人| 91最新在线免费观看| 欧美日本高清| 欧美放荡的少妇| 一本一本久久a久久| 蜜臀va亚洲va欧美va天堂| 蜜桃网站成人| 国产综合色区在线观看| 亚洲视频在线观看免费| 国产精品久久久久久久久久精爆| 2021国产精品久久精品| 1024av视频| 亚洲素人在线| 国产精品高清在线观看| 高清av电影在线观看| 欧美在线免费视屏| 成人黄色短视频| 国产一区二区三区在线观看免费| 天天综合五月天| 天堂精品久久久久| 久久久久久网址| 亚州视频一区二区三区| 色综合网色综合| 国产精品免费无码| 激情综合一区二区三区| 国产激情片在线观看| 国内精品国产成人国产三级粉色 | 狠狠操一区二区三区| 日韩电影中文 亚洲精品乱码| 亚洲天堂av片| 国产精品情趣视频| 香蕉视频色在线观看| 欧美国产高清| 久久久久久一区| 色天使综合视频| 欧美成人激情在线| 婷婷婷国产在线视频| 欧美日韩在线视频一区| 少妇视频在线播放| 国产成人一区在线| 成人观看免费完整观看| 欧美综合另类| www.av一区视频| 午夜精品久久久久久久久久蜜桃| 北条麻妃一区二区三区中文字幕| 亚洲成人精品女人久久久| 一本久久a久久精品亚洲| 青青青视频在线免费观看| 国产激情视频一区二区三区欧美 | 日韩一区和二区| 性无码专区无码| 中文字幕一区在线观看视频| 日本一级大毛片a一| 免费在线看成人av| 国产一区二区四区| 日韩免费久久| 精品日韩美女| 国产精品日韩精品在线播放| 欧美亚洲日本网站| av在线免费观看网址| 亚洲欧美激情另类校园| 国产成人精品av在线观| 色综合久久中文综合久久97| 国产精品视频一区二区三| 91毛片在线观看| 老女人性生活视频| 日产欧产美韩系列久久99| 国产美女作爱全过程免费视频| 精品国产乱码久久久久久果冻传媒 | 在线播放国产一区中文字幕剧情欧美| 国产激情视频在线播放| 欧美在线免费观看亚洲| 日本少妇在线观看| 亚洲欧美另类小说| 91狠狠综合久久久久久| 91色综合久久久久婷婷| 人妻巨大乳一二三区| 麻豆成人91精品二区三区| 91免费视频网站在线观看| 欧美日韩国产在线一区| 伊人久久青草| 成人一区不卡| 日韩.欧美.亚洲| 亚洲人成网亚洲欧洲无码| 国产日韩三区| 99a精品视频在线观看| 91美女片黄在线观| 欧美a一级片| 国产精品mp4| 黑人巨大亚洲一区二区久| 97精品国产97久久久久久| 羞羞的视频在线观看| 久久久成人精品| 米奇777四色精品人人爽| 中文字幕在线日韩| fc2在线中文字幕| 国产一区二区成人| 春暖花开成人亚洲区| 亚洲无av在线中文字幕| 久久精品国产亚洲a∨麻豆| 日韩精品中文字幕视频在线| 天天舔天天干天天操| 亚洲电影中文字幕| 五十路在线观看| 亚洲精品色婷婷福利天堂| 日本中文字幕一区二区有码在线| 亚洲精品国产综合久久| 天天干天天做天天操| 亚洲国内高清视频| 天堂a√中文在线| 亚洲天堂网站在线观看视频| 国产高清视频免费最新在线| 尤物tv国产一区| 欧美被日视频| 欧美第一黄网免费网站| 91福利在线尤物| 欧美性受xxxx白人性爽| 欧美大胆成人| 国产精品一区二区久久久久| 国产免费av国片精品草莓男男| 91中文在线观看| 视频一区视频二区欧美| 精品婷婷色一区二区三区蜜桃| 任我爽精品视频在线播放| 欧美高清一区二区| 欧美mv日韩| 欧美中文字幕在线观看视频 | 黑人精品一区二区三区| 亚洲精品一区中文| xxxxx日韩| 久久夜色精品国产亚洲aⅴ| 天堂8中文在线| 国产91ⅴ在线精品免费观看| 日本欧美韩国| 91免费看蜜桃| 秋霞综合在线视频| 一区二区日本伦理| 影音先锋亚洲一区| 日韩中文字幕二区| 国产在线国偷精品产拍免费yy| 韩国黄色一级片| 久久免费视频色| 九九热最新地址| 精品久久久久久久久中文字幕| 国产成人无码专区| 日韩写真欧美这视频| 神马久久久久| 欧美插天视频在线播放| 三妻四妾完整版在线观看电视剧| 国产精品久久久久久久久免费| 国产精品视频一区二区三区综合| 国产免费一区二区三区| 色无极亚洲影院| 高清欧美精品xxxxx| 蜜桃视频一区二区| 亚洲av成人无码一二三在线观看| 国产女人18水真多18精品一级做| 久久久久97国产| 欧美视频在线一区二区三区| 欧美天堂在线视频| 日韩视频免费在线观看| 吞精囗交69激情欧美| 成人av资源| 日韩中文首页| 欧美日韩在线中文| 懂色av一区二区三区免费看| 亚洲精品国产精品乱码在线观看| 亚洲大片精品永久免费| 国产精品久久久久久久久久久久久久久久 | 日韩一区二区免费看| 久久撸在线视频| 久久久久久久综合色一本| 精品无码m3u8在线观看| 欧美日韩国产免费一区二区| 欧美日韩伦理片| 欧美激情在线有限公司| 国产精品久一| 在线免费一区| 日韩精品三区四区| 免费看黄色aaaaaa 片| 亚洲午夜视频在线观看| 国产色视频在线| 中文字幕亚洲无线码a| 成人性教育av免费网址| 精品国产一区二区三区麻豆小说| 午夜性色一区二区三区免费视频| 污污网站在线观看视频| 国产日韩精品一区二区三区在线| www成人在线| 亚洲成色www8888| 黄页网站在线| 97se在线视频| 欧美午夜国产| 色婷婷狠狠18禁久久| 亚洲综合成人在线视频| 99热这里只有精品66| 久久国产精品亚洲| 麻豆国产一区| 成人小视频在线观看免费| 国产成人在线视频网址| 欧美日韩免费一区二区| 日韩欧美综合在线| 日韩伦理电影网站| 成人自拍偷拍| 亚洲精品精选| 亚洲天堂资源在线| 欧美午夜片欧美片在线观看| 天天操天天射天天舔| 欧美在线激情视频| 国产一区二区三区探花| 午夜激情福利在线| 国产精品视频在线看| 在线观看一二三区| 久久久av一区| 成人av动漫| 5月婷婷6月丁香| 国产欧美精品区一区二区三区 | 范冰冰一级做a爰片久久毛片| 久久久久久久久久久一区| 天堂在线一区二区| 国产黄色录像视频| 这里只有精品电影| 丁香高清在线观看完整电影视频 | 欧美午夜影院| 亚洲视频在线播放免费| 一本色道亚洲精品aⅴ| 视频免费一区| 97人人模人人爽人人少妇| 最新亚洲激情| 国产7777777| 日韩限制级电影在线观看| 毛片在线网站| 亚洲国产精品一区在线观看不卡| 国产一区三区三区| 黄色片免费观看视频| 亚洲天堂视频在线观看| 精品国产鲁一鲁****| 秋霞无码一区二区| 国产精品美女久久久久久久久久久| 国产免费黄色网址| 欧美一区二区三区艳史| 欧美jizz| 大黑人交xxx极品hd| 欧美老女人在线| av中文字幕在线观看第一页| 婷婷五月色综合| 国产不卡视频在线观看| 无码人妻精品一区二区蜜桃色欲| 久久久精品视频成人| 妖精视频一区二区三区| 欧美成人手机在线视频| 欧美视频在线看| gogogogo高清视频在线| 欧美久久电影| 国产激情一区二区三区| 在线观看免费黄色小视频| 久久久久久亚洲精品中文字幕| 国产一区国产二区国产三区| 亚洲美女精品视频| 欧美日韩1234|