精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

收益遞減的假象:大語言模型長視野執(zhí)行能力的真相

人工智能
當(dāng)模型設(shè)置為用順序測試時(shí)間計(jì)算進(jìn)行思考時(shí),即使歷史充滿錯誤答案,固定后期輪次的準(zhǔn)確率也保持穩(wěn)定,這顯示深思熟慮的推理步驟打破了負(fù)反饋循環(huán)。

論文(The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs)發(fā)現(xiàn):擴(kuò)大模型規(guī)模不僅讓模型在知識方面更聰明,還讓它們在多步驟任務(wù)中持續(xù)更久,這才是agent真正需要的。研究顯示,小模型通常能完美完成單個(gè)步驟,但當(dāng)要求它們持續(xù)執(zhí)行多個(gè)步驟時(shí),就會迅速崩潰。即使它們在第一步從不出錯,隨著任務(wù)變長,準(zhǔn)確率也會快速下降。相反,大模型在更多步驟中保持可靠,盡管基本任務(wù)本身并不需要額外的知識或推理。

圖片圖片

論文指出這不是因?yàn)榇竽P?知道更多",而是因?yàn)樗鼈兏瞄L持續(xù)執(zhí)行而不偏離錯誤。論文命名了一種名為自條件化的失敗模式,即看到早期錯誤會導(dǎo)致更多錯誤,并顯示通過思維步驟,GPT-5能一次運(yùn)行1000+步,而其他模型遠(yuǎn)低于此。

論文將規(guī)劃與執(zhí)行分離,然后顯示即使將計(jì)劃和所需知識提供給模型,隨著任務(wù)變長,可靠性仍會下降,這使得小的準(zhǔn)確率提升突然變得非常重要。

即使在單步水平上的微小準(zhǔn)確率提升,也會導(dǎo)致模型能可靠執(zhí)行完整任務(wù)的時(shí)長呈指數(shù)級增長。這就是為什么擴(kuò)大模型規(guī)模仍然值得,即使短基準(zhǔn)測試看起來進(jìn)展停滯。左側(cè)可以看到,步驟準(zhǔn)確率(模型每個(gè)小步驟正確的頻率)幾乎持平,在新模型中幾乎沒有改善。這看起來像收益遞減,因?yàn)槊看伟l(fā)布在單個(gè)步驟上只是略有改善。但在右側(cè),當(dāng)你將這個(gè)微小的步驟改善擴(kuò)展到連續(xù)的多個(gè)步驟時(shí),收益爆發(fā)了。任務(wù)長度(模型能持續(xù)運(yùn)行而不失敗的時(shí)間)從幾乎為零躍升到數(shù)千步。

為什么模型運(yùn)行時(shí)間越長表現(xiàn)越差。如果模型犯小的隨機(jī)錯誤,那么準(zhǔn)確率應(yīng)該隨時(shí)間保持平穩(wěn)。隨著任務(wù)變長,準(zhǔn)確率持續(xù)下降。原因稱為自條件化。一旦模型犯錯,該錯誤就會反饋到其自身歷史中。下次查看過去答案時(shí),它看到了錯誤的答案,這使它更可能再次出錯。如果歷史是干凈的,模型會持續(xù)正確回答。如果歷史已有錯誤,就會螺旋式地犯更嚴(yán)重的錯誤。LLM不僅因隨機(jī)錯誤而失敗——它們失敗是因?yàn)樽约旱腻e誤污染了上下文,導(dǎo)致后續(xù)更多錯誤。

當(dāng)早期錯誤出現(xiàn)在歷史中時(shí),大模型的表現(xiàn)如何。綠色條是上下文干凈(0%錯誤)的情況。在這種情況下,較大的模型(如14B和32B)在第100步時(shí)比小模型保持更高的準(zhǔn)確率。所以,如果一切進(jìn)行順利,擴(kuò)展顯然有幫助。粉色條是歷史中一半已有錯誤的情況。在這里,準(zhǔn)確率急劇下降,模型越大,崩潰越嚴(yán)重。32B模型從干凈情況下的最佳變成錯誤存在時(shí)的低得多。信息是:大模型在歷史干凈時(shí)更強(qiáng)大地執(zhí)行長任務(wù),但它們也更容易受到自條件化影響,意味著一旦看到自己早期的錯誤,它們會更嚴(yán)重地螺旋下降。

圖片圖片

論文如何以非常受控的方式測試執(zhí)行。論文將長任務(wù)轉(zhuǎn)化為簡單循環(huán),每輪說明從字典中讀取哪些鍵,并要求模型更新運(yùn)行總和,所以任何失敗都是關(guān)于執(zhí)行的,而不是缺少知識或規(guī)劃。論文通過剝離規(guī)劃和知識來隔離執(zhí)行,測試模型是否能在多輪中保持簡單運(yùn)行總和的正確。左側(cè)解釋了長任務(wù)可以分解為重復(fù)步驟:首先檢索正確信息,然后將其組合到運(yùn)行結(jié)果中,最后存儲更新的狀態(tài)。規(guī)劃部分(要做什么步驟)已經(jīng)給出,所以測試只衡量模型是否能在多步驟中持續(xù)正確執(zhí)行。右側(cè)顯示了他們使用的測試任務(wù)。基本上是一個(gè)字典,每個(gè)單詞都附有一個(gè)數(shù)字。告訴模型選擇哪些鍵(如"Apple"和"Grape"),它檢索它們的數(shù)字,然后加到運(yùn)行總計(jì)中。這種設(shè)置確保任務(wù)不依賴外部知識或創(chuàng)造性規(guī)劃,只依賴輪輪正確執(zhí)行。

圖片圖片

為什么小收益會爆炸式擴(kuò)展視野:在沒有自我糾正的簡單恒定準(zhǔn)確率模型下,一旦單步準(zhǔn)確率超過約70%,微小提升就會在保持50%成功目標(biāo)的任務(wù)長度上產(chǎn)生超指數(shù)級跳躍,所以短任務(wù)上的收益遞減隱藏了長任務(wù)上的巨大現(xiàn)實(shí)收益。

圖片圖片

即使沒有新知識,擴(kuò)展也能帶來什么:大模型在更多輪中保持運(yùn)行總和正確,即使小模型已有100%單步準(zhǔn)確率,這說明這里規(guī)模的好處是更可靠的長期執(zhí)行,而不是更好的事實(shí)。

自條件化效應(yīng):一旦上下文顯示早期錯誤,模型就更可能再次出錯,所以每輪準(zhǔn)確率隨長度持續(xù)漂移,這獨(dú)立于長上下文限制,不能僅通過使用更大模型來修復(fù)。

思維修復(fù)漂移:當(dāng)模型設(shè)置為用順序測試時(shí)間計(jì)算進(jìn)行思考時(shí),即使歷史充滿錯誤答案,固定后期輪次的準(zhǔn)確率也保持穩(wěn)定,這顯示深思熟慮的推理步驟打破了負(fù)反饋循環(huán)。

單輪能力:沒有思維鏈時(shí),即使很大的指令調(diào)優(yōu)模型也難以在一輪中鏈接2步,但有了思維,GPT-5執(zhí)行1000+步,Claude 4 Sonnet約432步,Grok-4是384步,Gemini 2.5 Pro和DeepSeek R1徘徊在120步左右**。

并行采樣不能替代思維:運(yùn)行多個(gè)并行樣本并投票只帶來小收益,相比順序推理,所以對于長視野執(zhí)行,關(guān)鍵是順序測試時(shí)間計(jì)算,而不是更多并行猜測。

通過修剪歷史的實(shí)用緩解:刪除舊輪次的滑動窗口通過隱藏累積錯誤改善可靠性,這減少了像這種任務(wù)的簡單馬爾可夫設(shè)置中的自條件化。

錯誤實(shí)際來源:查找和加法本身長時(shí)間保持近乎完美,但將它們與可靠狀態(tài)跟蹤結(jié)合會使錯誤增長,所以薄弱環(huán)節(jié)是在組合小操作時(shí)對狀態(tài)的持續(xù)管理。

作為agent構(gòu)建者該做什么:直接測量視野長度,使用思維進(jìn)行多步執(zhí)行,優(yōu)先選擇順序計(jì)算而非純并行采樣,管理上下文以避免向模型反饋其自身早期錯誤。

責(zé)任編輯:武曉燕 來源: AI帝國
相關(guān)推薦

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2023-05-05 13:29:04

模型推理

2025-04-02 01:25:00

2025-10-14 01:00:00

2025-02-25 09:49:12

2025-02-07 16:07:39

2024-12-30 13:13:35

2025-04-02 08:40:00

人工智能大模型AI

2023-09-05 14:43:15

2025-04-22 08:08:37

2025-09-04 07:00:00

GenAILLM大語言模型

2023-12-22 14:31:52

2024-04-11 11:35:03

大語言模型LLMs

2024-03-19 13:12:36

自動駕駛模型

2024-06-20 10:52:27

2023-10-07 08:28:06

語言模型代碼技術(shù)

2025-07-10 09:14:11

2025-03-13 11:18:14

2024-03-26 06:40:06

大語言模型人工智能AI

2024-06-06 09:47:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲女人初尝黑人巨大| 欧美国产一区在线| 久久久这里只有精品视频| 中文字幕制服丝袜| 高清在线视频不卡| 国产午夜久久久久| 国产欧美精品xxxx另类| 美女福利视频在线观看| 韩国女主播一区二区三区| 欧美在线|欧美| 免费人成在线观看视频播放| 国产精品视频一区二区久久| 国产电影精品久久禁18| 国产成人精品视频在线观看| 九九热国产在线| 精品理论电影| 亚洲成人精品久久久| 久久人妻精品白浆国产| www.久久ai| 国产99久久久久久免费看农村| 午夜精品国产精品大乳美女| 九色porny自拍视频| 看片一区二区| 国产精品二区一区二区aⅴ污介绍| 91日韩久久| 瑟瑟视频在线免费观看| 在线欧美视频| www国产亚洲精品久久网站| 老司机午夜免费福利| 久久av影院| 欧美色xxxx| 麻豆一区二区三区在线观看| 全色精品综合影院| 久草这里只有精品视频| 26uuu久久噜噜噜噜| 一区视频免费观看| 欧美人与拘性视交免费看| 欧美成人综合网站| 国产精品自拍视频在线| 色一区二区三区| 一区二区在线看| 麻豆md0077饥渴少妇| 1769视频在线播放免费观看| 国产无一区二区| 青青草原成人| 男人的天堂在线| 91色乱码一区二区三区| 精品国产一区二区三区久久久久久| 99riav国产| 久久精品国产精品青草| 欧美中文字幕视频| 豆国产97在线 | 亚洲| 亚洲成人免费| 日韩在线资源网| 国产视频不卡在线| 精品国产1区| 亚洲人成自拍网站| 9.1成人看片免费版| 国产精品自在线拍| 精品不卡在线视频| 欧美视频国产视频| 青草综合视频| 欧美精品黑人性xxxx| 9l视频白拍9色9l视频| 欧美va在线观看| 粉嫩老牛aⅴ一区二区三区| 奇米影视亚洲色图| av日韩中文| 亚洲成人在线免费| 免费看国产一级片| 国产不卡人人| 欧美日韩一二三四五区| 欧美网站免费观看| av岛国在线| 欧美日韩亚洲网| 成人午夜激情av| jvid一区二区三区| 6080午夜不卡| 爱情岛论坛亚洲自拍| 在线视频亚洲欧美中文| 337p日本欧洲亚洲大胆精品| 日本三级日本三级日本三级极| av在线亚洲一区| 91精品国产乱码久久蜜臀| 日本少妇xxxx软件| 偷拍亚洲色图| 自拍偷拍亚洲区| 欧美日韩午夜视频| 欧美精品激情| 91av视频在线免费观看| 亚洲综合图片网| 日本欧美一区二区三区乱码| 国产一区二区丝袜高跟鞋图片| 国产又粗又猛又色又| 国产成人精品三级| 国产超碰91| 黄色小视频在线免费观看| 国产精品色在线| 国产成人亚洲综合无码| 变态调教一区二区三区| 欧美性极品少妇精品网站| 一级黄色特级片| 香蕉免费一区二区三区在线观看 | 久久久久久激情| 亚洲欧美日韩国产| 国产成人中文字幕| 国产人妖一区二区| 成人福利电影精品一区二区在线观看| 久久精品中文字幕一区二区三区 | 天天操天天干天天操天天干| 欧美精品18| 热久久免费国产视频| 国产精品欧美激情在线| 91在线视频官网| 日韩av电影免费在线| 91福利国产在线观看菠萝蜜| 欧美视频在线观看 亚洲欧| 亚洲天堂av一区二区三区| 日韩美女毛片| 久久这里只有精品99| 久热这里只有精品6| 国产一区二区三区久久久| 精品一区久久久| h片在线免费观看| 欧美在线观看禁18| 偷偷色噜狠狠狠狠的777米奇| 国产免费久久| 欧美日韩国产123| 中文天堂在线播放| 91麻豆精东视频| 欧美a级黄色大片| 黄色欧美视频| 亚洲视频一区二区| 久久久久久久久久99| 久久99国内精品| 亚洲不卡1区| xxx.xxx欧美| 欧美日韩一区三区四区| 香蕉视频黄色在线观看| 日韩一级不卡| 国产精品成人一区二区三区| 欧美性天天影视| 欧美视频你懂的| 国产人妻大战黑人20p| 亚洲国产精品第一区二区三区| 成人黄色免费看| yourporn在线观看视频| 在线精品视频一区二区三四| 国产又黄又粗又猛又爽的视频| 欧美激情性爽国产精品17p| 成人高h视频在线| 91在线不卡| 欧美午夜精品久久久| 久久久久久亚洲中文字幕无码| 在线日韩av| 国产精品一区二区av| 色婷婷在线播放| 日韩手机在线导航| 久久久久久久久久久久久女过产乱| 美女一区二区三区在线观看| 亚洲精品9999| 四虎精品永久免费| 久久午夜a级毛片| 国产欧美久久久| 中文字幕亚洲电影| 污污的视频免费观看| 欧美不卡一区| 国产精品国产亚洲精品看不卡15| av软件在线观看| 欧美成人精品1314www| 精品国产精品国产精品| 国产一区二区三区四区五区入口| 椎名由奈jux491在线播放 | 三级在线视频| 色哟哟国产精品免费观看| 色综合99久久久无码国产精品| 天堂va蜜桃一区二区三区漫画版| 日本一区视频在线观看| 欧美大陆国产| 欧美激情一区二区久久久| 三级小视频在线观看| 欧美性极品xxxx做受| 极品尤物一区二区| 捆绑变态av一区二区三区| 中文字幕日韩精品一区二区| 视频在线亚洲| 欧美亚洲国产成人精品| jyzzz在线观看视频| 欧美一级午夜免费电影| 日产精品久久久久久久| 久久久噜噜噜久久中文字幕色伊伊| 九九九在线观看视频| 91精品一区二区三区综合在线爱| 国产激情一区二区三区在线观看 | 不卡视频一二三| 国产性xxxx18免费观看视频| 亚洲桃色综合影院| 国产这里只有精品| av午夜在线观看| 日韩精品视频在线播放| 亚洲天堂aaa| 亚洲国产精品久久久男人的天堂| 强伦人妻一区二区三区| 国产精一品亚洲二区在线视频| 欧美另类videos| 亚洲欧洲av| 成人中心免费视频| 神马午夜在线视频| 一区二区三区国产在线观看| 国产免费福利视频| 色美美综合视频| 福利视频第一页| 99国产精品国产精品久久| 日本高清久久久| 亚洲一区日韩在线| 大胆欧美熟妇xx| 奇米影视777在线欧美电影观看 | 欧美激情中文字幕| 中文字幕 日本| 成人午夜精品在线| 97超碰免费在线观看| 精品影视av免费| 一级在线免费视频| 久久夜色精品| 国产亚洲欧美在线视频| 亚洲性感美女99在线| 艳母动漫在线观看| 999成人精品视频线3| 日产精品高清视频免费| 日韩欧美ww| 精品视频一区二区| 精品精品精品| 国产日韩亚洲精品| 澳门精品久久国产| 成人av资源| 美国十次综合久久| 亚洲综合日韩中文字幕v在线| 91大神在线观看线路一区| 奇米4444一区二区三区| 日本乱码一区二区三区不卡| 97久久伊人激情网| 校园春色亚洲| 欧美重口另类videos人妖| 在线播放高清视频www| 4k岛国日韩精品**专区| 亚洲女同志freevdieo| 91高潮精品免费porn| 超碰aⅴ人人做人人爽欧美| 国产91精品久久久久久| 桃色av一区二区| 日本精品中文字幕| 最新日韩三级| 国产日韩在线视频| 成人免费91| 3d精品h动漫啪啪一区二区| 日韩中文字幕无砖| 国产伦精品一区二区三区照片91| 菁菁伊人国产精品| 免费看成人片| 色综合狠狠操| 在线视频一二三区| 亚洲国产精品一区制服丝袜| 日日橹狠狠爱欧美超碰| 日韩精品欧美成人高清一区二区| 五月婷婷激情久久| 国产一区亚洲一区| 国产一级黄色录像| 国产欧美综合在线观看第十页| 欧美a在线播放| 亚洲同性同志一二三专区| 精国产品一区二区三区a片| 香蕉加勒比综合久久| 国产一级淫片a视频免费观看| 欧美综合在线视频| 国产黄频在线观看| 日韩hd视频在线观看| 1024视频在线| 午夜精品久久久久久99热软件| 亚洲福利影院| 91精品啪在线观看麻豆免费| 国产精品极品在线观看| 日韩在线三区| 午夜欧美精品| 97视频在线免费播放| 国产在线日韩欧美| 人妻丰满熟妇av无码久久洗澡 | 精品午夜视频| 欧美三级华人主播| 亚洲先锋影音| 国模吧无码一区二区三区| 九色porny丨国产精品| 丰满人妻一区二区三区免费视频棣| 久久久久国产免费免费 | 狠狠色噜噜狠狠狠狠97| 中文字幕av资源| 亚洲福利视频二区| 天堂地址在线www| 97精品视频在线| 亚洲欧洲日韩精品在线| 欧美精品国产精品久久久| 亚洲精品成人| 日韩福利视频在线| www.亚洲免费av| 欧美三级日本三级| 欧美午夜一区二区| 天天综合网在线| 久久天天躁狠狠躁夜夜av| 国产精品扒开腿做爽爽爽视频软件| 亚洲资源在线看| 欧美日韩一区二区三区视频播放| 日韩人妻无码精品久久久不卡| 看片的网站亚洲| 免费看污片网站| 亚洲高清免费视频| 国产高清视频免费观看| 色偷偷偷亚洲综合网另类 | 亚洲精品社区| 丰满人妻一区二区三区大胸 | 国产午夜精品美女视频明星a级| 久色国产在线| 91嫩草在线| 一区二区蜜桃| 在线播放av中文字幕| 国产女人18水真多18精品一级做| 全部毛片永久免费看| 精品国精品自拍自在线| 国产高清一区二区三区视频| 国产精品丝袜白浆摸在线 | 成年丰满熟妇午夜免费视频| 老司机精品视频一区二区三区| 亚洲第一综合网| 日本电影亚洲天堂一区| 青青草av免费在线观看| 午夜剧场成人观在线视频免费观看| 日本在线视频一区二区三区| 日韩人妻精品一区二区三区| 久久se这里有精品| 亚洲色图100p| 3atv一区二区三区| 国产欧美黑人| 亚洲www永久成人夜色| 希岛爱理av一区二区三区| 五月天激情播播| 亚洲同性gay激情无套| 国产女无套免费视频| 欧美精品中文字幕一区| 亚洲精品v亚洲精品v日韩精品| 日韩不卡一二区| 国产白丝精品91爽爽久久| 九九热精彩视频| 精品欧美一区二区三区精品久久| 视频在线这里都是精品| 99视频免费观看| 日韩午夜黄色| 国产精品成人一区二区三区电影毛片| 欧美性xxxxxxxxx| 第三区美女视频在线| 国产免费成人av| 午夜精品久久99蜜桃的功能介绍| 色哟哟无码精品一区二区三区| 亚洲电影在线播放| 日韩有码电影| 国产精品欧美激情| 亚洲五月综合| www.男人天堂| 色哟哟精品一区| 免费的黄网站在线观看| 91久久大香伊蕉在人线| 亚洲激情在线| 天天躁日日躁aaaa视频| 欧美日韩国产免费一区二区| 黄色免费在线观看| 国内精品一区二区| 全国精品久久少妇| 精品处破女学生| 亚洲毛片一区二区| 热久久久久久| 少妇人妻无码专区视频| 国产人成一区二区三区影院| 最新国产中文字幕| 欧美国产日韩一区二区三区| 神马久久一区二区三区| 日本精品一区在线| 欧美性猛交xxxxx水多| 黄色免费在线观看网站| 精品一区二区久久久久久久网站| 麻豆精品视频在线| 黄色小视频在线免费看| 伊人一区二区三区久久精品| 天堂va在线高清一区| 密臀av一区二区三区| 亚洲影视资源网| 成人免费黄色网页| 国产精品免费区二区三区观看| 蜜臀av性久久久久蜜臀aⅴ四虎| 激情视频在线播放| 中文欧美日本在线资源| 精品国产乱子伦一区二区| 污污动漫在线观看| 欧美日韩国产区|