精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Scaling Law瓶頸,Cursor編程為什么這么強?團隊參與新研究掏出秘密武器

人工智能 新聞
近日,Cursor 一位重要研究者參與的一篇相關論文發布了,其中提出了一種方法,可通過搜索自然語言的規劃來提升 Claude 3.5 Sonnet 等 LLM 的代碼生成能力。

近段時間,AI 編程工具 Cursor 的風頭可說是一時無兩,其表現卓越、性能強大。近日,Cursor 一位重要研究者參與的一篇相關論文發布了,其中提出了一種方法,可通過搜索自然語言的規劃來提升 Claude 3.5 Sonnet 等 LLM 的代碼生成能力。

具體來說,他們提出的方法名為 PlanSearch(規劃搜索)。主導團隊是 Scale AI,本文一作為 Scale AI 研究者 Evan Wang。二作 Federico Cassano 現已加入如今炙手可熱的 AI 編程工具公司 Cursor。他曾參與創立了 GammaTau AI 項目,該項目的目標是實現 AI 編程的民主化。此外,他也是 BigCode 項目的活躍貢獻者,該項目負責開發用于 AI 編程的 StarCoder 系列大型語言模型。

  • 論文標題:Planning In Natural Language Improves LLM Search For Code Generation
  • 論文地址:https://arxiv.org/pdf/2409.03733

論文開篇,該團隊提到強化學習教父 Sutton 的經典文章《The Bitter Lesson(苦澀的教訓)》揭示的 Scaling Law 的兩大核心原則:學習和搜索。隨著大型語言模型的迅猛發展,人們對于「學習」是否有效的疑慮已基本消除。然而,在傳統機器學習領域中表現出色的「搜索」策略,將如何拓展大模型的能力,還是個未知數。

目前阻礙模型應用「搜索」的主要難題是模型給出的答案過于雷同,缺乏多樣性。這可能是由于在預訓練的基礎上,模型會在特定的數據集上進行進一步的訓練,以適應特定的應用場景或任務所導致的。

經過大量實證研究證明,許多大語言模型往往會被優化,以產生一個正確的答案。比如下圖中所示,DeepSeek-Coder-V2-Lite-Base 的表現不如其基礎模型,但隨著回答的多樣性的減少,情況發生了逆轉。多個模型都存在這種現象:經過特別指令調整的模型在只生成一個答案的情況下(pass@1)通常比基礎模型表現得好很多,但當需要生成多個答案時,這種優勢就不明顯了 —— 在某些情況下,甚至完全相反。

圖片

模型在生成答案時缺乏多樣性,這對于搜索的效果非常不利。特別是在極端情況,比如采用「貪心解碼」,模型給出的答案會非常相似,因為它們是從模型中重復抽取的。這種情況下,即使模型花費更多推理時間,也難以獲得更好的搜索結果。

通行的大模型排行榜,例如例如 LMSYS Chatbot Arena、LiveCodeBench、OpenLLMLeaderboard,很難反應模型在回答多樣性方面的不足。這些排行榜主要關注模型在單一樣本上的通過率,沒有考慮到模型在更廣泛場景下的表現。由于模型需要很快地響應用戶的需求,單一樣本的回答質量是衡量一個聊天機器人的關鍵指標,但這一指標并不足以全面評估模型在允許更充裕推理時間時的綜合性能。

針對以上問題,研究人員對如何在大語言模型推理過程中提高回答的多樣性進行了探索。對此,他們提出了假設,想讓模型輸出的答案更加豐富,需要在自然語言的概念或想法的空間內進行搜索。

為了驗證這個假設,研究人員進行了一系列實驗。首先,研究人員發現,如果給模型一些簡單的草圖(這些草圖是從已經能解決問題的代碼中「回譯」而來),模型就能根據這些草圖寫出正確的最終程序。其次,研究人員還發現,如果讓模型在嘗試解決問題之前,先在 LiveCodeBench 上想出一些點子(這個過程叫做 IdeaSearch / 思路搜索),然后看看模型能不能用這些點子解決問題。

結果發現,模型要么完全解決不了問題(準確度為 0%),要么就能完美解決問題(準確度為 100%)。這表明當模型嘗試解決一個問題時,成功與否主要取決于它最初的那個想法(草圖)對不對。

根據這兩個實驗的結果,研究人員認為一種提升 LLM 代碼搜索能力的自然方法是:搜索正確的思路,然后實現它!

于是,規劃搜索(PlanSearch)方法誕生了。

不同于之前的搜索方法(通常是搜索單個 token、代碼行甚至整個程序)不一樣,規劃搜索是搜索解決當前問題的可能規劃。這里,規劃(plan)的定義是:有助于解決某個特定問題的高層級觀察和草案的集合。

為了生成新規劃,規劃搜索會生成大量有關該問題的觀察,然后再將這些觀察組合成用于解決問題的候選規劃。

這個操作需要對生成的觀察的每個可能子集都執行,以最大化地鼓勵在思路空間中進行探索,之后再將結果轉譯成最終的代碼解決方案。

該團隊的實驗發現,在推理時有效使用計算方面,規劃搜索方法優于標準的重復采樣方法以及直接搜索思路的方法。

方法

在這項研究中,該團隊探索了多種不同方法,包括重復采樣(Repeated Sampling)、思路搜索(IdeaSearch)以及新提出的規劃搜索(PlanSearch)。其中前兩種方法顧名思義,比較直觀,這里我們重點關注新提出的規劃搜索。

該團隊觀察到,雖然重復采樣和思路搜索能成功地提升基準評測的結果。但在很多案例中,多次提示(pass@k)(即使在溫度設置很高)只會導致輸出代碼發生很小的變化,這些變化只會改變一些小方面,但無法改善思路中的缺陷。

下面來看具體的規劃搜索過程:

1. 通過提示來獲取觀察

首先假設有一個問題陳述 P,通過向 LLM 發送提示詞來獲取對該問題的「觀察」/ 提示。這里將這些觀察記為  O^1_i,其中 i ∈ {1, . . . , n_1};這是因為它們是一階觀察。通常而言,n_1 的數量級在 3 到 6 之間。具體數量取決于 LLM 輸出。為了利用這些觀察結果來啟發未來的思路,該團隊創建了 O^1_i 的集合 S^1 的且大小至多為 2 的所有子集。其中每個子集都是觀察結果的一個組合。這里將每個子集記為 C^1_i,其中 i ∈ {1, . . . , l_1},而圖片

2. 推導新的觀察

這樣一來,所有觀察結果的集合都可以定義為深度為 1 的有向樹,其中根節點為 P,并且每個 C^1_i 都有一條從 P 指向 C^1_i  的邊。

然后,在每個葉節點 C^1_i 上重復上一步流程,從而生成一個二階觀察集 S^2。為了得到二階觀察,該團隊的做法是在給模型的提示詞中包含原始問題 P 和 C^1_i 中包含的所有觀察 —— 這些觀察被構造為解決 P 所必需的原始觀察。然后再提示 LLM,讓其使用 / 合并在 C^1_i 中找到的觀察來得出新的觀察。

這個過程可以繼續延伸,但由于計算限制,這里在深度為 2 時對該樹進行了截斷操作。

3. 將觀察變成代碼

在得到了觀察之后,必須先將它們實現成具體思路,然后再將它們轉譯成代碼。

具體來說,對于每個葉節點,將所有觀察以及原始問題 P 放入提示詞來調用 LLM,以便生成問題 P 的自然語言解決方案。為了提升多樣性,對于每個生成的思路,該團隊通過假設該思路是錯誤的來生成一個額外的思路,并要求 LLM 給出批評 / 反饋,從而將提議的思路翻倍了。

然后,再將這些自然語言解決方案轉譯成偽代碼;再把這些偽代碼轉譯成真正的 Python 代碼。

實驗

實驗采用了三個評估基準:MBPP+、HumanEval+ 和 LiveCodeBench。參數設置等細節請參閱原論文。

至于結果,該團隊報告了三種方法的結果,包括重復采樣、思路搜索和規劃搜索,見表 1、圖 1 和圖 5。

可以看到,規劃搜索和思路搜索的表現明顯優于基礎的采樣方法,其中規劃搜索方法在所有實驗方法和模型上都取得了最佳分數。

圖 7、8、9 展示了在每個數據集上的詳細 pass@k 結果。

可以看到,在 Claude 3.5 Sonnet 上使用規劃搜索方法時,在 LiveCodeBench 基準上得到了當前最佳的 pass@200 性能:77.0%。該表現優于不使用搜索時獲得的最佳分數(pass@1 = 41.4%)以及標準的 best-of-n 采樣方法的分數(pass@200 = 60.6%)。

此外,使用小型模型(GPT-4o-mini)執行規劃搜索時,僅僅 4 次嘗試后就能勝過未使用搜索增強的大型模型。這佐證了近期一些使用小模型進行搜索的有效性的研究成果。

在另外兩個編程基準 HumanEval+ 和 MBPP+ 上,規劃搜索也能帶來類似的提升。

通過研究特定模型的差異,該團隊注意到 pass@k 曲線所呈現的趨勢在所有模型中并不統一;事實上,每條曲線看起都不一樣。該團隊猜想部分原因是思路多樣性的變化。

該團隊還得到了一個有趣的觀察結果:規劃搜索并不利于某些模型的 pass@1 指標,其中最明顯的是 Sonnet 3.5 在 LiveCodeBench 上的表現 —— 這是實驗中表現最好的組合。

該團隊基于直覺給出了解釋:提升思路多樣性可能會降低生成任何特定思路的概率,同時增加在給定池中至少有一個正確思路的幾率。因此,pass@1 可能會略低于平常,但也正是由于這個原因,pass@k 指標可能會優于缺乏多樣性的思路池。

另外,表 1 和圖 1 給出了在嘗試 / 完成上經過歸一化的主要結果。其中針對每個問題,每種搜索方法都可以嘗試 k 次。

最后,該團隊還發現,在思路空間中觀察到的多樣性可用于預測搜索性能,這可通過模型 / 方法的 pass@1 與其 pass@200 之間的相對改進計算得到,如圖 6 所示。

雖然熵是最常見的多樣性度量是,但由于種種原因,熵不足以精確衡量 LLM 的多樣性。

因此,該團隊測量多樣性的做法是在所有生成的程序上使用簡單的配對策略,將其置于思路空間中進行計算。具體算法請訪問原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-24 10:26:34

語音AI人工智能

2022-02-11 10:47:17

CIOIT團隊企業

2025-05-14 00:01:10

RxJS異步編程響應式

2024-04-08 08:03:00

ChatGPTOpenAI大語言模型

2013-10-16 09:28:14

亞馬遜AWSSDN

2024-06-28 09:00:00

人工智能生成式人工智能

2024-07-11 08:34:48

2013-10-16 09:33:36

亞馬遜AWSSDN

2024-03-15 08:32:20

JavaScriptRust系統編程

2014-01-07 10:46:39

2011-08-11 17:05:26

2023-05-08 14:54:00

AI任務HuggingGPT

2019-11-27 10:40:34

數據工具CIO

2015-03-30 16:58:05

秘密武器華為

2015-06-08 09:50:07

Android M谷歌

2019-11-27 10:38:37

數據分析數據準備工具

2009-07-28 10:36:58

云計算Google秘密武器

2024-11-14 18:40:57

2025-04-25 10:03:12

2023-07-26 00:20:20

Java 8數組方式
點贊
收藏

51CTO技術棧公眾號

麻豆国产精品va在线观看不卡| 国产又黄又大久久| 国产午夜精品麻豆| 免费观看成人在线视频| 免费黄网在线观看| 成人在线综合网| 欧美性在线视频| 精品手机在线视频| 国产精品巨作av| 91福利视频久久久久| 18视频在线观看娇喘| 欧美男男同志| 麻豆精品视频在线观看视频| 国模私拍一区二区三区| 女人黄色一级片| 国产suv精品一区| 欧美日韩极品在线观看一区| 青草青青在线视频| 中国日本在线视频中文字幕| 波多野结衣91| 成人女保姆的销魂服务| 免费在线观看黄网站| 亚洲国产精品日韩专区av有中文| 欧美最猛性xxxxx直播| www污在线观看| 1769视频在线播放免费观看| 99久久久精品免费观看国产蜜| 欧美激情一级精品国产| 蜜桃无码一区二区三区| 成人av动漫| 91精品国产91热久久久做人人| 一区中文字幕在线观看| 三级视频在线| proumb性欧美在线观看| 不卡视频一区二区三区| 国产精品无码在线播放| 免费黄网站欧美| 国产不卡av在线| 国产一级18片视频| 亚洲黄色三级| 韩国三级电影久久久久久| 少妇aaaaa| 国产精品久久天天影视| 综合av色偷偷网| b站大片免费直播| 日韩影视高清在线观看| 亚洲精品国精品久久99热| 美女久久久久久久久| 精品久久国产一区| 日韩一级完整毛片| 亚洲精品在线网址| 麻豆精品久久| 欧美成人三级在线| 一边摸一边做爽的视频17国产| 性xxxxfreexxxxx欧美丶| 激情av一区二区| 六月丁香激情网| 天堂а√在线最新版中文在线| 国产色一区二区| 欧美日韩高清免费| 国产在线视频资源| 欧美国产精品一区二区三区| 日本一区二区三区精品视频| 成人字幕网zmw| 日韩少妇一区二区| 久久动漫网址| 欧美精品一区二区高清在线观看| 日本三级免费观看| 一个人www视频在线免费观看| 亚洲色图欧洲色图婷婷| a级片一区二区| 国产免费拔擦拔擦8x高清在线人| 中文字幕欧美日本乱码一线二线| 成人在线观看网址| 日韩中文字幕影院| 久久伊人中文字幕| 午夜欧美性电影| 成人高清免费在线| 亚洲国产三级在线| 亚洲成熟丰满熟妇高潮xxxxx| а天堂中文在线官网| 一二三区精品视频| 国产精品50p| 日韩成人亚洲| 欧美一区二区三区性视频| 久久精品aⅴ无码中文字字幕重口| 国精品产品一区| 5566中文字幕一区二区电影| 日本美女视频网站| 国产一区日韩| 欧美大片免费观看在线观看网站推荐| 国产成人免费观看网站| 伊人久久大香线| 性欧美长视频免费观看不卡| 国产精品露脸视频| 国产91对白在线观看九色| 欧美日韩免费高清| 91网址在线观看| 色婷婷综合久久久久中文一区二区| 成年女人18级毛片毛片免费| 亚洲承认视频| 精品国产一区二区精华| 人妻av无码一区二区三区| 亚洲字幕久久| 国产激情视频一区| 亚洲精品久久久蜜桃动漫| 久久午夜羞羞影院免费观看| 国产激情片在线观看| 666av成人影院在线观看| 日韩欧美久久一区| 丁香激情五月少妇| 亚洲第一精品影视| 成人黄色影片在线| 青青草观看免费视频在线| 亚洲欧美激情小说另类| 男人的天堂日韩| 老牛精品亚洲成av人片| 久久香蕉国产线看观看av| 一区二区三区在线观看av| 国产sm精品调教视频网站| 在线视频一区观看| 日日av拍夜夜添久久免费| 日韩成人在线视频观看| 欧美成人一二三区| 精彩视频一区二区| 水蜜桃一区二区三区| 黄色激情在线播放| 精品久久一二三区| 久久黄色免费网站| 国产在线精品一区二区| 手机看片福利永久国产日韩| 亚洲人成在线网站| 精品亚洲国产视频| 800av免费在线观看| 成人毛片老司机大片| 国产日韩欧美大片| 一级欧美视频| 久久精品久久久久| 国产女18毛片多18精品| 国产精品麻豆网站| 中文字幕第80页| 国产91精品对白在线播放| 欧美一区二区三区艳史| 女人18毛片水真多18精品| 亚洲一区二区三区在线| 丰满人妻一区二区三区大胸 | 欧美亚洲国产激情| 日本精品视频在线观看| 五月婷婷六月色| 精品国产鲁一鲁一区二区张丽| 99热一区二区| 国产在视频线精品视频www666| 久久手机精品视频| 国产精品高潮呻吟久久久| 国产精品福利影院| 伊人精品视频在线观看| 欧美日一区二区在线观看 | www.在线欧美| 欧美 丝袜 自拍 制服 另类| 日韩电影在线观看完整免费观看| 日韩在线免费视频观看| 中国老头性行为xxxx| 亚洲欧洲精品天堂一级| 亚洲欧美日韩一二三区| 欧美私人啪啪vps| 国产在线精品日韩| 依依综合在线| 中文字幕亚洲无线码a| 一级特黄录像免费看| 一区二区三区四区在线播放| 女同性恋一区二区三区| 爽好久久久欧美精品| 亚洲欧美精品| 成功精品影院| 国产精品久久久久久久久男| 国产秀色在线www免费观看| 日韩免费看网站| 亚洲 日本 欧美 中文幕| 中文子幕无线码一区tr| 香蕉视频xxxx| 中文在线一区| 在线丝袜欧美日韩制服| 精品人人人人| 国产日韩精品在线观看| av资源一区| 国产一区二区三区在线播放免费观看 | 亚洲无线观看| 欧美在线视频观看免费网站| 日本在线视频站| 亚洲成人网av| 亚洲视频在线观看一区二区| 一区二区三区**美女毛片| 亚洲激情视频小说| 国产精品一区二区在线观看不卡| 亚洲一区三区| 成人搞黄视频| 国产久一一精品| 高清视频在线观看三级| 中文字幕亚洲欧美日韩在线不卡| 欧美激情一区二区三区免费观看| 国产亚洲人成网站| 亚洲性图第一页| 免费观看成人鲁鲁鲁鲁鲁视频| 日韩jizzz| 波多野结衣欧美| 国产精品国产三级国产专播精品人 | 最近2019年中文视频免费在线观看| 亚洲视频 欧美视频| 亚洲精品伦理在线| 亚洲不卡的av| proumb性欧美在线观看| 日本高清免费观看| 免费的成人av| 日韩精品一区二区三区久久| 欧美黄色精品| 亚洲综合av一区| 精品国产美女| 玛丽玛丽电影原版免费观看1977 | 国产激情av在线| av在线不卡观看免费观看| 天天综合天天添夜夜添狠狠添| 亚洲mv大片欧洲mv大片| 欧美在线视频一区二区三区| 77成人影视| 亚洲xxxx做受欧美| 97精品资源在线观看| 日韩免费在线免费观看| 涩涩网在线视频| 久久免费精品视频| 国产偷倩在线播放| 欧美肥婆姓交大片| caoporn免费在线| 久久久国产精品免费| av在线之家电影网站| 亚洲日韩中文字幕| 国产在线观看黄| 亚洲日本欧美日韩高观看| 色呦呦中文字幕| 亚洲精品久久久久久久久久久久久 | 中文字幕乱码亚洲无线精品一区| 国产偷久久久精品专区| 久久久久亚洲精品中文字幕| 成人久久一区二区三区| 国产不卡精品| 97超级碰碰| 在线精品自拍| 国产精品三区在线| 加勒比色综合久久久久久久久| 国产精品久久久久久久久久久久久久 | 不卡av电影在线| 色综合久久66| 毛片在线免费播放| 欧美日韩电影一区| 一级α片免费看刺激高潮视频| 亚洲自拍偷拍九九九| 久久久久无码国产精品| 亚洲午夜免费电影| 91porny在线| 日本韩国一区二区| 亚洲在线精品视频| 欧美夫妻性生活| 亚洲成a人片在线| 亚洲国产毛片完整版| 欧美美乳在线| 丝袜情趣国产精品| 在线观看中文字幕的网站| 午夜精品美女自拍福到在线| 悠悠资源网亚洲青| 国产精品亚洲视频在线观看| 高清一区二区| 精品一区日韩成人| 青青草原综合久久大伊人精品| 精品一区二区三区日本| 欧美丝袜一区| 三级在线免费观看| 国产亚洲激情| 黄色一级片免费的| 不卡的av网站| 国产成人精品无码免费看夜聊软件| 成人精品一区二区三区中文字幕| 超碰人人草人人| 成人av午夜电影| 永久免费毛片在线观看| 一区二区三区日韩欧美精品| 男女啊啊啊视频| 欧美日韩久久一区二区| 丰满肥臀噗嗤啊x99av| 国产一区二区三区丝袜 | 超碰91人人草人人干| 91福利区在线观看| 国产精品旅馆在线| 北条麻妃在线一区二区免费播放| 51国偷自产一区二区三区| 外国成人在线视频| 国产一二三四区在线观看| 国产精品主播| 亚洲成人激情小说| 国产精品视频一二| 国产成人精品a视频一区| 欧美日韩成人高清| 青青青草原在线| 色综合久久88| 欧美与亚洲与日本直播| 国产成人免费电影| 97精品中文字幕| wwwxxx黄色片| 成人99免费视频| 国产精品丝袜一区二区| 在线一区二区视频| 日韩在线视频免费| 欧美多人爱爱视频网站| 日本精品久久| 日韩欧美视频一区二区三区四区| 国内精品久久久久久久久电影网| 欧美极品一区| 亚洲先锋成人| 国产又粗又长又爽又黄的视频| 韩国三级中文字幕hd久久精品| 免费人成视频在线播放| 欧美极品aⅴ影院| 国产剧情在线视频| 亚洲国产91色在线| 青草视频在线免费直播| 成人免费大片黄在线播放| 日韩伦理视频| 黄色国产小视频| 99国产欧美另类久久久精品| 青娱乐免费在线视频| 欧美一区二区三区思思人| 午夜免费视频在线国产| 国产精品久久精品| 精品国产123区| 国产麻花豆剧传媒精品mv在线| 麻豆国产精品一区二区三区 | 波多野结衣家庭主妇| 日韩成人中文电影| 水蜜桃在线视频| 美女被啪啪一区二区| 久久午夜精品| 日韩一区二区a片免费观看| 一本色道亚洲精品aⅴ| 五月天激情开心网| 88xx成人精品| 免费视频一区三区| 欧美日韩怡红院| 中文字幕av一区 二区| 在线亚洲欧美日韩| 日韩在线观看精品| 国产精品久久久久久久久久久久久久久 | 精品国产一区二区三区久久久狼| 在线看三级电影| 国产成人精品日本亚洲11| 国语精品一区| 亚洲国产精品狼友在线观看| 亚洲成人tv网| 美女做暖暖视频免费在线观看全部网址91| 亚洲成av人乱码色午夜| 丝袜在线视频| 99在线影院| 亚洲三级毛片| 亚洲区免费视频| 欧美系列亚洲系列| www国产在线观看| 国产精品青青草| 美女网站久久| 人人干在线观看| 精品国产制服丝袜高跟| 国产激情在线播放| 欧美精品在线一区| 麻豆国产欧美日韩综合精品二区| 91成年人网站| 欧美日韩免费观看一区二区三区 | 成人精品毛片| 久久无码高潮喷水| 国产精品久久99| 精品人妻伦一二三区久久| 91精品国产色综合久久不卡98| 国产精一区二区| 人妻久久久一区二区三区| 久久久久高清精品| 一本色道久久综合熟妇| 久久免费国产精品1| 成人免费a**址| 国产乱淫av片| 欧美色综合网站| 欧美14一18处毛片| 欧美日韩在线精品一区二区三区| 亚洲人成久久| 美女福利视频网| 亚洲丁香久久久| www一区二区三区| 日韩国产一级片| 亚洲欧美自拍偷拍色图| 视频国产在线观看| 3d动漫精品啪啪一区二区三区免费 | 久久久精品影院| 奇米亚洲欧美| 岛国精品一区二区三区| 欧美区视频在线观看| 日本不卡网站|