精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

思考、思考、思考不停歇,思維樹ToT「軍訓」LLM

人工智能 新聞
本文引入了一種名為 ToT(Tree of Thoughts)的新型語言模型推理框架,使用 LLM 模擬人類的決策過程,以解決復雜問題。

GPT 和 PaLM 等大型語言模型在處理數學、符號、常識和知識推理等任務時正變得越來越熟練。也許令人驚訝的是,所有這些進展的基礎仍然是生成文本的原始自回歸機制。它逐個 token 地進行決策,并按從左到右的方式生成文本。這樣簡單的機制是否足以構建一個通用問題求解器的語言模型呢?如果不行,哪些問題將挑戰當前的范式,應該采用什么樣的替代機制呢?

有關人類認知的文獻提供了一些線索來回答這些問題。關于「雙過程(dual process)」模型的研究表明,人們在進行決策時有兩種模式:一種是快速、自動、無意識的模式(System 1),另一種是緩慢、深思熟慮、有意識的模式(System 2)。這兩種模式以前與機器學習中使用的各種數學模型聯系在一起。例如,對人類和其他動物的強化學習的研究探討了他們進行聯想式的「無模型」學習或更加深思熟慮的「基于模型」的規劃的情況。語言模型的簡單聯想式 token 級選擇也類似于「System 1」,因此可能受益于更深思熟慮的「System 2」規劃過程的增強,該過程保持并探索當前選擇的多種替代方案,而不僅僅是選擇一個。此外,它會評估其當前狀態,并積極地展望或回溯以進行更全局的決策。

為了設計這樣一個規劃過程,來自普林斯頓大學、 Google DeepMind 的研究者選擇先回顧一下人工智能(和認知科學)的起源,汲取 Newell、Shaw 和 Simon 在上世紀 50 年代探索的規劃過程的靈感。Newell 和他的同事將問題解決描述為對組合式問題空間的搜索,這個空間被表示為一棵樹。因此,他們提出了適用于語言模型的思維樹(ToT)框架,用于通用問題求解。

圖片

論文鏈接:https://arxiv.org/pdf/2305.10601.pdf

項目地址:https://github.com/ysymyth/tree-of-thought-llm

正如圖 1 所示,現有的方法通過對連續語言序列進行采樣來解決問題,而 ToT 則積極地維護一棵思維樹,其中每個思維都是一個連貫的語言序列,作為解決問題的中間步驟(表 1)。

圖片

圖片

這樣一個高級語義單元使 LM 能夠通過深思熟慮的推理過程來自我評估不同中間思維對解決問題的進展貢獻情況(圖 2、4、6)。通過 LM 的自我評估和深思熟慮來實現搜索啟發式是一種新穎的方法,因為以前的搜索啟發式要么是編程的,要么是學習得來的。

圖片

圖片

最后,研究者將這種基于語言的生成和評估多樣思維的能力與搜索算法相結合,例如廣度優先搜索(BFS)或深度優先搜索(DFS),這些算法允許對思維樹進行系統性的探索,并具備展望和回溯功能。

在實驗階段,研究者設置了三項任務,即 24 點游戲、創意寫作和填字游戲(表 1),這些問題對現有的 LM 推理方法來說頗具挑戰性,即使對于 GPT-4 來說也不例外。這些任務要求具備演繹、數學、常識、詞匯推理能力,以及一種融入系統性規劃或搜索的方式。實驗結果表明,ToT 在這三個任務上取得了優越的成績,因為它具備足夠的通用性和靈活性,可以支持不同層次的思維、不同生成和評估思維的方式,以及適應不同問題性質的不同搜索算法。通過系統的實驗消融分析,作者還探討了這些選擇如何影響模型性能,并討論了未來訓練和使用 LM 的方向。

思維樹:利用語言模型進行深思熟慮的問題求解

一個真正的問題求解過程涉及反復使用可用信息來啟動探索,進而揭示更多信息,直到最終發現實現解決方案的方法。—— Newell 等

對人類問題求解的研究表明,人類通過搜索一個組合式問題空間來解決問題。這可以看作一棵樹,其中節點表示部分解,分支對應修改它們的運算符。選擇哪個分支是由啟發式決定的,這些啟發式幫助導航問題空間并引導問題解決者朝著解決方案的方向前進。這個觀點突出了使用語言模型來解決通用問題的現有方法的兩個關鍵缺點:1)局部上,它們不探索思維過程中的不同延續 —— 樹的分支。2)全局上,它們不包括任何類型的規劃、展望或回溯來幫助評估這些不同的選擇 —— 這種啟發式引導的搜索似乎是人類問題求解的特征。

為了解決這些問題,作者引入了思維樹(ToT),這是一種讓語言模型能夠在思維路徑上探索多種推理方式的范式(圖 1 (c))。ToT 將任何問題框架化為對樹的搜索,其中每個節點是一個狀態 s = [x, z_1???i ],表示帶有輸入和迄今為止的思維序列的部分解。ToT 的具體實例包括回答以下四個問題:

  • 1. 如何將中間過程分解為思維步驟;
  • 2. 如何從每個狀態生成潛在思維;
  • 3. 如何啟發式地評估狀態;
  • 4. 使用什么搜索算法。

1. 思維分解。雖然 CoT 在沒有明確分解的情況下對思維進行連貫的采樣,但 ToT 利用問題屬性來設計和分解中間思維步驟。如表 1 所示,根據不同的問題,思維可以是幾個單詞(填字游戲),一個等式(24 點游戲),或者是一段寫作計劃(創意寫作)。一般來說,思維應該足夠「小(small)」,以便 LM 能生成預期多樣化的樣本(如生成太「大(big)」而不連貫一本書),但思維又應該足夠「大」,以便 LM 可以評估其解決問題的前景(例如,生成一個 token 通常太小而無法評估)。

2. 思維生成器 G (p_θ, s, k)。給定樹狀態 s = [x, z_1???i],該研究利用兩種策略來為下一步思維 step 生成 k 個候選對象。

3. 狀態評估器 V (p_θ, S)。給定不同狀態的邊界,狀態評估器評估它們在解決問題方面的進展,以確定哪些狀態應該繼續探索,以及以何種順序進行探索。雖然啟發式是解決搜索問題的標準方法,但它們通常要么是編程式的(例如 DeepBlue),要么是需要經過學習的(例如 AlphaGo)。本文提出第三種替代方法,通過使用語言來有意地推理狀態。在適用的情況下,這種深思熟慮的啟發式方法可能比編程規則更靈活,比學習模型更有效。

與思維生成器類似,考慮兩種策略來單獨或一起評估狀態:

  • (1)獨立評估每個狀態
  • (2)跨狀態投票

這兩種策略,可以多次提示 LM 來整合價值或投票結果,用時間、資源、成本換得更加可靠、魯棒的啟發式。

4. 搜索算法。最后,在 ToT 框架內,可以根據樹結構即插即用不同的搜索算法。本文探索了兩個相對簡單的搜索算法,并將更高級的算法留作以后進行研究:

  • (1)廣度優先搜索(BFS)(算法 1)
  • (2)深度優先搜索(DFS)(算法 2)

從概念上講,ToT 作為語言模型解決一般問題的方法有幾個好處:

  • (1)通用性。IO、CoT、CoT- sc 和自我細化可以看作 ToT 的特殊情況(即深度和廣度有限的樹;圖 1);
  • (2)模塊化。基本的 LM 以及思維分解、生成、評估和搜索過程都可以獨立變化;
  • (3)適應性。可以適應不同的問題屬性、LM 能力和資源約束;
  • (4)便捷性。無需額外的訓練,只需要一個預訓練的 LM 就足夠了。

實驗結果

該研究提出了三個任務,即便使用最先進的語言模型 GPT-4,通過標準的 IO prompting 或思維鏈(CoT)prompting 進行采樣,這些任務仍然具有挑戰性。

24 點數學游戲 

給定四個數字,玩家需要在限定的時間內使用這四個數字和基本數學運算符號(加號、減號、乘號、除號)來創建一個表達式,使其結果為 24。比如,給定數字:4、6、8、2,一個可能的解法是:(8 ÷ (4 - 2)) × 6 = 24。

如表 2 所示,使用 IO、CoT 和 CoT-SC prompting 方法在任務上表現不佳,僅實現了 7.3%、4.0% 和 9.0% 的成功率。相比之下,b(breadth) = 1 的 ToT 已經實現了 45% 的成功率,而 b = 5 時則達到了 74%。他們還考慮了 IO/CoT 的 oracle 設置,通過使用 k 個樣本中的最佳值來計算成功率 (1 ≤ k ≤ 100)。

為了將 IO/CoT(k 個最佳結果)與 ToT 進行比較,研究者考慮在 ToT 中計算每個任務中訪問的樹節點數量,其中 b = 1???5,并將 5 個成功率映射在圖 3 (a) 中,將 IO/CoT(k 個最佳結果)視為在賭博機中訪問 k 個節點。毫不奇怪,CoT 比 IO 更具擴展性,而最好的 100 個 CoT 樣本實現了 49% 的成功率,但仍遠遠不及在 ToT 中探索更多節點(b > 1)。

圖片

下圖 3 (b) 分解了 CoT 和 ToT 樣本在任務失敗時的情況。值得注意的是,大約 60% 的 CoT 樣本在生成第一步,相當于生成前三個單詞 (例如 “4 + 9”) 后就已經失敗了。這讓直接從左到右解碼的問題更加凸顯了。

圖片

創意寫作

研究者還發明了一個創意寫作任務,輸入 4 個隨機句子,輸出一篇包含四段的連貫文章,每段分別以 4 個輸入句子結尾。這樣的任務是開放式和探索性的,挑戰了創造性思維和高級規劃。

下圖 5 (a) 顯示了 GPT-4 在 100 個任務中的平均分數,其中 ToT (7.56) 比 IO (6.19) 和 CoT (6.93) 生成了更連貫的段落。雖然這樣的自動度量可能會有噪聲,但圖 5 (b) 證實,人類在 100 passage 對中有 41 對更喜歡 ToT 而不是 CoT,而只有 21 對更喜歡 CoT 而不是 ToT (其他 38 對被發現 “相似連貫”)。

最后,迭代優化算法在該自然語言任務上取得了更好效果,IO 一致性得分從 6.19 提高到 7.67,ToT 一致性得分從 7.56 提高到了 7.91。研究者認為,這可以看作是 ToT 框架中思維生成的第三種方法,新思維可以從細化舊思維中產生,而不是順序生成。

圖片

迷你填字游戲

在《24 點數學游戲》和創意寫作中,ToT 是比較淺顯的 —— 最多需要 3 個思考步驟就能達到最終的輸出。研究者將探索 5×5 迷你填字游戲作為有關自然語言的更難一層的搜索問題。同樣,這次的目標不僅僅是解決任務,因為一般填字游戲可以通過專門的 NLP pipeline 輕松解決,該 pipeline 利用大規模檢索而不是 LM。相反,研究者的目標是探索語言模型作為一個通用問題求解器的極限,探索它自身的思維,并以嚴謹的推理作為啟發式來指導自己的探索。

如下表 3 所示,IO 和 CoT 提示方法表現不佳,單詞級別的成功率低于 16%,而 ToT 顯著提高了所有指標,實現了 60% 的單詞級別成功率,在 20 個游戲中解決了 4 個。考慮到 IO 和 CoT 缺乏嘗試不同線索、更改決策或回溯的機制,這樣的提升并不令人驚訝。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-26 07:42:39

2023-05-22 15:17:02

谷歌AI

2013-11-11 09:26:50

編程思考

2022-09-01 09:52:18

應用解決方案

2017-06-27 14:49:20

深度學習機器學習

2025-08-11 07:00:00

2012-11-08 11:19:38

2020-09-17 09:37:36

云計算公共云

2009-11-30 18:00:33

Suse Linux

2013-09-12 15:51:04

編程文化垃圾代碼移動開發

2013-06-05 09:04:00

SDN集中控制數據中心

2022-10-24 13:17:46

大數據云計算移動計算

2009-12-10 09:37:31

Linuxdriver編寫思考

2025-04-27 08:55:00

2015-04-09 11:27:34

2025-03-21 13:25:14

2015-04-20 11:09:55

2024-05-28 08:46:50

遞歸算法題函數

2025-09-04 08:53:38

2015-07-17 10:05:03

面試思考
點贊
收藏

51CTO技術棧公眾號

最新黄网在线观看| 高清欧美性猛交| 国产极品精品在线观看| 在线免费观看av网| 黄色在线观看国产| 免费精品一区| 蜜臀久久99精品久久久久宅男| 日韩精品在线看片z| 三级三级久久三级久久18| 免费视频网站www| 亚洲国产综合在线观看| 久久久亚洲精品一区二区三区| 久久久久久久999| 免费不卡av网站| 黄色免费网站在线观看| 青青草国产成人99久久| 亚洲欧美一区二区三区四区 | 综合在线观看色| 欧美与黑人午夜性猛交久久久| 日韩高清一二三区| 26uuu亚洲电影在线观看| 91社区在线播放| 国内精品小视频在线观看| 人妻体内射精一区二区| 成人国产二区| 26uuuu精品一区二区| 成人激情视频在线| 天堂av免费在线| 青青草国产一区二区三区| 亚洲国产成人va在线观看天堂| 91视频99| 久久精品国产av一区二区三区| 亚洲精品a区| 亚洲一区二区欧美日韩| 国产综合色一区二区三区| 国产极品美女高潮无套嗷嗷叫酒店| 国产一区二区三区四区二区| 欧洲精品一区二区| 亚洲精品国产精品国自产| 中文字幕日产av| 91精品国产自产在线观看永久∴ | 97精品一区二区三区| 中文字幕精品视频在线| 午夜激情电影在线播放| www国产成人| 成人免费视频网站| 四虎永久在线精品| 免费av一区二区三区四区| 在线中文字幕一区| 男人日女人逼逼| 乱精品一区字幕二区| 亚洲欧美久久| 日韩中文字幕亚洲| 日批视频免费看| 涩涩涩久久久成人精品| 欧美日韩一卡二卡三卡| 99亚洲国产精品| 西西人体44www大胆无码| 日韩精品色哟哟| 久久精品成人一区二区三区 | 成人免费视频一区| 69**夜色精品国产69乱| 免费黄色在线网址| 亚洲国产aⅴ精品一区二区| 福利一区福利二区微拍刺激| 亚洲成色最大综合在线| 国产一区二区三区不卡在线| 国产精品一级黄| 欧美综合激情网| 亚洲一级生活片| 亚洲桃色综合影院| 在线电影国产精品| 国产二区视频在线播放| 免费av网站在线看| 99久精品国产| 91国产在线免费观看| 国产熟女一区二区三区四区| 香蕉久久久久久久av网站| 91国内精品久久| 国产精品va无码一区二区三区| 66久久国产| 欧美日韩国产第一页| 日韩影视一区二区三区| 日韩在线中文| 亚洲精品久久久久久久久久久| 97超碰成人在线| 伊人久久国产| 欧洲亚洲国产日韩| 99久久99精品| 欧美网色网址| 欧美一区二区在线视频| 玩弄japan白嫩少妇hd| 丰满诱人av在线播放| 国产精品久久久久久久久搜平片| 精品国产一二| 亚洲精品久久久狠狠狠爱| 久久精品国产网站| 国产精品99久久久久久www| 一级黄色大片免费| 亚洲一级电影| 久久国产精品久久久久| 国产精品天天干| 网曝91综合精品门事件在线| 精品动漫一区二区三区在线观看| 国产亚洲视频一区| 老牛精品亚洲成av人片| 精品毛片乱码1区2区3区| 美女被艹视频网站| 人人精品视频| 久久亚洲春色中文字幕| 黄色一级大片在线免费观看| 在线 亚洲欧美在线综合一区| 国产精品wwwwww| 四虎影院在线免费播放| 玖玖在线精品| 国产精品69久久久久| 精品国精品国产自在久不卡| 国产美女精品一区二区三区| 国产中文字幕亚洲| 91精品国产色综合久久不8| 成人精品国产一区二区4080| 国产精品一区二区在线观看 | 国产另类xxxxhd高清| 香港成人在线视频| 97超碰人人澡| 亚洲性色av| 日韩午夜激情视频| 涩视频在线观看| 国产伦乱精品| 亚洲精品中文字幕女同| 人妻av无码一区二区三区| 欧美军人男男激情gay| 中文字幕在线日韩| 卡通动漫亚洲综合| 免费成人你懂的| 女人一区二区三区| a中文在线播放| 亚洲欧美成aⅴ人在线观看| 国产女教师bbwbbwbbw| 黄色污网站在线观看| 图片区小说区国产精品视频| 日韩精品一区二区三区色欲av| 超碰97久久| 亚洲免费成人av电影| 动漫精品一区一码二码三码四码| 韩国成人福利片在线播放| 99在线观看| 色视频在线观看| 中文字幕成人av| 欧美 日韩 国产精品| 日本a人精品| 色哟哟亚洲精品一区二区| 加勒比av在线播放| 国产精品一区二区在线看| 资源网第一页久久久| 国产天堂在线播放视频| 日韩欧美色综合网站| 免费三片在线播放| 成人一区二区三区视频在线观看| 国产乱子伦精品视频| 日本精品国产| 欧美激情视频一区二区三区不卡| 香蕉影院在线观看| 91蝌蚪porny九色| 免费高清在线观看免费| 精品午夜av| 美日韩精品免费观看视频| 国产黄色小视频在线观看| 久久先锋影音av鲁色资源网| 国产盗摄视频在线观看| 自拍偷自拍亚洲精品被多人伦好爽| 日韩精品极品视频| 久久久久久久久久久久久女过产乱| 在线视频观看日韩| 91九色精品视频| 九一国产在线| 欧美色图12p| 天天天天天天天天操| 粉嫩嫩av羞羞动漫久久久| 亚洲一区不卡在线| 成人性生活av| 在线成人免费网站| 黄色片中文字幕| 国产精品伦一区| 无码无遮挡又大又爽又黄的视频| 免费看日本一区二区| 国产精品中文字幕在线| 日本在线视频1区| 欧美亚洲免费在线一区| theav精尽人亡av| 激情婷婷欧美| 色阁综合av| 久久伊人精品| 日本午夜在线亚洲.国产| 欧美特级特黄aaaaaa在线看| 中文字幕一区二区三| 亚洲午夜精品在线观看| 亚洲激情中文| 精品国产乱码久久久久久久软件| 外国电影一区二区| 亚洲日韩欧美视频一区| 欧美日韩乱国产| 99视频精品在线| 日韩中字在线观看| 全球成人免费直播| 国产精品久久久久久久久| 中文av资源在线| 亚洲欧美国产va在线影院| 999精品国产| 黑人巨大精品欧美一区二区三区| 国产精品国产三级国产传播| 麻豆精品久久久| 青青草成人免费在线视频| julia中文字幕一区二区99在线| 国产999在线| 国产精品69xx| 久久精品国产久精国产一老狼 | 日韩一级特黄| 欧美在线观看网址综合| 手机电影在线观看| 欧美一级欧美一级在线播放| 亚洲影院在线播放| 亚洲一区在线电影| 欧美性x x x| 国产区在线观看成人精品| 亚洲欧美激情网| 精品一区二区三| 久久精品国产第一区二区三区最新章节 | 日韩av在线免费| 成人av手机在线| 56国语精品自产拍在线观看| www.av免费| 国产欧美日韩综合| 熟女俱乐部一区二区视频在线| 懂色一区二区三区免费观看| 激情图片中文字幕| 美女久久久精品| 超碰影院在线观看| 久久国产福利| 宅男在线精品国产免费观看| 精品一区二区三| 日韩视频精品| 久久伊人影院| 成人免费午夜电影| 91精品国产色综合久久不卡粉嫩| 欧美日本啪啪无遮挡网站| 日本中文字幕在线2020| 日韩一区二区在线免费观看| 一级aaaa毛片| 69久久夜色精品国产69蝌蚪网| 中文字幕你懂的| 欧美男人的天堂一二区| 91国内精品久久久| 91精品国产免费| 精品人妻一区二区三区换脸明星 | 亚洲一级二级三级在线免费观看| 波多野结衣欲乱| 亚洲人成亚洲人成在线观看图片| 国产精品果冻传媒| av一区二区三区| 亚洲国产第一区| 国产在线国偷精品产拍免费yy| 色综合色综合色综合色综合| 99成人在线| 中文字幕久精品免| 综合激情网站| 日韩欧美亚洲v片| 成人综合专区| 三级在线免费观看| 激情久久久久久久| 男人操女人免费软件| 日韩成人一级大片| 欧美日韩精品区别| 鲁大师成人一区二区三区| 麻豆av免费在线| 精品一区精品二区高清| 欧美在线观看成人| 日韩激情视频在线观看| 欧美日韩激情视频在线观看| 日本色综合中文字幕| 国产传媒免费观看| 波波电影院一区二区三区| 中文字字幕码一二三区| 国产91在线观看丝袜| 久久人人爽人人人人片| 国产欧美视频一区二区| 欧美人妻精品一区二区免费看| 午夜精品福利在线| 亚洲视屏在线观看| 一本色道久久综合亚洲91| 久久精品性爱视频| 色激情天天射综合网| 免费在线观看黄网站| 亚洲最新视频在线观看| 国产一区二区精彩视频| 亚洲第一综合色| 探花国产精品一区二区| 欧美成va人片在线观看| 国产三区四区在线观看| 亚洲跨种族黑人xxx| 免费av在线播放| 日韩av大片在线| 亚洲一区网址| 亚洲国产高清国产精品| 亚洲国产激情| 婷婷激情小说网| 国产日韩欧美精品一区| 受虐m奴xxx在线观看| 亚洲精品视频观看| www.日韩一区| 欧美亚洲综合久久| 人妻少妇精品无码专区| 中文字幕国产亚洲2019| 日韩欧美一中文字暮专区| 欧美亚洲另类在线| 麻豆久久一区| 亚洲一二区在线| 日韩国产欧美在线观看| 久久久午夜精品福利内容| 亚洲另类在线制服丝袜| 最新中文字幕免费| 日韩国产精品亚洲а∨天堂免| 2021国产在线| 成人福利视频网| 日韩欧美1区| 黄色aaa级片| 久久一区二区视频| www日韩精品| 精品国免费一区二区三区| 麻豆91在线| 国产日韩在线看| 欧美日韩一区二区综合| 精品中文字幕av| 成人97人人超碰人人99| 欧美精品一区二区蜜桃| 91麻豆精品国产91久久久更新时间| 国产区视频在线播放| 欧美在线观看日本一区| 天天躁日日躁狠狠躁欧美| 成人午夜精品久久久久久久蜜臀| 国产·精品毛片| 国产极品国产极品| 337p亚洲精品色噜噜狠狠| 秋霞午夜在线观看| 国产精品爽爽爽爽爽爽在线观看| 欧美日中文字幕| 91欧美视频在线| 国产精品久久久久久户外露出 | 日韩精品久久久久久久玫瑰园 | 综合激情视频| 欧美性猛交xx| 一区二区免费在线播放| 亚洲免费黄色片| 久久久久久久一| 日韩高清成人在线| 精品99在线视频| 国产午夜精品福利| 国产女优在线播放| 日韩在线视频二区| 精品国产亚洲一区二区三区大结局 | 中文无码久久精品| avtt中文字幕| 午夜精品福利在线| 久久电影中文字幕| 国产狼人综合免费视频| 亚洲成人精品| 免费不卡的av| 中文字幕欧美日韩一区| 在线观看国产精品入口男同| 日日噜噜噜夜夜爽亚洲精品| 自拍偷拍亚洲图片| 男女猛烈激情xx00免费视频| www国产精品av| 一区二区日韩在线观看| 欧美风情在线观看| 欧洲vs亚洲vs国产| av污在线观看| 99精品视频在线观看| 在线免费观看国产精品| 日韩中文字幕网| 风间由美性色一区二区三区四区 | 成人观看免费视频| 在线中文字幕不卡| 欧美成人精品一区二区男人看| 国产欧美日韩精品丝袜高跟鞋| 欧美全黄视频| 人人爽人人爽av| 性欧美疯狂xxxxbbbb| а天堂8中文最新版在线官网| 91在线|亚洲| 亚洲一区二区三区免费在线观看 | 久久久精品亚洲| 国产精品白浆| 艹b视频在线观看| 亚洲午夜精品在线| h视频在线观看免费| 国产在线一区二区三区四区| 麻豆免费精品视频| 亚洲欧美在线观看视频| 日韩中文字幕在线视频播放|