精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福和OpenAI提出meta-prompting,最強零樣本prompting技術誕生了

人工智能 新聞
在我們的工作群里,經常會有一位管理者來協調每個人的工作并匯總工作成果。近日,斯坦福大學的 Mirac Suzgun 和 OpenAI 的 Adam Tauman Kalai 提出了一種新的 prompting 方法:meta-prompting。

最新一代語言模型(尤其是 GPT-4、PaLM 和 LLaMa)已經成功拓展了自然語言處理和生成的邊界。這些大規模模型可以解決許多不同任務,從寫莎士比亞風格的十四行詩到總結復雜的醫療報告和解決競賽級的編程問題。盡管這些模型可以解決多種多樣的問題,但它們并非總是正確的,有時候也會生成不準確、誤導性或矛盾的響應結果。

隨著這些模型的運行成本越來越低,人們自然會問:是否可以使用腳手架系統(scaffolding system)并使用多個語言模型查詢來優化并且提升這些模型輸出的準確度和穩健性。

斯坦福和 OpenAI 的這項研究提出了一種可用于提升語言模型的功能和性能的新技術,稱為 meta-prompting。

圖片


  • 論文標題:Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding
  • 論文地址:https://arxiv.org/abs/2401.12954
  • 項目地址:https://github.com/suzgunmirac/meta-prompting

這種技術涉及構建一個高層級的「元」 prompt,其作用是指示語言模型做到以下幾點:

1. 將復雜的任務或問題分解成更小的容易解決的子任務;

2. 使用適當且詳細的自然語言指令將這些子任務分配給專業的「專家」模型;

3. 監督這些專家模型之間的通信;

4. 通過這個過程應用其自己的批判性思維、推理和驗證技能。

對于可使用 meta-prompting 有效調用的語言模型,當對其進行查詢時,該模型的作用是作為指揮員(conductor)。它會輸出一組消息歷史(或者稱為敘述(narrative)),其由多個專家模型的響應構成。這個語言模型首先會負責生成消息歷史中的指揮員部分,這其中包括專家的選取以及為它們構建特定的指令。但是,同一個語言模型本身也會作為獨立專家,其會基于專業知識以及指揮員為每條具體查詢選取的信息生成輸出。

這種方法可讓單個統一的語言模型維持連貫一致的推理路線,同時還可以利用各種不同的專家角色。通過動態地為 prompting 選擇上下文,這些專家能為該過程引入全新的視角,同時指揮員模型還能保持對完整歷史的鳥瞰視角并維持協調。

因此,這種方法能讓單個黑箱語言模型既有效作為中心指揮員,同時又充當一系列不同專家,這樣便可以得到更加準確、可靠和連貫一致的響應。

這里新提出的 meta-prompting 技術組合并擴展了近期研究提出的多種不同的 prompting 思想,包括高層級規劃和決策、動態人設分配、多智能體辯論、自我調試和自我反思。

meta-prompting 的一個關鍵方面是其具有一個性質:不受具體任務影響。

傳統的腳手架方法需要針對每個任務調整具體的指令或示例,而 meta-prompting 則不同,其在多種任務和輸入上都采用了同一套高層級指令。對怕麻煩的用戶來說,這種通用性尤其有益,因為這樣就不必為每個具體任務提供詳細的示例或具體指示了。

舉個例子,對于「寫一首關于自拍的莎士比亞式十四行詩」這樣的一次性請求,用戶無需補充高質量的新古典主義詩歌示例。

meta-prompting 方法能提供一種廣泛、靈活的框架,而又不會影響其特定性或相關性,從而可以提升語言模型的實用性。此外,為了展現 meta-prompting 方法的通用性和整合能力,該團隊還對其系統進行了增強,使其可以調用 Python 解釋器。如此一來,該技術就能支持更加動態和全面的應用,從而進一步提升其有效處理多種任務和查詢的潛力。

圖 2 展示了一個 meta-prompting 的會話流程示例。

圖片

其描繪了元模型(Meta Model,即指揮員模型)使用輸入和來自多個不同的專業專家模型或代碼執行的輸出解讀其自身輸出的過程。這樣的配置讓 meta-prompting 成為了一個近乎通用的工具。其允許將多個語言模型的交互和計算聚合成單一且連貫的敘述。meta-prompting 的不同之處在于其讓語言模型自己決定要使用哪些 prompt 或使用哪些代碼段。

該團隊使用 GPT-4 作為基礎語言模型進行了全面的實驗,比較了 meta-prompting 與其它無關任務型腳手架方法。

實驗發現,meta-prompting 不僅能提升整體性能,而且在多個不同任務上也往往能實現新的最佳結果。其靈活性尤其值得稱道:指揮員模型有能力調用專家模型(基本上就是其本身,只是指令不一樣)執行多種不同的功能。這些功能可能包括點評之前的輸出、為特定任務選取特定 AI 人設、優化生成的內容、確保最終輸出在實質和形式上都滿足所需標準。

如圖 1 所示,相比之前的多種方法,新方法的提升很明顯。

圖片

meta-prompting

直覺知識和抽象概述。meta-prompting 的工作方法是使用一個模型來協調和執行多個獨立查詢,然后將它們的響應綜合起來,進而渲染得到一個最終響應。從原理上講,該機制采用了一種集成方法,即借用獨立專業模型的力量和多樣性來協作解決和處理涉及多方面的任務或問題。

meta-prompting 策略的核心是其淺層的結構,其中使用一個單一模型(稱為元模型)作為權威的主實體。

這種 prompting 結構類似于管弦樂隊,其中指揮家的角色就由元模型充當,每位音樂演奏者都對應一個不同的特定領域的模型。正如指揮家可以讓多種樂器協調彈奏出和諧的旋律一樣,元模型也可以將多個模型的解答和見解組合起來,為復雜的問題或任務給出準確且全面的解答。

從概念上講,在這個框架內,特定領域的專家可以有多種多樣的形式,比如針對特定任務微調過的語言模型、用于處理特定類型查詢的專用 API,甚至還可以是計算器這樣的計算工具或用于執行代碼的 Python 解釋器等代碼工具。這些功能各異的專家都在元模型的監督下接受指示和統一,無法直接相互互動或交流。

Algorithmic Procedure. 算法 1 給出了新提出的 meta-prompting 方法的偽代碼。

圖片

簡單總結一下,首先是對輸入執行變換,使其符合適當的模板;然后執行以下循環:(a) 向元模型提交 prompt,(b) 如有需要,使用特定領域的專家模型,(c) 返回最終響應,(d) 處理錯誤。

需要指出,該團隊在實驗中采用的元模型和專家模型都是 GPT-4。它們的角色差異是由各自收到的指令確定的;其中元模型遵循圖 3 提供的一組指令,而專家模型則遵從元模型在推理時間動態確定的指令。

圖片

實驗設置

基準

該團隊比較了 meta-prompting 與以下 prompting 方法的無關任務型零樣本式版本:

  • 標準 prompting
  • 零樣本思維鏈 prompting
  • 專家 prompting
  • 多人設 prompting

數據集和任務

該團隊在實驗中采用了多種任務和數據集,它們需要多種不同能力,比如數學和算法推理、特定領域知識和文學創造力。這些數據集和任務包括:

  • Game of 24:目標是使用四個給定數值(每個只能使用一次)構建一個結果為 24 的算術表達式。
  • 三個 BIG-Bench Hard(BBH)任務:Geometric Shapes、MultiStep Arithmetic Two 和 Word Sorting;另外還有一個直接從 BIG-Bench 套件獲取的推理任務 Checkmate-in-One。
  • Python Programming Puzzles(P3),即 Python 編程題,包含多個難度。
  • Multilingual Grade School Math,即多語言小學數學,這是 GSM8K 數據集的一個多語言版本,包含孟加拉語、日語和斯瓦希里語等語言。
  • Shakespearean Sonnet Writing,即莎士比亞式十四行詩寫作,這是該團隊創建的一個新任務,目標是寫出按「ABAB CDCD EFEF GG」嚴格押韻的十四行詩,其中應一詞不差地包含所提供的三個詞。

答案提取和評估協議

如圖 3 所示,對于新提出的 meta-prompting 方法,系統指令會鼓勵元模型以特定格式給出最終答案。

至于評估,則會根據任務的性質和形式,采用以下三個指標之一:

  • Exact Match (EM),精確匹配
  • Soft Match (SM),軟匹配
  • Functionally Correct (FC),功能正確性

模型和推理

該團隊的主要實驗都使用了 GPT-4(gpt-4-32k)。一些補充實驗則使用了 GPT-3.5(gpt-35-turbo)。不管是 GPT-3.5 還是 GPT-4,都使用了以下指令進行微調。

在全部實驗中,元模型使用的參數和系統指令都是一樣的。溫度值設置為 0,top-p 值設置為 0.95,最大 token 數為 1024。

主要結果和討論

表 1 總結了實驗結果,新提出的 meta-prompting 的優越性得到了體現。

圖片

觀察這些方法在所有任務上的總體性能,可以看到 meta-prompting 為準確度帶來的顯著提升,尤其是使用了 Python 解釋器工具輔助時。

具體來說,meta-prompting 方法勝過標準 prompting 方法 17.1%,超過專家(動態) prompting 17.3%,也比多人設 prompting 優秀 15.2%。

另外從圖 4 和 5 可以看到,相比于不使用 Python 解釋器的 meta-prompting,整合 Python 解釋器時,在不同任務上的整體性能可獲得 11.5% 的提升。

圖片

圖片

該團隊還在論文中深入討論了從實驗中得到了關鍵見解,包括 meta-prompting 的性能優越性、零樣本分解能力、錯誤檢測、信息聚合和代碼執行等。這里我們就不詳細說明了,但 Fresh Eyes 這一概念倒是值得介紹一番。

Fresh Eyes 也就是用另一雙眼睛看,這有助于緩解語言模型的一個眾所周知的問題:犯錯時會一路錯到底并且會表現出過度自信。

Fresh Eyes 是 meta-prompting 與多人設 prompting 的一大關鍵差異,并且實驗結果也證明了其具有優勢。在 meta-prompting 中,可以使用專家(或人設)來對問題進行重新評估。這種方法有機會得到全新的見解,從而有望發現之前未被發現有誤的解答。

基于認知心理學,Fresh Eyes 可以帶來更具創造性的問題求解和錯誤檢測結果。

下面的例子展示了 Fresh Eyes 在實踐中的好處。假設任務是 Game of 24,提供的數值是 6、11、12 和 13,要求構建一個能讓結果為 24 的算術表達式并且每個數只能用一次。其歷史過程可能會是這樣:

1. 元模型提議咨詢解答數學問題的專家模型和使用 Python 編程。它強調了對準確度和遵守約束條件的必要性,并建議如有需要可讓另一個專家參與進來。

2. 一個專家給出了一個解答,而另一個專家則認為其不對,于是元模型建議寫一個 Python 程序來尋找有效的解。

3. 咨詢一個編程專家,讓其寫一個程序。

4. 另一個編程專家在腳本中發現了一個錯誤,然后對其進行修改并執行修改后的腳本。

5. 再咨詢一個數學專家,讓其驗證該程序輸出的解。

6. 驗證完成后,由元模型將其輸出作為最終答案。

這個示例展現了 meta-prompting 如何在每一步納入新觀點,這樣不僅能找到解答,而且還能有效識別和糾正錯誤。

該團隊最后討論了一些與 meta-prompting 有關的其它問題,包括對所使用的專家類型的分析、獲得最終結果所需的對話輪數以及如何應對無解問題等情況。詳情請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-29 12:49:00

AI模型

2023-11-05 15:15:47

AI技術

2024-06-25 09:35:04

模型訓練

2025-02-06 11:25:50

2021-07-24 10:19:14

AI 數據克隆

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2025-02-08 11:12:34

ZAPS影像模型

2023-02-03 16:31:02

模型

2024-11-20 16:51:00

目標檢測模型

2023-02-24 10:22:15

2024-01-02 14:07:00

2024-09-12 08:00:00

2024-07-09 12:59:37

2023-03-31 13:55:00

模型智能

2024-04-24 09:47:36

2025-06-13 00:03:00

2022-06-13 11:57:04

谷歌模型計算

2023-04-10 15:52:57

模型樣本

2023-11-08 17:29:00

AI模型
點贊
收藏

51CTO技術棧公眾號

天天综合视频在线观看| 亚洲一级片免费看| 精品久久97| 午夜精品久久久久久| 精品免费视频123区| 神马久久久久久久| 999视频精品| 精品久久人人做人人爽| 一本大道熟女人妻中文字幕在线 | 国产电影一区二区在线观看| 欧美一区二区三区日韩| 精品国产一区三区| avtt亚洲| 成人精品视频.| 国产精品久久久久7777婷婷| 91视频综合网| 自拍亚洲一区| 日韩午夜在线播放| 久久国产色av免费观看| yellow91字幕网在线| xnxx国产精品| 亚洲一区免费网站| 久久久久久在线观看| 一区二区三区四区在线观看国产日韩| 亚洲精品www久久久久久广东| 亚洲一级免费观看| 女厕盗摄一区二区三区| 中文字幕一区二区三区色视频| 国产亚洲欧美一区二区三区| 亚洲中文字幕在线一区| 中文一区二区| 裸体女人亚洲精品一区| 中文字幕国产专区| 7m精品国产导航在线| 欧美日韩欧美一区二区| 男人揉女人奶房视频60分| 午夜dj在线观看高清视频完整版 | 99国精产品一二二线| 中文字幕+乱码+中文乱码www| 一区三区视频| 久久国产色av| 国产白丝一区二区三区| 欧美日韩爱爱| 日韩av影视在线| 日韩欧美色视频| 欧美91在线|欧美| 日本韩国欧美一区二区三区| 999在线观看视频| 97超碰在线公开在线看免费| 国产精品福利电影一区二区三区四区| 蜜桃999成人看片在线观看| 亚洲黄色a级片| 国产精品夜夜爽| 成人福利网站在线观看11| 成人av网站在线播放| 国产亚洲一级| 97色在线观看| 好吊操这里只有精品| 一区久久精品| 午夜精品福利电影| 九九九国产视频| 亚洲国产91| 九九久久国产精品| 国产十六处破外女视频| 综合久久99| 欧美国产日韩一区| 久久精品国产av一区二区三区| 亚洲欧美在线专区| 欧美大胆a视频| 强行糟蹋人妻hd中文| 欧美日韩日本国产亚洲在线| 欧美国产日韩精品| 日本少妇激情舌吻| 玛雅亚洲电影| 性xxxxfjsxxxxx欧美| 日韩高清中文字幕一区| 久久免费电影网| 欧美日韩精品一区二区三区四区| 色欲色香天天天综合网www| 欧美黄色视屏| 亚洲第一狼人社区| 国产人妻777人伦精品hd| a级大胆欧美人体大胆666| 亚洲成在人线在线播放| 国产在线精品91| 一区二区乱码| 欧美在线免费观看亚洲| 成 人 黄 色 小说网站 s色| 韩国一区二区三区视频| 337p日本欧洲亚洲大胆精品| 欧美 变态 另类 人妖| 国产精品亚洲二区| 色yeye香蕉凹凸一区二区av| 欧美一区免费观看| 亚洲国产二区| 国产精品成人aaaaa网站| 在线观看免费视频a| 国产高清久久久| 国产亚洲第一区| 国产福利电影在线| 亚洲人成亚洲人成在线观看图片 | 中文字幕精品在线不卡| 香蕉视频在线网址| 波多野结衣久久| 色女孩综合影院| 中文字幕55页| 欧美绝顶高潮抽搐喷水合集| 中文字幕久热精品视频在线| 国产一区二区视频在线观看免费| 国产日韩专区| 成人国产精品久久久| 韩国av免费在线观看| 国产日韩精品一区二区浪潮av| 三年中文高清在线观看第6集| brazzers在线观看| 欧美日韩国产另类一区| 五十路六十路七十路熟婆| 日韩电影免费网址| 91国内免费在线视频| 国产一区二区视频免费观看| 国产98色在线|日韩| 日韩妆和欧美的一区二区| 91精品久久| 欧美性xxxxxxxx| 色婷婷免费视频| 一区二区电影| 国产精品国产三级国产aⅴ9色| 亚洲国产视频一区二区三区| 国产精品二三区| 成人久久久久久久久| 亚洲伊人影院| 久久视频在线免费观看| 精品无码一区二区三区的天堂| 国产成人av影院| 一区二区三区av| 欧美大胆性生话| 亚洲第一免费播放区| 永久久久久久久| 日本伊人色综合网| 欧美国产一区二区在线| 成人女同在线观看| 欧美一级二级在线观看| 萌白酱视频在线| 免费在线观看日韩欧美| 久久国产主播精品| 成年人视频免费在线播放| 欧美一区二区在线不卡| 亚洲天堂精品一区| 日韩二区三区四区| 欧美一区免费视频| 成人美女大片| 亚洲精品一区中文字幕乱码| 一级免费在线观看| 成人网男人的天堂| 亚洲色成人www永久在线观看| 精品成人18| 美日韩精品免费观看视频| 国产精品系列视频| 亚洲色图欧美激情| 亚洲理论中文字幕| 亚欧美无遮挡hd高清在线视频| 国产精品人成电影| 一区二区三区视频网站| 欧美三级视频在线播放| 国产第一页精品| 美女精品自拍一二三四| 亚洲欧美在线网| 青青伊人久久| 久久视频国产精品免费视频在线| 夜夜躁狠狠躁日日躁av| 亚洲日本在线观看| 成年人性生活视频| 欧美午夜久久| 久久99导航| avav成人| 日韩在线www| www日本高清视频| 亚洲第一福利视频在线| 51调教丨国产调教视频| 日韩成人伦理电影在线观看| 亚洲欧洲日本国产| 日韩成人18| 98视频在线噜噜噜国产| 国产综合在线观看| 欧美精选一区二区| 欧美一级高潮片| 久久久久久免费毛片精品| www.欧美日本| 亚洲91精品| 精品一区二区日本| 日韩欧美精品一区二区综合视频| 日韩三级成人av网| 欧美熟妇交换久久久久久分类 | 日韩黄色小视频| 中文字幕欧美人与畜| 成人激情自拍| 日韩免费观看视频| 国产欧美黑人| 精品亚洲夜色av98在线观看| 青青草视频在线观看免费| 亚洲精品一二三区| www.自拍偷拍| 精品一区二区久久久| 免费看黄在线看| 色综合咪咪久久网| 国产伦精品一区二区三区视频孕妇| 香蕉视频亚洲一级| 欧美日韩成人精品| 波多野结衣在线网站| 精品国产91洋老外米糕| 国产九色91回来了| 亚洲成人免费影院| 国精产品一区一区| www.亚洲激情.com| 色网站在线视频| 美女精品在线观看| 天堂а√在线中文在线| 精品一区二区三区在线 | 久久一区二区视频| 佐山爱在线视频| 日韩精品成人一区二区在线| 久草免费福利在线| 99久久精品网| 秋霞毛片久久久久久久久| 91蝌蚪精品视频| 国产精品一区二区三区久久| 黄色软件视频在线观看| 欧美成人网在线| 91精彩在线视频| 日韩精品在线免费观看视频| 亚洲成人精品女人久久久| 欧美日韩日日骚| 中文字幕手机在线视频| 午夜视频一区二区| 黄色一级片中国| 中文字幕一区在线| 日本理论中文字幕| 久久综合国产精品| 在线天堂www在线国语对白| 国产a精品视频| 日本中文字幕在线不卡| 国产在线视频不卡二| 日本激情视频在线播放| 日韩国产在线一| 欧美污视频网站| 久久国产日本精品| 亚洲精品无码久久久久久| 亚洲精华国产欧美| 欧美日韩福利在线| 亚洲性色视频| 成年人深夜视频| 亚洲欧美一级二级三级| 激情视频小说图片| 中文乱码免费一区二区三区下载| 国产精品99久久久久久大便| 日韩在线精品| 中文字幕中文字幕一区三区| 91综合在线| 欧美日韩一区二区三区电影| 久久精品久久久| 超碰97免费观看| 欧美国产高潮xxxx1819| 少妇高潮大叫好爽喷水| 中文精品久久| avav在线播放| 狠狠入ady亚洲精品| 精品国产av无码一区二区三区| 激情久久婷婷| 自拍日韩亚洲一区在线| 亚洲欧美bt| 一本大道熟女人妻中文字幕在线| 天堂成人免费av电影一区| 国产精品视频分类| 极品少妇xxxx精品少妇| 四川一级毛毛片| 成人动漫一区二区| 成人在线一级片| 国产精品久久久久久久久图文区 | 国产成人手机视频| 欧美a级一区二区| 手机在线国产视频| 福利一区二区在线观看| 国产人妻人伦精品1国产丝袜| 国产日韩欧美电影| 欧美成人精品欧美一| 欧美日韩裸体免费视频| 国产在线一级片| 制服丝袜亚洲网站| 高清国产mv在线观看| 国产婷婷成人久久av免费高清 | 国产高清亚洲| 国产精品一区二区三区免费观看| 综合色就爱涩涩涩综合婷婷| 一区二区三区欧美在线| 亚洲高清毛片| 中文字幕在线综合| 成人性生交大片| 亚洲一区 欧美| 亚洲午夜日本在线观看| 香蕉污视频在线观看| 欧美不卡视频一区| 成人在线二区| 欧美日韩高清在线观看| 电影亚洲精品噜噜在线观看| 4444kk亚洲人成电影在线| 天天躁日日躁狠狠躁欧美| 在线不卡视频一区二区| av成人黄色| 日日干日日操日日射| 91视频国产观看| 日韩a级片在线观看| 91国在线观看| 免费观看成年人视频| 日韩中文字幕在线看| 在线女人免费视频| 91精品天堂| 日韩欧美高清| www国产黄色| 成人一区二区三区视频在线观看 | 欧美另类在线播放| 色成人免费网站| 精品久久久久久一区| 欧美一区不卡| 激情视频免费网站| 久久综合九色综合欧美亚洲| 欧美日韩一级大片| 欧美日韩激情一区| 国产资源在线看| 欧美一级黄色网| 97se亚洲国产一区二区三区| 伊人久久婷婷色综合98网| 丝袜亚洲精品中文字幕一区| 少妇一级淫片免费放播放| 一区二区三区四区精品在线视频 | 日韩视频免费观看高清在线视频| 9i精品一二三区| 国产成人在线播放| 亚洲精品蜜桃乱晃| 女性女同性aⅴ免费观女性恋| 高清国产一区二区| 中文字幕另类日韩欧美亚洲嫩草| 欧美三级电影网| av福利精品| 国产精品狼人色视频一区| 精品一区亚洲| 美女福利视频在线| 久久综合资源网| wwwxxx亚洲| 日韩精品视频在线免费观看| а√天堂8资源在线| 国产精品污www一区二区三区| 欧美国产91| 免费不卡的av| 午夜欧美大尺度福利影院在线看| 六月婷婷综合网| 午夜精品一区二区三区在线视频| 国产精品传媒| 欧美 丝袜 自拍 制服 另类| 成人动漫视频在线| 黄色在线观看国产| 亚洲欧美综合精品久久成人| 三级成人在线| 制服国产精品| 国产一区激情在线| 久久久综合久久| 日韩成人黄色av| 欧美电影免费观看网站| 色中色综合成人| 狠狠久久亚洲欧美| 少妇被躁爽到高潮无码文| 日韩亚洲电影在线| 超碰资源在线| 欧美一级爱爱| 久久成人羞羞网站| 久久久www成人免费毛片| 亚洲精品国产福利| www.26天天久久天堂| 欧美性受xxxx黑人猛交88| 岛国精品一区二区| 日韩欧美在线观看免费| 中文字幕一区电影| 日韩视频1区| 女人喷潮完整视频| 国产精品欧美久久久久一区二区| 99国产精品99| 97成人精品区在线播放| 成人羞羞视频在线看网址| 亚洲一区二区三区三州| 精品久久香蕉国产线看观看gif| 久久精品蜜桃| 91麻豆国产精品| 99国产精品| 日韩av片在线免费观看| 精品免费一区二区三区| 在线成人av观看| 国产免费一区二区三区四在线播放| 不卡欧美aaaaa| 中文字幕在线观看你懂的| 欧美激情视频给我| 欧美日韩精品一区二区视频|