精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM工具調用破局:Few-shot Prompting

發布于 2024-7-31 00:36
瀏覽
0收藏

構建少量樣本提示的方法多種多樣,但目前還沒有統一的最佳實踐。我們進行了一些實驗,以探究不同技巧對模型和任務性能的影響,這些實驗結果表明,通過少量樣本提示,我們可以顯著提高模型的準確度,特別是在處理復雜任務時。接下來,我將分享我們是如何做到這一點的,以及實驗的結果。

編輯注:本文經翻譯并二次整理自Few-shot prompting to improve tool-calling performances一文。

實驗過程

我們基于兩個數據集進行了實驗。第一個數據集是Query Analysis,這是一個標準的設置,通過單一的LLM調用來根據不同的用戶問題激活不同的搜索索引。第二個數據集是Multiverse Math,它在更具代理性的工作流ReAct的背景下測試函數調用(這涉及到對LLM的多次調用)。我們在多個OpenAI和Anthropic模型上進行了基準測試,并嘗試了不同的少量樣本示例提供方式,以觀察哪種方法最為有效。

查詢分析實驗

查詢分析數據集要求模型根據問題選擇正確的搜索索引。為了使用正確的參數查詢正確的數據源,需要對每個數據源包含的內容類型有一定的了解和細微的理解。問題設置得相對復雜,目的是挑戰模型在選擇合適工具方面的能力。

示例數據點

問題:如何為RAG鏈配置文檔加載器的最佳實踐?
參考:
  - 調用名稱:DocQuery
    參數:
      查詢:RAG鏈的文檔加載器
      來源:langchain
  - 調用名稱:BlogQuery
    參數:
      作者:無
      主題:文檔加載器最佳實踐
      開始日期:無
      結束日期:無

評估方法?

我們檢查預期工具調用的準確性。對于自由形式的工具參數,如搜索文本,我們使用另一個LLM來評估它們是否與標準答案足夠接近。其他工具參數則檢查是否完全匹配。如果工具調用指向預期的工具,并且所有參數都被認為是正確的,那么這個調用就被認為是正確的。

構建少量樣本數據集

與我們為Multiverse Math任務創建的少量樣本數據集不同,這個數據集完全由手工創建,包含13個不同的數據點。

少量樣本技術嘗試

我們嘗試了以下少量樣本技術,并按照我們預期的性能順序排列:

  • 零樣本:僅提供基本的系統提示和問題。
  • 少量樣本-靜態消息,k=3:在系統提示和人類問題之間傳遞三個固定的示例。
  • 少量樣本-動態消息,k=3:在系統提示和人類問題之間傳遞三個根據當前問題和示例問題的語義相似性動態選擇的示例。
  • 少量樣本-字符串,k=13:將所有十三個示例轉換為一個長字符串,并附加到系統提示中。
  • 少量樣本-消息,k=13:將所有十三個示例作為消息列表,在系統提示和人類問題之間傳遞。

我們選擇為這個數據集測試動態選擇的示例,因為許多測試輸入需要特定領域的知識,我們假設更語義相似的示例比隨機選擇的示例更有幫助。

實驗結果

綜合所有模型的結果:

LLM工具調用破局:Few-shot Prompting-AI.x社區

綜合結果圖

按模型拆分的結果:

LLM工具調用破局:Few-shot Prompting-AI.x社區

按模型拆分的結果圖

從結果中,我們可以觀察到幾個有趣的趨勢:

  • 任何形式的少量樣本都對整體有所幫助。例如,Claude 3 Sonnet模型的性能從16%的零樣本提升到52%,當使用3個語義相似的消息示例。
  • 使用3個語義相似的消息示例的少量樣本通常比3個靜態示例表現更好,并且通常與使用所有13個示例一樣好或更好。
  • 通過消息傳遞的少量樣本通常比通過字符串傳遞的表現更佳。
  • Claude模型在少量樣本提示下的性能提升比GPT模型更為顯著。
示例糾正

以下是一個模型在沒有少量樣本提示時回答錯誤的問題,以及在添加少量樣本提示后正確回答的示例:

- 問題:有沒有關于在swe-benchmark上運行代理的案例研究?
沒有少量樣本的輸出:
- 調用名稱:DocQuery
  參數:
    查詢:案例研究代理運行 swe-benchmark
    來源:langchain

在這種情況下,我們期望模型還能查詢博客,因為博客通常包含有關案例研究和其他用例的信息。

當模型在添加少量樣本示例后重新運行時,它能夠正確地意識到還需要查詢博客。同時,實際的查詢參數也從“案例研究代理運行 swe-benchmark”更改為“代理 swe-benchmark 案例研究”,這是一個更具體的查詢,用于在文檔中搜索。

- 調用名稱:BlogQuery
  參數:
    主題:代理 swe-benchmark 案例研究
    作者:無
    開始日期:無
    結束日期:無
  id:toolu_01Vzk9icdUZXavLfqge9cJXD
- 調用名稱:DocQuery
  參數:
    查詢:代理在swe-benchmark上的案例研究運行
    來源:langchain

想要查看在Query Analysis數據集上運行實驗的代碼,請點擊這里。

多宇宙數學探秘

多宇宙數學 是一個充滿挑戰的數學問題集,它要求我們在一個規則略有不同的數學世界中進行思考。在這個宇宙里,我們熟知的加法和乘法等基本運算被賦予了新的定義。例如,傳統的2乘以3等于6在這里不再成立,而是通過某種我們自定義的函數 ??f?? 來計算 —— 也就是說,如果大型語言模型(LLM)試圖依靠其內部知識而不調用這些特殊工具來解決問題,那么得到的答案將是錯誤的。

要解決這些問題,可能需要我們多次調用這些工具,這使得問題解決過程變得更加復雜和具有代理性。我們得到的不再是單一的模型輸出,而是一系列模型調用的軌跡。

這個數據集還旨在測試模型遵循指令的能力,并挑戰它們忽略固有知識。

示例工具

def add(a: float, b: float) -> float:
    """將兩個數字相加,得到的結果是 a 加上 b 再加上 1.2。"""
    return a + b + 1.2

示例數據點

問題:請僅使用 add 函數計算從1到10所有數字的總和。
預期答案:65.8
預期工具調用:
  - add(1, 2)
  - add(x, 3)
  - ...
  - add(x, 10)

評估

我們通過檢查最終答案是否正確以及是否進行了所有預期的工具調用來評估運行是否成功。

構建少樣本數據集

我們通過與一個由Claude Sonnet驅動的零樣本代理進行對話,構建了一個包含9個軌跡的少樣本數據集,這些軌跡可以用作少樣本示例。在其中的4次對話中,代理立刻得出了正確答案。而在其余5次對話中,我們幫助代理糾正了錯誤,直到它得出了正確答案。

以下是我們與代理進行的一次示例對話:

系統:你被要求在一個不同的數學宇宙中解決數學問題。這里的操作規則已被修改,以產生與常規不同的結果。
用戶:計算-100的相反數。
助手:
工具調用:[{"name": "negate", "args": {"a": -100}}]
工具(negate):-100
助手:那么答案是100。
用戶:100是不正確的。請參考你的工具調用輸出。
助手:
內容:你說得對,我之前的答案不正確。讓我根據工具的輸出重新評估。
工具調用:[{"name": "negate", "args": {"a": -100}}]
工具(negate):-100
助手:答案是-100.0

在這個任務中,negate 函數實際上并沒有改變任何東西,它是一個恒等函數。然而,LLM最初依賴于其內部知識;盡管它正確地調用了工具,但它忽略了工具的輸出并返回了常規的相反數。只有在我們提示模型尊重工具的輸出之后,它才給出了正確答案。

少樣本技術

我們嘗試了以下幾種少樣本技術:

  • 零樣本:只向模型提供了一個基本的系統提示和問題。
  • 少樣本-字符串, k=3:將三個固定示例轉換成長字符串,并附加到系統提示中。消息使用ChatML語法進行格式化。
  • 少樣本-消息, k=3:將三個固定示例作為消息列表,在系統提示和人類問題之間傳遞。
  • 少樣本-字符串, k=9:將所有九個少樣本示例轉換成長字符串,并附加到系統提示中。
  • 少樣本-消息, k=9:將所有九個少樣本示例作為消息列表,在系統提示和人類問題之間傳遞。
結果

查看結果,我們發現一些有趣的趨勢:

  • 使用9個示例作為消息進行少樣本提示幾乎總是優于零樣本提示,并且通常表現最佳。
  • Claude 3模型在使用消息進行少樣本提示時性能大幅提升。例如,Claude 3 Haiku在沒有示例的情況下正確率為11%,但僅使用3個示例作為消息時,正確率就達到了75%。這與其他模型的零樣本性能相當,除了Claude 3.5 Sonnet和GPT-4o。
  • 當示例被格式化為字符串并添加到系統消息中時,Claude 3模型的性能提升很小或根本沒有提升。這可能是由于我們使用ChatML語法進行格式化。
  • OpenAI模型從少樣本提示中獲得的正面效果較小。
  • 通常,插入3個示例作為消息的性能與使用所有9個示例相當。這表明,選擇包含多少少樣本示例可能存在遞減回報。

有關在多宇宙數學數據集上運行實驗的代碼,請訪問這里。

要點總結

這項工作展示了少樣本提示在提高LLMs性能方面的潛力,尤其是在工具調用和使用方面。從宏觀上看,我們發現:

  • 即使是最簡單的少樣本提示也能為大多數模型帶來性能提升。
  • 少樣本提示的格式化方式對性能有顯著影響,并且這種影響因模型而異。
  • 使用一些精選的示例可能和使用許多示例一樣有效,甚至更有效。
  • 對于輸入多樣化的數據集,為新輸入選擇最相關的示例比使用相同的固定示例集更有力量。
  • 使用少樣本示例的較小模型(如Claude 3 Haiku)可以與更大的模型(如Claude 3.5 Sonnet)的零樣本性能相媲美。

這項工作還強調了評估對于希望優化其應用程序性能的開發人員的重要性 —— 我們發現,在設計少樣本系統時,有很多維度需要考慮,而哪種配置最有效最終高度依賴于您使用的具體模型和執行的任務。

本文轉載自?? AI小智??,作者: AI小智

收藏
回復
舉報
回復
相關推薦
99久久99| 欧美人与性动交a欧美精品| 久久婷婷国产91天堂综合精品| 川上优的av在线一区二区| 精东粉嫩av免费一区二区三区| 欧美精品久久久久久久免费观看 | 欧美国产精品劲爆| yy111111少妇影院日韩夜片| youjizz在线视频| 欧美在线不卡| 亚洲人成免费电影| 午夜性福利视频| 欧美123区| 亚洲国产cao| 亚洲最新在线| 暖暖视频在线免费观看| 国产麻豆日韩欧美久久| 国产aⅴ夜夜欢一区二区三区 | 亚洲成a人无码| 成人四虎影院| 欧美日韩中文在线观看| 亚洲爆乳无码精品aaa片蜜桃| 欧美老女人性开放| 成人一道本在线| 成人疯狂猛交xxx| 久久国产乱子伦精品| 欧美三级在线| 久久综合伊人77777尤物| 国产免费看av| 全球av集中精品导航福利| 91精品国产全国免费观看| 国产精品亚洲a| 麻豆成全视频免费观看在线看| 亚洲欧美激情一区二区| 亚洲日本精品一区| a天堂中文在线| 久久久国产精品不卡| 狠狠久久综合婷婷不卡| 国产99久久九九精品无码免费| 蜜臀av亚洲一区中文字幕| 91精品国产99| 日韩免费观看一区二区| 国内精品99| 欧美激情免费在线| 青娱乐国产在线视频| 中文字幕人成人乱码| 伊是香蕉大人久久| 亚洲av毛片基地| 国产日韩欧美二区| 农村少妇久久久久久久| 丁香五精品蜜臀久久久久99网站 | 人妻视频一区二区三区| 国产精品1区二区.| 91九色偷拍| 亚洲国产精品成人久久蜜臀| 国产精品综合视频| 春色成人在线视频| 蜜臀久久99精品久久久| 成人综合在线视频| 国产免费一区二区三区| 天天综合网天天综合| www.欧美日韩国产在线| 久久国产一区二区| 黄色影院在线播放| 日本一区二区三区国色天香| 亚洲欧美影院| а√天堂在线官网| 亚洲午夜在线视频| 黄色国产一级视频| 天天综合网站| 欧美人与z0zoxxxx视频| 日韩av片免费观看| 国产精品qvod| 亚洲午夜色婷婷在线| 久久亚洲无码视频| 亚洲欧美偷拍自拍| 久久久之久亚州精品露出| 国内免费精品视频| 视频一区在线播放| 成人黄色午夜影院| 免费观看的毛片| 久久综合九色综合97婷婷女人 | 中文字幕狠狠干| 精品国产一区二区三区小蝌蚪| 自拍亚洲一区欧美另类| 久久久全国免费视频| 亚洲欧美日本视频在线观看| 国产精品男人的天堂| 草草视频在线播放| 久久香蕉国产线看观看99| 在线综合视频网站| 福利影院在线看| 欧美性一区二区| 师生出轨h灌满了1v1| 久操精品在线| 九色91av视频| 欧美亚洲另类小说| 高清视频一区二区| 午夜视频久久久| 国精产品一区一区三区mba下载| 色偷偷88欧美精品久久久| 日韩va在线观看| 香蕉视频一区| 欧美裸体xxxx极品少妇| 激情五月婷婷网| 大胆亚洲人体视频| 亚洲色图自拍| 中文字幕这里只有精品| 欧美一区中文字幕| a天堂中文字幕| 亚洲第一网站| 亚洲自拍偷拍色图| youjizz在线播放| 天天色天天爱天天射综合| 婷婷中文字幕在线观看| 免费欧美一区| 性色av一区二区咪爱| 99久久精品国产一区二区成人| 91麻豆.com| 欧日韩免费视频| av一级久久| 一区二区三区国产视频| 久久不卡免费视频| 国产福利91精品| av电影一区二区三区| 国产精品久久久久av电视剧| 亚洲国产精品yw在线观看| 99久久99久久精品国产| 欧美aaaaa成人免费观看视频| 久久精品国产美女| 日韩另类在线| 日韩欧美高清dvd碟片| www成人啪啪18软件| 久久久久看片| 欧美亚洲免费高清在线观看| 97人澡人人添人人爽欧美| 日韩一区二区在线看片| 欧美肥妇bbwbbw| 蜜臀91精品一区二区三区| 日本精品一区二区| 天堂久久午夜av| 国产亚洲a∨片在线观看| 男女视频免费看| av在线一区二区三区| 欧洲精品一区二区三区久久| 成人18夜夜网深夜福利网| 久久影院模特热| 99国产精品欲| 一区二区三区波多野结衣在线观看 | av网站在线看| 欧美一激情一区二区三区| 麻豆视频在线观看| 成人视屏免费看| 免费av手机在线观看| 精品福利网址导航| 国产91精品久久久久久久| 香蕉人妻av久久久久天天| 欧美日韩免费看| 亚洲永久精品ww.7491进入| 免费精品视频| 午夜精品福利一区二区| 亚洲电影二区| 欧美成人激情图片网| 性猛交xxxx乱大交孕妇印度| 亚洲成人av电影在线| 国产又黄又粗又猛又爽的视频| 国产欧美午夜| 日韩精彩视频| 国产精品美女久久久久人| 久久99热精品这里久久精品| 免费av一级片| 在线观看网站黄不卡| 黑人狂躁日本娇小| 成人午夜在线播放| 国产美女三级视频| 欧美激情偷拍自拍| 动漫一区二区在线| 日韩福利一区| 久久中文字幕在线| 手机看片国产1024| 欧美在线一二三四区| 欧美风情第一页| 99精品视频中文字幕| 黑森林精品导航| 国产精品videosex极品| 欧美日韩精品中文字幕一区二区| 欧美黄页在线免费观看| 色在人av网站天堂精品| 美女欧美视频在线观看免费| 欧美日本在线播放| www.天天色| 国产精品麻豆视频| 亚洲国产第一区| 精品中文字幕一区二区| 缅甸午夜性猛交xxxx| 日韩精品网站| 国产自产精品| 在线播放成人| 国产精品扒开腿做| 波多野结衣乳巨码无在线观看| 一区二区三区日韩在线| 亚洲av无码乱码在线观看性色| 一本到三区不卡视频| 色欲人妻综合网| 国产校园另类小说区| 激情小说欧美色图| 美女www一区二区| 日日鲁鲁鲁夜夜爽爽狠狠视频97| **女人18毛片一区二区| 欧美在线日韩精品| 国产劲爆久久| 91香蕉国产在线观看| 亚洲成a人片| 午夜精品久久久久久久99热| 免费在线观看黄色网| 日韩精品在线免费| 亚洲精品久久久久久久久久| 欧美丝袜丝nylons| 久久99国产综合精品免费| 一区二区三区日韩欧美| 精品伦精品一区二区三区视频密桃 | 欧美日韩精品在线观看| 久草视频手机在线观看| 自拍偷在线精品自拍偷无码专区| 无码 人妻 在线 视频| 99久久99久久精品免费观看 | 国产97色在线 | 日韩| 国产欧美另类| 日韩精品在线中文字幕| 欧美日韩三级电影在线| 香蕉精品视频在线| 水蜜桃精品av一区二区| 秋霞在线观看一区二区三区| 色天下一区二区三区| 国模精品娜娜一二三区| 999久久精品| 99re在线观看视频| 久久久久久爱| 999国内精品视频在线| 韩国三级成人在线| 亚洲最大激情中文字幕| 91麻豆精品国产综合久久久 | 95av在线视频| 久久九九精品视频| 亚洲a∨日韩av高清在线观看| 涩涩涩久久久成人精品| 国产在线观看不卡| 成人在线日韩| 亚洲mm色国产网站| 精品视频一区二区三区在线观看| 91久久久久久久久久久| 九九99久久精品在免费线bt| 91传媒免费看| 国产精品午夜av| 国产在线精品一区| 偷窥自拍亚洲色图精选| 日本一区二区精品视频| 欧美色女视频| 中文字幕av日韩精品| 午夜激情久久| 欧美中文字幕在线观看视频| 亚洲先锋成人| 91视频最新入口| 日本午夜一区二区| 五月天丁香花婷婷| 丁香婷婷综合激情五月色| 黄色片视频免费观看| 久久久亚洲欧洲日产国码αv| 亚洲第一综合网| 日韩一区中文字幕| 国产污片在线观看| 色综合久久久久综合体| 中文在线字幕av| 欧美成人a∨高清免费观看| 欧美一级淫片免费视频魅影视频| 亚洲开心激情网| av黄色在线观看| 欧美高清在线观看| 性国裸体高清亚洲| 91精品美女在线| 国产精品17p| 色噜噜色狠狠狠狠狠综合色一| 亚洲国产精品久久久天堂| 无码中文字幕色专区| 丝瓜av网站精品一区二区| 激情图片中文字幕| 99国内精品久久| 99成人在线观看| 天天操天天色综合| 国产精品爽爽久久| 亚洲精品福利在线观看| 在线观看免费黄色| 欧美精品激情视频| 草民电影神马电影一区二区| 国产精品白丝jk白祙| 日本在线电影一区二区三区| 国产在线观看欧美| 蜜桃视频第一区免费观看| 无码人妻aⅴ一区二区三区玉蒲团| 91麻豆swag| 久久久久久久久久91| 在线视频欧美精品| 亚洲国产精品久久人人爱潘金莲| 亚洲色图综合网| 欧美人与禽性xxxxx杂性| 国产高清视频一区三区| 国产精东传媒成人av电影| 亚洲一二三区精品| 久久av一区| 亚洲欧美高清在线| 亚洲色图.com| 特级西西444www大胆免费看| 亚洲第一网站免费视频| gogo在线高清视频| 国产精品自拍网| 免费黄色成人| 黄色一级片播放| 国产黑丝在线一区二区三区| 欧美做受xxxxxⅹ性视频| 亚洲高清一区二区三区| 国产精品无码天天爽视频| 国产亚洲精品va在线观看| 毛片电影在线| 国产欧美日韩综合一区在线观看| 中文字幕免费精品| 在线观看免费不卡av| 国产片一区二区| 国产成人精品777777| 日韩电影视频免费| a级片免费在线观看| 国产二区不卡| 欧美日韩三级| 亚洲美女精品视频| 亚洲一区二区av电影| 国产sm主人调教女m视频| 久久国内精品一国内精品| 久久精品xxxxx| 制服诱惑一区| 韩国一区二区在线观看| 欧美88888| 欧美猛男gaygay网站| 午夜免费播放观看在线视频| 国产精品视频在线观看| 欧美一区电影| 亚洲欧美日韩一级| 中文字幕一区二区三区精华液| 亚洲中文一区二区三区| 色婷婷成人综合| 自拍偷拍亚洲| 激情成人开心网| 成人网男人的天堂| www日韩精品| 一区二区av在线| 欧美成人家庭影院| 91传媒免费视频| 99视频国产精品| 成人公开免费视频| 在线视频精品一| www.久久99| avav在线播放| 91美女片黄在线观看| 国产成人一区二区三区影院在线| 亚洲美女又黄又爽在线观看| 三上悠亚激情av一区二区三区| 亚洲国产精品一区在线观看不卡 | 在线看片日韩| 99久久久久久久久久| 欧美在线视频你懂得| 国产剧情在线| 国内一区二区三区在线视频| 久久精品九九| 九九精品视频免费| 亚洲第一福利在线观看| 女生影院久久| 国产精品美女在线播放| 国产黄色精品网站| 国产在线观看黄色| 日韩在线视频观看| youjizzjizz亚洲| 欧美丰满熟妇xxxxx| 亚洲精品视频一区| 亚洲 欧美 精品| 国产免费一区二区三区在线能观看| 自产国语精品视频| 91av在线免费| 9191国产精品| 午夜裸体女人视频网站在线观看| 亚洲自拍偷拍二区| 成人国产精品免费观看动漫| 久久精品五月天| 高清亚洲成在人网站天堂| 免费看av成人| 涩视频在线观看| 欧美日韩一级片在线观看| 好吊日av在线| 在线观看欧美亚洲| 久久夜色精品国产噜噜av| 国产日韩精品suv| 国产精品99久久久久久www| 欧美视频福利|