精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus 原創

發布于 2024-5-13 07:10
瀏覽
0收藏

生成式AI模型成為當前機器學習的熱點之一,GPT-4、Claude 2.1和Claude 3.0 Opus就是三種具有代表性的模型。本文將針對這三種模型進行評估和比較,并給出實驗結果對比分析。

簡介

當前,RAG(檢索增強生成)系統的新評估似乎每天都在發布,其中許多都集中在有關框架的檢索階段。然而,生成方面——模型如何合成和表達這些檢索到的信息,在實踐中可能具有同等甚至更大的意義。許多實際應用中的案例證明,系統不僅僅要求從上下文中返回事實數據,還需要將這些事實合成一個更復雜的響應。

為此,我們先后進行了幾個實驗,對GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三種模型的生成能力進行了評估和比較。本文將詳細介紹我們的研究方法、結果和在此過程中遇到的這些模型的細微差別,并說明為什么這些內容對使用生成式人工智能進行構建的人來說非常重要。

有興趣的讀者如果想重現上述實驗的結果,那么實驗中所需的一切都可以從GitHub存儲庫(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

補充說明

  • 盡管最初的發現表明Claude的性能優于GPT-4,但隨后的測試表明,隨著戰略提示工程技術的出現,GPT-4在更廣泛的評估中表現出了卓越的性能??傊琑AG系統中固有的模型行為和提示工程當中還存在很多的問題。
  • 只需在提示模板中簡單地添加一句“請解釋自己,然后回答問題”,即可顯著提高(超過兩倍)GPT-4的性能。很明顯,當LLM說出答案時,這似乎有助于進一步展開有關想法。通過解釋,模型有可能在嵌入/注意力空間中重新執行正確的答案。

RAG階段與生成的重要性

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖1:作者創建的圖表

雖然在一個檢索增強生成系統中檢索部分負責識別和檢索最相關的信息,但正是生成階段獲取這些原始數據,并將其轉換為連貫、有意義和符合上下文的響應。生成步驟的任務是合成檢索到的信息,填補空白信息,并以易于理解和與用戶查詢相關的方式呈現。

在許多現實世界的應用中,RAG系統的價值不僅在于它們定位特定事實或信息的能力,還在于它們在更廣泛的框架內集成和情境化信息的能力。生成階段使RAG系統能夠超越簡單的事實檢索,并提供真正智能和自適應的響應。

測試#1:日期映射

我們運行的初始測試包括從兩個隨機檢索的數字中生成一個日期字符串:一個表示月份,另一個表示日期。模型的任務是:

  • 檢索隨機數#1
  • 隔離最后一位并遞增1
  • 根據結果為我們的日期字符串生成一個月
  • 檢索隨機數#2
  • 從隨機數2生成日期字符串的日期

例如,隨機數4827143和17表示4月17日。

這些數字被放置在不同深度的不同長度的上下文中。模型最初在完成這項任務時經歷了相當困難的時期。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖2:初始測試結果

雖然這兩個模型都表現不佳,但在我們的初步測試中,Claude 2.1的表現明顯優于GPT-4,成功率幾乎翻了四倍。正是在這里,Claude模型的冗長本性——提供詳細、解釋性的回答——似乎給了它一個明顯的優勢,與GPT-4最初簡潔的回答相比,結果更準確。

在這些意想不到的實驗結果的推動下,我們在實驗中引入了一個新的變量。我們指示GPT-4“解釋自己,然后回答問題”,這一提示鼓勵了類似于Claude模型自然輸出的更詳細的響應。因此,這一微小調整的影響還是深遠的。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖3:有針對性提示結果的初始測試

GPT-4模型的性能顯著提高,在隨后的測試中取得了完美的結果。Claude模型的成績也有所改善。

這個實驗不僅突出了語言模型處理生成任務的方式的差異,還展示了提示工程對其性能的潛在影響。Claude的優勢似乎是冗長,事實證明這是GPT-4的一種可復制策略,這表明模型處理和呈現推理的方式會顯著影響其在生成任務中的準確性。總的來說,在我們的所有實驗中,包括看似微小的“解釋自己”這句話,都在提高模型的性能方面發揮了作用。

進一步的測試和結果

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖4:用于評估生成的四個進一步測試

我們又進行了四次測試,以評估主流模型將檢索到的信息合成并轉換為各種格式的能力:

  • 字符串連接:將文本片段組合成連貫的字符串,測試模型的基本文本操作技能。
  • 貨幣格式:將數字格式化為貨幣,四舍五入,并計算百分比變化,以評估模型的精度和處理數字數據的能力。
  • 日期映射:將數字表示轉換為月份名稱和日期,需要混合檢索和上下文理解。
  • 模運算:執行復數運算以測試模型的數學生成能力。

不出所料,每個模型在字符串連接方面都表現出了強大的性能,這也重申了以前的理解,即文本操作是語言模型的基本優勢。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖5:貨幣格式化測試結果

至于貨幣格式化測試,Claude 3和GPT-4的表現幾乎完美無瑕。Claude 2.1的表現總體上較差。準確度在標記長度上變化不大,但當指針更接近上下文窗口的開頭時,準確度通常會更低。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖6:正式的來自Haystack網站的測試結果

盡管在一代測試中取得了出色的結果,但Claude 3的準確性在一個僅用于檢索的實驗中有所下降。從理論上講,簡單地檢索數字也應該比操縱數字更容易——這使得性能的下降令人驚訝,也是我們計劃進一步測試的領域。如果有什么不同的話,這種違反直覺的下降只會進一步證實這樣一種觀點,即在使用RAG開發時,檢索和生成都應該進行測試。

結論

通過測試各種生成任務,我們觀察到,雖然Claude和GPT-4這兩個模型都擅長字符串操作等瑣碎任務,但在更復雜的場景中,它們的優勢和劣勢變得顯而易見(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在數學方面仍然不太好!另一個關鍵結果是,“自我解釋”提示的引入顯著提高了GPT-4的性能,強調了如何提示模型以及如何闡明其推理對實現準確結果的重要性。

這些發現對LLM的評估具有更廣泛的意義。當比較像詳細的Claude和最初不那么詳細的GPT-4這樣的模型時,很明顯,RAG評估(https://arize.com/blog-course/rag-evaluation/)標準必須超越以前僅重視正確性這一點。模型響應的冗長引入了一個變量,該變量可以顯著影響他們的感知性能。這種細微差別可能表明,未來的模型評估應將平均答復長度視為一個值得注意的因素,從而更好地了解模型的能力,并確保更公平的比較。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Tips for Getting the Generation Part Right in Retrieval Augmented Generation,作者:Aparna Dhinakaran

鏈接:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented-generation-7deaa26f28dc。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
欧美成人a∨高清免费观看| 三级成人在线| 国产99久久久国产精品潘金| 少妇高潮久久77777| 亚洲高清视频免费| 在线毛片网站| 久久精品国产99| 欧美精品激情在线| 摸摸摸bbb毛毛毛片| 欧美xxxx性| 亚洲图片欧美视频| 日本精品一区二区三区视频| 91免费视频播放| 亚洲片区在线| www.久久久久久.com| 亚洲啪av永久无码精品放毛片| 午夜无码国产理论在线| 一区二区三区在线视频播放| 欧美性xxxx69| 亚洲精品久久久久久无码色欲四季| 国产精品亚洲产品| 最近日韩中文字幕中文| av网页在线观看| 草民电影神马电影一区二区| 午夜精品久久久久久久久| 制服国产精品| 黄色视屏网站在线免费观看| 成人自拍小视频| 欧美日韩五码| 亚洲高清不卡在线观看| 亚洲视频欧美在线| 天堂在线一二区| 国产综合色视频| 国产成人极品视频| 日本一区二区不卡在线| 青青草国产成人a∨下载安卓| 精品国产91乱码一区二区三区| 免费大片在线观看| 蜜桃av在线| 亚洲欧洲无码一区二区三区| 天天人人精品| 天堂中文在线看| 不卡视频一二三| 91网免费观看| 国产日韩欧美一区二区东京热| 男人操女人的视频在线观看欧美| 97超级碰在线看视频免费在线看| 美国美女黄色片| 国模吧精品视频| 国产婷婷97碰碰久久人人蜜臀| 美女久久久久久久久| 日韩视频在线直播| 51精品秘密在线观看| 国产精品久久久久9999小说| 色综合桃花网| 亚洲在线成人精品| 久久这里只有精品8| 黄色在线免费网站| 国产精品乱码妇女bbbb| 一本久道久久综合狠狠爱亚洲精品| 黄色软件在线| 国产精品女同互慰在线看| 亚洲国产欧美不卡在线观看| 国产视频第一区| 99r国产精品| 久久av免费一区| 五月天久久久久久| 91免费视频网| 日韩国产在线一区| 伊人免费在线| 久久先锋资源网| 国产在线一区二区三区播放| 欧美特黄一级视频| 91色视频在线| 色之综合天天综合色天天棕色| 91在线看黄| 国产精品久久久久久亚洲伦| 先锋影音男人资源| www中文字幕在线观看| 亚洲成人tv网| 欧美日韩精品在线一区二区 | 国产女人高潮毛片| 国产成人精品1024| 国产精品二区三区四区| 欧美在线一卡| 亚洲欧洲日本在线| 国产一二三四五| 国产啊啊啊视频在线观看| 精品久久久视频| 欧美自拍小视频| 欧美电影在线观看一区| 精品伊人久久97| 色偷偷www8888| 亚洲精华国产欧美| 青青久久aⅴ北条麻妃| 美女黄页在线观看| 麻豆极品一区二区三区| 成人性生交xxxxx网站| 懂色av蜜臀av粉嫩av分享吧| 国产视频一区二区在线观看| 中文字幕色呦呦| 在线中文字幕播放| 制服丝袜亚洲播放| 我和岳m愉情xxxⅹ视频| 婷婷亚洲五月色综合| 97久久精品人人澡人人爽缅北| 日本三级一区二区三区| 风间由美一区二区三区在线观看| 日本最新一区二区三区视频观看| 尤物在线网址| 欧美性三三影院| 中国一级特黄录像播放| 日韩av自拍| 欧美资源在线观看| 精品国产av一区二区| 久久久久久久久久久久久女国产乱| 中文字幕精品在线播放| 午夜无码国产理论在线| 亚洲激情视频网站| 男女羞羞免费视频| 老司机午夜精品| 欧美亚洲免费高清在线观看| 欧美黄色视屏| 欧美一区二区三区在线电影| 久久久久无码精品国产sm果冻| 国内自拍一区| 91在线精品视频| 日漫免费在线观看网站| 亚洲精品美国一| 国产精品一区二区小说| 精品视频黄色| 热99在线视频| 人妻与黑人一区二区三区| 中文字幕av一区二区三区免费看 | 亚洲一二三四五六区| 久久久久久穴| 久久久久久高清| 高清在线视频不卡| 日韩三区在线观看| av激情在线观看| 国产真实乱对白精彩久久| 日本午夜精品一区二区| yellow在线观看网址| 精品三级在线看| 午夜精品一区二区三区视频| 麻豆精品一二三| 午夜精品区一区二区三| 主播大秀视频在线观看一区二区| 亚洲国产精品久久久久秋霞不卡| 国产大片aaa| 国产一区二区三区在线观看免费 | 91久久久一线二线三线品牌| h网站视频在线观看| 欧洲色大大久久| 日本黄色小视频在线观看| 久久经典综合| 婷婷五月色综合| a屁视频一区二区三区四区| 欧美xxxxx牲另类人与| 黄色片在线观看网站| 国产精品亚洲第一 | 国产亚洲一区| **欧美日韩vr在线| 欧美zzoo| 欧美日韩你懂得| 日韩一级片大全| 国产成人三级在线观看| 日韩亚洲欧美视频| 日韩欧美黄色| 国产精品视频yy9099| 成熟的女同志hd| 日韩成人dvd| 这里只有精品66| 一区二区三区四区高清视频| 国产+人+亚洲| 成人性生交大片免费看午夜| 在线电影院国产精品| 私库av在线播放| 91视频.com| 日韩一区二区免费视频| 日本老太婆做爰视频| 99精品国产一区二区三区2021| 欧美大荫蒂xxx| 日本高清中文字幕二区在线| 欧美在线观看禁18| 亚洲一二三四五六区| 成人福利视频在线看| 人妻熟妇乱又伦精品视频| 美女网站一区| 成人午夜激情网| 成入视频在线观看| 色偷偷88888欧美精品久久久| 亚洲国产精彩视频| 五月天中文字幕一区二区| 你懂的av在线| 亚洲欧美偷拍自拍| 成人免费高清完整版在线观看| 18video性欧美19sex高清| 一区二区三区视频在线| 99久久久免费精品| 免费在线观看视频一区| 日本免费a视频| 成人婷婷网色偷偷亚洲男人的天堂| 亚洲最大成人在线| 三级成人在线| 国产aⅴ精品一区二区四区| 国产一区二区三区18| www.色日本| 欧美性一二三区| 免费视频网站www| 久久嫩草精品久久久久| 欧美午夜精品理论片| 亚洲免费大片| 国产成人成网站在线播放青青| 国产美女一区视频| 亚洲国产另类久久精品 | 三级在线观看| 日韩视频国产视频| 一级片免费观看视频| 欧美午夜久久久| 国产精品成人免费一区二区视频| 国产精品久久网站| 波多野结衣片子| 91在线码无精品| 国产精品日日摸夜夜爽| 18videosex性欧美麻豆| 久久国产三级精品| 欧美日韩一道本| 欧美日韩精选| 欧美另类videos| 99欧美视频| 日韩国产美国| 禁断一区二区三区在线| 国产精品9999久久久久仙踪林| 欧美a一级片| 国产免费一区二区三区香蕉精| 日韩伦理av| 欧美成人精品一区二区三区| 瑟瑟视频在线| 色婷婷综合久久久久中文一区二区| 日韩av片在线免费观看| 国产视频一区在线观看| 最新中文字幕视频| 91片在线免费观看| 男男一级淫片免费播放| 成人免费高清视频在线观看| 久久久无码人妻精品无码| 国产激情精品久久久第一区二区| 亚洲免费在线播放视频| 精品一区二区三区免费视频| 成人黄色一级大片| 激情六月婷婷久久| 欧美黄色直播| 真实的国产乱xxxx在线91| 狠狠综合久久av一区二区老牛| 日本一区二区高清视频| 精品美女在线视频| 亚洲欧洲三级| 久久久久免费av| 人人妻人人澡人人爽精品欧美一区| 日韩欧美不卡| 椎名由奈jux491在线播放| 欧美aⅴ99久久黑人专区| 中文字幕中文字幕在线中心一区| 亚洲欧美在线专区| 中国一级黄色录像| 欧美影视一区| 国产免费一区二区三区香蕉精| 日韩深夜福利网站| 亚洲最大福利网站| 国产精品丝袜在线播放| 久久综合九九| 日本欧美国产| 欧美a级免费视频| 欧美在线高清| 日韩少妇内射免费播放18禁裸乳| 石原莉奈一区二区三区在线观看| 欧美精品性生活| 国产精品12区| 亚洲av无码国产精品久久| 国产女同互慰高潮91漫画| 黄色三级中文字幕| 麻豆九一精品爱看视频在线观看免费| 95av在线视频| 中文字幕永久免费视频| 在线免费观看不卡av| 亚洲图片欧美日韩| 91久久久免费一区二区| aaa级黄色片| 亚洲成年人影院在线| 毛片免费在线播放| 久久亚洲欧美日韩精品专区| 国产拍在线视频| 97视频在线观看播放| 欧美亚洲二区| 国产v亚洲v天堂无码| 欧美成人高清视频在线观看| 91一区二区三区| 波多野结衣在线播放一区| 国产成a人亚洲精v品在线观看| 久久男人av| 国产一区免费| 国产精品久久久久久麻豆一区软件| 日韩中字在线观看| 日本欧美一区二区三区| 日本少妇xxxx软件| 国产精品免费aⅴ片在线观看| 免费一级片在线观看| 欧美性淫爽ww久久久久无| 欧美视频xxx| 精品国产欧美成人夜夜嗨| 男人久久天堂| 99re在线观看视频| av在线不卡顿| 亚洲动漫第一页| 男人在线观看视频| 亚洲天堂免费看| 久久国产黄色片| 精品久久久久av影院 | 国产成人久久精品一区二区三区| 久久久久久欧美精品色一二三四| 中文字幕一区二区三三| 日本精品一区在线观看| 国产精品911| 亚洲一区二区三区日韩| 狠狠躁夜夜躁人人爽超碰91| 中文字幕在线观看视频一区| 日韩电影大全免费观看2023年上| 黄色网页在线看| 国产精品视频在线观看| 免费成人av| 黄色www网站| aa级大片欧美| 欧美日韩中文视频| 亚洲mv大片欧洲mv大片精品| av免费观看网址| 亚洲欧美国产va在线影院| 91桃色在线观看| 91探花福利精品国产自产在线| 国产精品一区高清| 91黄色小网站| 久久久久一区二区三区四区| 毛片基地在线观看| 亚洲另类xxxx| 伊人久久av| 茄子视频成人在线观看 | 欧美一区二区三区在线观看免费| 久久夜精品香蕉| 国产美女亚洲精品7777| 亚洲国产精品视频一区| 久久草av在线| 内射一区二区三区| 精品久久久国产精品999| 国产男女猛烈无遮挡| 在线观看国产精品91| 搞黄网站在线观看| 99久久精品免费看国产四区| 大片网站久久| 福利在线一区二区三区| 久久久一区二区三区捆绑**| 黄色av片三级三级三级免费看| 亚洲天堂精品视频| 亚洲AV无码成人片在线观看 | 国产美女在线精品| 男人天堂av电影| 久久精品视频在线免费观看 | 精品国产乱码久久| 91麻豆免费在线视频| 成人免费激情视频| 亚洲视频碰碰| 国产成人精品无码免费看夜聊软件| 在线观看亚洲精品视频| 日本欧美在线视频免费观看| 亚洲综合中文字幕68页| 国产欧美日韩综合一区在线播放| 精品无码在线视频| 91久久精品网| 久久久久无码国产精品| 日韩视频一区| 18禁男女爽爽爽午夜网站免费 | 免费91在线观看| 欧美三级日韩在线| 在线观看麻豆蜜桃| 99国产超薄肉色丝袜交足的后果 | 性欧美在线看片a免费观看| 风间由美一区二区av101| 干日本少妇首页| 久久免费看少妇高潮| 国产一区二区网站| 国内精品国产三级国产在线专| 亚洲精品456| 亚洲黄色小视频在线观看| 国产午夜精品久久久久久免费视 | 国产精品第二十页| 日韩欧美在线观看一区二区三区| 高h视频在线播放| 亚洲最大福利视频网| 日韩av中文字幕一区二区 | 亚洲人精品午夜| 国产成人精品无码高潮|