精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

譯文 精選
人工智能
生成式AI模型成為當前機器學習的熱點之一,GPT-4、Claude 2.1和Claude 3.0 Opus就是三種具有代表性的模型。本文將針對這三種模型進行評估和比較,并給出實驗結果對比分析。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://m.jxzklqfsx.com/aigc/

簡介

當前,RAG(檢索增強生成)系統的新評估似乎每天都在發布,其中許多都集中在有關框架的檢索階段。然而,生成方面——模型如何合成和表達這些檢索到的信息,在實踐中可能具有同等甚至更大的意義。許多實際應用中的案例證明,系統不僅僅要求從上下文中返回事實數據,還需要將這些事實合成一個更復雜的響應。

為此,我們先后進行了幾個實驗,對GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三種模型的生成能力進行了評估和比較。本文將詳細介紹我們的研究方法、結果和在此過程中遇到的這些模型的細微差別,并說明為什么這些內容對使用生成式人工智能進行構建的人來說非常重要。

有興趣的讀者如果想重現上述實驗的結果,那么實驗中所需的一切都可以從GitHub存儲庫(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

補充說明

  • 盡管最初的發現表明Claude的性能優于GPT-4,但隨后的測試表明,隨著戰略提示工程技術的出現,GPT-4在更廣泛的評估中表現出了卓越的性能。總之,RAG系統中固有的模型行為和提示工程當中還存在很多的問題。
  • 只需在提示模板中簡單地添加一句“請解釋自己,然后回答問題”,即可顯著提高(超過兩倍)GPT-4的性能。很明顯,當LLM說出答案時,這似乎有助于進一步展開有關想法。通過解釋,模型有可能在嵌入/注意力空間中重新執行正確的答案。

RAG階段與生成的重要性

圖1:作者創建的圖表

雖然在一個檢索增強生成系統中檢索部分負責識別和檢索最相關的信息,但正是生成階段獲取這些原始數據,并將其轉換為連貫、有意義和符合上下文的響應。生成步驟的任務是合成檢索到的信息,填補空白信息,并以易于理解和與用戶查詢相關的方式呈現。

在許多現實世界的應用中,RAG系統的價值不僅在于它們定位特定事實或信息的能力,還在于它們在更廣泛的框架內集成和情境化信息的能力。生成階段使RAG系統能夠超越簡單的事實檢索,并提供真正智能和自適應的響應。

測試#1:日期映射

我們運行的初始測試包括從兩個隨機檢索的數字中生成一個日期字符串:一個表示月份,另一個表示日期。模型的任務是:

  • 檢索隨機數#1
  • 隔離最后一位并遞增1
  • 根據結果為我們的日期字符串生成一個月
  • 檢索隨機數#2
  • 從隨機數2生成日期字符串的日期

例如,隨機數4827143和17表示4月17日。

這些數字被放置在不同深度的不同長度的上下文中。模型最初在完成這項任務時經歷了相當困難的時期。

圖2:初始測試結果

雖然這兩個模型都表現不佳,但在我們的初步測試中,Claude 2.1的表現明顯優于GPT-4,成功率幾乎翻了四倍。正是在這里,Claude模型的冗長本性——提供詳細、解釋性的回答——似乎給了它一個明顯的優勢,與GPT-4最初簡潔的回答相比,結果更準確。

在這些意想不到的實驗結果的推動下,我們在實驗中引入了一個新的變量。我們指示GPT-4“解釋自己,然后回答問題”,這一提示鼓勵了類似于Claude模型自然輸出的更詳細的響應。因此,這一微小調整的影響還是深遠的。

圖3:有針對性提示結果的初始測試

GPT-4模型的性能顯著提高,在隨后的測試中取得了完美的結果。Claude模型的成績也有所改善。

這個實驗不僅突出了語言模型處理生成任務的方式的差異,還展示了提示工程對其性能的潛在影響。Claude的優勢似乎是冗長,事實證明這是GPT-4的一種可復制策略,這表明模型處理和呈現推理的方式會顯著影響其在生成任務中的準確性??偟膩碚f,在我們的所有實驗中,包括看似微小的“解釋自己”這句話,都在提高模型的性能方面發揮了作用。

進一步的測試和結果

圖4:用于評估生成的四個進一步測試

我們又進行了四次測試,以評估主流模型將檢索到的信息合成并轉換為各種格式的能力:

  • 字符串連接:將文本片段組合成連貫的字符串,測試模型的基本文本操作技能。
  • 貨幣格式:將數字格式化為貨幣,四舍五入,并計算百分比變化,以評估模型的精度和處理數字數據的能力。
  • 日期映射:將數字表示轉換為月份名稱和日期,需要混合檢索和上下文理解。
  • 模運算:執行復數運算以測試模型的數學生成能力。

不出所料,每個模型在字符串連接方面都表現出了強大的性能,這也重申了以前的理解,即文本操作是語言模型的基本優勢。

圖5:貨幣格式化測試結果

至于貨幣格式化測試,Claude 3和GPT-4的表現幾乎完美無瑕。Claude 2.1的表現總體上較差。準確度在標記長度上變化不大,但當指針更接近上下文窗口的開頭時,準確度通常會更低。

圖6:正式的來自Haystack網站的測試結果

盡管在一代測試中取得了出色的結果,但Claude 3的準確性在一個僅用于檢索的實驗中有所下降。從理論上講,簡單地檢索數字也應該比操縱數字更容易——這使得性能的下降令人驚訝,也是我們計劃進一步測試的領域。如果有什么不同的話,這種違反直覺的下降只會進一步證實這樣一種觀點,即在使用RAG開發時,檢索和生成都應該進行測試。

結論

通過測試各種生成任務,我們觀察到,雖然Claude和GPT-4這兩個模型都擅長字符串操作等瑣碎任務,但在更復雜的場景中,它們的優勢和劣勢變得顯而易見(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在數學方面仍然不太好!另一個關鍵結果是,“自我解釋”提示的引入顯著提高了GPT-4的性能,強調了如何提示模型以及如何闡明其推理對實現準確結果的重要性。

這些發現對LLM的評估具有更廣泛的意義。當比較像詳細的Claude和最初不那么詳細的GPT-4這樣的模型時,很明顯,RAG評估(https://arize.com/blog-course/rag-evaluation/)標準必須超越以前僅重視正確性這一點。模型響應的冗長引入了一個變量,該變量可以顯著影響他們的感知性能。這種細微差別可能表明,未來的模型評估應將平均答復長度視為一個值得注意的因素,從而更好地了解模型的能力,并確保更公平的比較。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Tips for Getting the Generation Part Right in Retrieval Augmented Generation,作者:Aparna Dhinakaran

鏈接:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented-generation-7deaa26f28dc。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://m.jxzklqfsx.com/aigc/

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2024-12-25 20:01:13

2024-03-27 13:32:00

AI數據

2023-07-12 16:10:48

人工智能

2024-06-24 17:45:16

2023-11-23 14:05:36

Claude 2.0聊天機器人

2024-05-20 08:20:00

OpenAI模型

2025-09-08 08:40:00

AI模型編程

2023-10-24 19:06:44

數據模型

2024-03-28 14:26:51

人工智能

2024-03-28 13:15:00

化學專業Claude 3GPT-4

2023-12-11 13:20:00

數據訓練

2024-12-18 13:24:30

谷歌AI大語言模型

2024-04-01 12:41:55

2025-08-07 09:07:21

2023-10-11 13:09:52

訓練模型

2024-04-12 17:41:28

GPT-4TurboClaude

2024-12-09 08:00:00

AI大模型人工智能

2024-03-05 11:17:40

AI模型

2025-05-26 02:15:00

點贊
收藏

51CTO技術棧公眾號

一二三四视频在线中文| 天堂在线观看av| 围产精品久久久久久久| 日韩精品一区二区三区视频| 成人免费在线小视频| jizz在线免费观看| 国产91精品免费| 日本成熟性欧美| 欧美日韩黄色网| 无码少妇一区二区三区| 欧美精选午夜久久久乱码6080| 8x8ⅹ国产精品一区二区二区| 亚洲aaa在线观看| 久久99国产乱子伦精品免费| 韩国精品美女www爽爽爽视频| av男人的天堂av| 永久免费精品视频| 欧美亚洲免费在线一区| 野外做受又硬又粗又大视频√| 黄色av网站在线免费观看| 国产精品中文字幕欧美| 国产精品第2页| 久久久精品免费看| 亚洲视频在线免费| 国产小视频国产精品| 娇妻高潮浓精白浆xxⅹ| 福利一区三区| 欧美性xxxxxxxx| 欧美韩国日本在线| 高清电影在线观看免费| 中文字幕一区二区三| 日本欧美色综合网站免费| 风流老熟女一区二区三区| 久久精品国产99久久6| 日本国产一区二区三区| 久久久久久久久久99| 91日韩免费| 在线观看91久久久久久| 亚洲熟妇一区二区三区| 国产精品流白浆在线观看| 欧美一区二区视频网站| 第四色婷婷基地| 偷拍精品精品一区二区三区| 精品成人av一区| 亚洲色欲久久久综合网东京热| 免费大片黄在线| 国产精品免费免费| 日产精品一线二线三线芒果| 欧美日韩免费做爰大片| 久久综合九色综合久久久精品综合| 99精品国产高清一区二区| 91影院在线播放| 日韩精品每日更新| 国产精品18久久久久久麻辣| 天天操天天干天天摸| 麻豆精品网站| 国产精彩精品视频| 中文字幕av片| 美国三级日本三级久久99| 国产精品中文在线| 国产一区二区三区中文字幕| 国产一区二区女| 亚洲一区二区三区久久| av小说天堂网| av电影一区二区| 久久综合婷婷综合| 成人一区二区不卡免费| 国产日产欧美一区| 亚洲一区三区在线观看| 免费av毛片在线看| 亚洲九九爱视频| 日韩第一页在线观看| 羞羞视频在线免费国产| 亚洲午夜羞羞片| 男人日女人下面视频| 91精品论坛| 欧美日韩国产一二三| 性欧美在线视频| 在线一区二区三区视频| 乌克兰美女av| 性欧美精品中出| 欧美三级三级| 久久精品国产69国产精品亚洲 | 2019日韩中文字幕mv| 色戒汤唯在线观看| 欧美性猛交xxxxxxxx| 91网址在线观看精品| 精品亚洲自拍| 中文字幕亚洲欧美| 欧美精品一区二区成人| 中国女人久久久| 国产精品视频专区| 国精产品一品二品国精品69xx| 91在线视频播放地址| 亚洲激情图片| av资源在线| 欧美日韩综合在线免费观看| 美女流白浆视频| 国产亚洲电影| 欧美极品美女电影一区| 这里只有久久精品视频| 国产99久久久国产精品| 日本一区二区在线视频| 丝袜中文在线| 欧美性受xxxx黑人xyx性爽| 无套内谢丰满少妇中文字幕| 视频一区中文| 欧美极品第一页| 一区二区的视频| wwww国产精品欧美| 国产一级大片免费看| 欧美日韩不卡| 亚洲国产精品久久久久秋霞蜜臀 | 国产高清视频在线播放| 一区二区三区不卡视频| 大肉大捧一进一出好爽动态图| 在线欧美激情| 国产一区二区三区高清在线观看| 国产中文字幕免费| 国内久久精品视频| 日日骚一区二区网站| 国产精品蜜芽在线观看| 555夜色666亚洲国产免| 好吊视频在线观看| 日韩视频三区| 国产精品国产精品| 超碰在线免费播放| 欧美日韩午夜影院| 在线观看福利片| 亚洲黄色三级| 国产精华一区| 四虎亚洲成人| 欧美成人精品3d动漫h| 国产午夜精品理论片在线| 日本中文字幕一区二区视频| 久久久久久九九九九| 国产探花在线观看| 日韩精品中文字幕在线不卡尤物| 99热6这里只有精品| 理论片日本一区| 亚洲精品一区二区毛豆| 亚洲日本网址| 亚洲天堂av在线免费| 秋霞精品一区二区三区| 91影院在线观看| 116极品美女午夜一级| 麻豆一区二区麻豆免费观看| 久久久久久尹人网香蕉| 日本高清视频网站| 亚洲成a人v欧美综合天堂| 精品无码av一区二区三区不卡| 91成人看片| 亚洲自拍偷拍区| 在线你懂的视频| 91麻豆精品国产综合久久久久久| 国产午夜精品理论片| 国产一区二区h| 免费看日本黄色| 成人在线视频你懂的| 久久久久一本一区二区青青蜜月| 亚洲国产成人精品一区二区三区| 亚洲综合男人的天堂| 国产伦精品一区二区免费| 亚洲精品影视| 日本精品一区二区| 亚洲精品成人一区| 九九精品视频在线观看| 蜜臀久久精品久久久久| 欧美性xxxx极品高清hd直播| 男女做爰猛烈刺激| 久久99日本精品| 狠狠干视频网站| 福利片在线一区二区| 清纯唯美亚洲综合| 成人高清免费在线播放| 91精品国产综合久久久久久漫画 | 91麻豆精品国产自产在线观看一区 | 婷婷成人综合| 国产精品视频自在线| 免费在线国产视频| 亚洲精品按摩视频| √资源天堂中文在线| 国产欧美日韩麻豆91| 亚洲第一天堂久久| 亚洲一区国产| 中文字幕黄色大片| 久久精品凹凸全集| 国产情人节一区| gogo高清午夜人体在线| 国产亚洲欧美视频| 亚洲av无码国产精品永久一区 | 欧美日韩国产91| 青青草视频在线免费观看| 欧美日韩国产一二三| 国产精品第九页| 国产精品你懂的在线| 天天躁日日躁狠狠躁av| 麻豆精品视频在线观看免费| 成人免费a级片| 欧美一区电影| 国产亚洲欧美一区二区 | 国产精品入口66mio| 亚洲欧美日韩国产yyy| 国产劲爆久久| 成人免费大片黄在线播放| 亚洲福利影院| 欧美国产日韩一区| 69av在线| 亚洲欧美中文日韩在线v日本| 国产成人三级一区二区在线观看一| 欧美性猛交视频| 久草视频免费在线播放| 中文字幕av在线一区二区三区| 亚洲av成人精品一区二区三区| 久久精品国产精品青草| 成人亚洲视频在线观看| 伊人成人在线| 99视频精品全部免费看| 青青草综合网| 欧洲成人一区二区| 午夜先锋成人动漫在线| 国产精品国产精品国产专区不卡| av在线成人| 国产欧美一区二区三区久久人妖| 亚洲色图官网| 欧美亚洲日本网站| 波多野结衣久久| 欧美猛男性生活免费| 久久久久久久久免费视频| 色先锋资源久久综合5566| 国产一区二区三区福利| 国产丝袜一区视频在线观看| 国模无码一区二区三区| 欧美一区二区视频在线观看2022 | 粉嫩蜜臀av国产精品网站| 久久精品亚洲天堂| 国内不卡的二区三区中文字幕| 五月婷婷之综合激情| 日本系列欧美系列| 北条麻妃在线视频| 肉色丝袜一区二区| 9久久婷婷国产综合精品性色| 久久精品人人做人人爽电影蜜月| 中国丰满人妻videoshd| 国产欧美欧美| 国产极品美女高潮无套久久久| 久久免费高清| 天天操天天爽天天射| 青青草伊人久久| 日韩一级免费片| 九一九一国产精品| 污污的视频免费观看| 国产乱子轮精品视频| 少妇熟女视频一区二区三区| 成人在线一区二区三区| 欧美日韩一区二区三区四区五区六区| 福利一区福利二区| 在线视频 日韩| 久久欧美中文字幕| 无码人妻精品一区二区中文| 国产精品区一区二区三| 五月婷婷六月香| 亚洲女性喷水在线观看一区| 国产成人av免费在线观看| 亚洲愉拍自拍另类高清精品| 国产真实的和子乱拍在线观看| 亚洲成人资源在线| 黄色在线视频网址| 欧美日韩亚洲综合| 亚洲精品视频网| 精品亚洲一区二区三区四区五区| 可以直接在线观看的av| 最好看的2019年中文视频| 国产午夜精品久久久久免费视| 欧美激情第三页| 中文字幕影音在线| 国产欧美日韩精品专区| 亚洲一级大片| 蜜桃网站成人| 欧美a级在线| 国产91美女视频| 黑人精品欧美一区二区蜜桃| 男男一级淫片免费播放| 国产亚洲成av人在线观看导航| 国精产品久拍自产在线网站| 一区二区三区毛片| 欧美一区免费看| 欧美一区二区三区影视| 五月婷婷在线播放| 日韩一区二区欧美| 1区2区3区在线| 国产区精品在线观看| 成人资源在线播放| 亚洲欧美一区二区原创| 亚洲电影av| 天天操天天干天天做| 99久久精品国产导航| 99热在线观看精品| 欧美视频在线视频| 精品人妻aV中文字幕乱码色欲| 亚洲另类图片色| 中中文字幕av在线| 国产精品欧美日韩久久| 风间由美中文字幕在线看视频国产欧美 | 一区二区高清免费观看影视大全| 亚洲欧美一区二区三区在线观看 | 水莓100在线视频| 久久久国产91| yw.尤物在线精品视频| 国产精品中出一区二区三区| 99久久99热这里只有精品| 国产成人精品视频免费看| 国产一区二区免费视频| 97在线观看免费视频| 亚洲aⅴ怡春院| aaa一区二区| www.xxxx精品| 成人国产激情在线| 欧美精品人人做人人爱视频| 亚洲视频精品| 久久人人爽人人片| 亚洲欧洲韩国日本视频| 91丨九色丨海角社区| 精品呦交小u女在线| 丁香花电影在线观看完整版| 97中文在线观看| 亚洲深深色噜噜狠狠爱网站| 亚洲xxx在线观看| 中文字幕av一区二区三区| 欧美精品一二三四区| 日韩精品在线看| 黄色漫画在线免费看| 国产精品亚洲综合| 欧美福利在线| 91成人在线观看喷潮蘑菇| 一区二区三区不卡视频| 国产suv精品一区二区69| 美日韩精品视频免费看| 国产一区二区av在线| 日韩最新中文字幕| 国产麻豆成人精品| 久久久久亚洲av无码专区体验| 91精品国产入口在线| 国产美女福利在线| 97久久人人超碰caoprom欧美| 女生裸体视频一区二区三区| 无码人妻一区二区三区免费n鬼沢| 一区2区3区在线看| 丰满人妻一区二区三区免费视频| 欧美激情xxxxx| 国产厕拍一区| 国产日产欧美视频| 国产午夜亚洲精品羞羞网站| 99精品人妻国产毛片| 伊人男人综合视频网| 日本一区二区电影| 综合一区中文字幕| 国产成人自拍网| 久久视频免费在线观看| 亚洲黄色在线看| 亚洲精品在线影院| 中国一区二区三区| 国产丶欧美丶日本不卡视频| 国产第一页在线播放| 日韩av在线电影网| av有声小说一区二区三区| 综合色婷婷一区二区亚洲欧美国产| 国产美女一区二区| 国产情侣在线视频| 伊人久久大香线蕉av一区二区| 曰本一区二区| 六月婷婷在线视频| 国产欧美一区二区在线观看| 亚洲天堂aaa| 欧美大片在线看免费观看| 日韩精品欧美大片| 在线观看国产中文字幕| 亚洲一级二级在线| 黄色在线小视频| 91最新在线免费观看| 亚洲久久一区| 国产精品69久久久久孕妇欧美| 日韩视频在线一区二区| 国产伦精品一区二区三区视频金莲| 亚洲蜜桃av| 波多野结衣在线一区| 正在播放木下凛凛xv99| 久久久久日韩精品久久久男男| 蜜臀久久99精品久久一区二区| 国产美女视频免费看| 疯狂做受xxxx欧美肥白少妇 | 亚洲精品合集| 国产5g成人5g天天爽| 欧美色播在线播放| 超碰在线免费公开| 日本a级片久久久| 成人黄色大片在线观看| 在线播放成人av| 88xx成人精品| 久久久久电影|