精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達新對話QA模型準確度超GPT-4,卻遭吐槽:無權重代碼意義不大

人工智能
今天,英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下,在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

昨天,Meta、紐約大學的研究者用「自我獎勵方法」,讓大模型自己生成自己的微調數據,從而在 Llama 2 70B 的迭代微調后超越了 GPT-4。今天,英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下,在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

一年多來,ChatGPT 及后續產品引發了生產和研究社區中構建問答(QA)模型的范式轉變。尤其是在實際應用中,QA 模型在以下情況成為首選:

  • 用戶能夠以對話方式與 QA 模型進行交互,并可以輕松提出后續問題;
  • 通才模型能夠以零樣本方式生成答案,無需針對數據集進行微調,同時媲美微調專家模型的準確度;
  • QA 模型能夠在開放域或長文檔設置中集成檢索到的證據塊,提供的上下文比 LLM 的上下文窗口長得多。

不過對于研究界而言,構建一個能夠媲美 GPT-4 等 SOTA 黑箱模型準確度的對話 QA 模型仍是一個巨大挑戰。

近日,在英偉達的一篇論文中,研究者提出了一個具有 GPT-4 級別準確度的白箱對話 QA 模型 ChatQA 70B。他們采用了兩階段指令調優方法以及用于對話 QA 的 RAG 增強檢索器、嚴格的數據管理過程。

  • 論文標題:ChatQA: Building GPT-4 Level Conversational QA Models
  • 論文地址:https://huggingface.co/papers/2401.10225
  • 論文標題:ChatQA: Building GPT-4 Level Conversational QA Models

具體來講,本文主要做出了以下貢獻:

  • 提出了兩階段指令調優方法和數據集管理方法,它們大大增強了 LLM 在零樣本對話 QA 任務中集成用戶提供或檢索上下文時的能力。本文方法顯著優于常規指令調優或基于 RLHF 的方法(如 Llama-2-Chat)。
  • 對于對話 QA 中的 RAG,展現出了在人類標注多輪 QA 數據集上微調 SOTA 單輪查詢檢索器的效果與使用基于 LLM 的 SOTA 查詢重寫模型(如 GPT-3.5-turbo)一樣好。
  • 基于 Llama2-7B、Llama2-13B、Llama2-70B 和內部 8B 預訓練 GPT 構建了一系列 ChatQA 模型,并在 10 個對話 QA 數據集上進行了全面研究,包括 5 個需要檢索的長文檔數據集和 3 個帶有表格的數據集。從平均得分結果來看,ChatQA-70B 可以在不使用任何來自 ChatGPT 模型的合成數據情況下優于 GPT 3.5-turbo (50.37) 和 GPT-4 (53.90)。
  • 探究了「無法回答」的場景,即所需要的答案不在提供或檢索的上下文中,因此 LLM 很容易產生幻覺。本文證明,在指令調優中添加少量「無法回答」的樣本可以引導模型在必要時生成「無法回答」的輸出,從而大大減少幻覺。ChatQA-70B 在這方面優于 GPT-3.5-turbo,但與 GPT-4 相比仍有輕微差距(約 3.5%)。

對于英偉達的全新對話 QA 模型,有人認為有趣的一點在于,它不依賴任何來自 OpenAI GPT 模型的合成數據。而像馬斯克旗下 xAI 的聊天機器人 Grok 使用了大量 OpenAI 的模型數據。

推特 @fahirmdz

不過,也有讀者對英偉達不提供模型權重和代碼的做法「很不感冒」。如果這些都不公開的話,再厲害也對 LLM 社區沒啥意義。

推特 @AiBeginners

方法細節

1.ChatQA 兩階段調優

研究者提出了一種用于 ChatQA 的兩階段指令調優方法,請參見圖 1。研究者的方法從預訓練的 LLM 基礎模型開始。在階段 1,研究者在指令遵循和對話聯合數據集上使用了監督微調(SFT)。之后,本文的模型表現出作為對話智能體遵循指令的良好能力。然而情境化或基于 RAG 的 QA 能力仍然有限。 

因此,研究者引入了一個稱為上下文增強指令調優的后續階段,它是專門為增強本文模型在對話 QA 中進行上下文感知或檢索增強生成的能力而設計的。

2.多輪問答檢索

在對話問答任務中,當文檔變得過于冗長而無法直接輸入 LLM 時,能夠處理對話式查詢的檢索器就變得至關重要。這種對話檢索器會對對話歷史和當前查詢進行編碼,然后從文檔中檢索相關上下文。之后,只有相關上下文才會被用作 LLM 的輸入。最先進的檢索器都是針對單輪查詢進行優化的,因此對多輪對話查詢的泛化能力有限。

在圖 2 中,研究者描述了他們的檢索器微調方法,以緩解這一問題。他們建議使用對話查詢和上下文對來進一步微調單輪檢索器,以更好地應對對話輸入。

另一種解決方案是對話查詢重寫法,它使用查詢重寫器根據對話歷史記錄重寫當前問題。重寫后的查詢直接作為單輪查詢檢索器的輸入,用于檢索相關上下文。除了嵌入和搜索成本外,查詢重寫模型還引入了大量額外的計算開銷來生成重寫后的查詢。

在表 1 中,研究者比較了五個數據集在零樣本設置下的查詢重寫和微調方法。

實驗及結果

1.實驗設置

研究者在不同規模的模型上進行了實驗。首先,為了顯示第二階段上下文增強指令調優的有效性,研究者將 Llama2-SFT7B/13B/70B 與第一階段監督微調(SFT)后的 Llama2-7B/13B/70B 基礎模型進行了比較。其次,與 Llama2-Chat-7B/13B/70B 進行比較,因為 Llama2-Chat 模型被證明具有強大的指令遵循和對話問答能力。

除了 Llama2 模型外,研究者還對自家的 GPT-8B 基礎模型進行了實驗,并與其第一階段的 SFT 基線(GPT-8BSFT)進行了比較。最后,還與兩個非常強大的 OpenAI 模型進行了比較:GPT-3.5-turbo (4k) 和 GPT-4 (8k)。

為了進行公平比較,研究者使用相同的上下文作為模型和基線的輸入。他們對所有基線的指令都進行了仔細調整,以確保它們取得盡可能好的結果。

研究者收集了五個包含長文檔的對話式問答數據集。他們將 Doc2Dial、QuAC 和 QReCC 文檔分割成大約 300 字的塊,并檢索前 5 個相關塊作為每個用戶問題的上下文。對于 TopioCQA 和 INSCIT,研究者遵循它們原始的分割方式,得到了更小的文本塊。

為了增加文檔長度的多樣性,研究者還收集了五個包含短文檔(少于 1500 字)的對話式問答數據集。平均而言,每個單詞將被分解為 1.5K 個 tokens。這些數據集包括 CoQA、DoQA、ConvFinQA、SQA 和 HybridDial。

考慮到 F1 分數是評估問答模型最常用的自動指標,研究者對 ConvFinQA 之外的所有數據集使用它。在 ConvFinQA 中,研究者使用精確匹配指標,因為 ConvFinQA 中的答案涉及從文檔中提取數字以及進行算術計算。因此,只有當答案與標準答案完全相同時,它才有意義。當模型生成算術公式時,研究者將使用計算器計算其最終結果,并與標準答案進行比較。此外,他們還進行了人工評估,以評估他們的最佳模型和 GPT-4 生成答案的正確性。

2.實驗結果

如表 2 所示,研究者比較了不同的模型變體和 OpenAI 模型在 10 個對話式問答數據集上的表現。

他們移除了微調階段的第一階段 SFT,僅在基礎 LLM 上應用第二階段的上下文增強指令調優。觀察數據可以發現平均得分下降了 1.9(從 54.08 降至 52.18)。除了 SQA 數據集外,移除第一階段會使模型在其他數據集上的表現一致地變差。

結果表明,即使在第二階段指令調優中也融合了第一階段 SFT 的所有數據集,第一階段仍然扮演著重要角色。因此,研究者認為先建立遵循指令的能力對第二階段的調整是有益的。

10 個數據集的人類評估結果如表 3 所示。首先,在大多數情況下(占比 69.09%),ChatQA-70B 模型和 GPT-4 表現相當。而 GPT-4 在勝率上略高于本文模型,大約高出 3.3%。這進一步證明了其模型在提供正確答案方面具有強大的能力。其次,在 ConvFinQA 任務中,本文模型比 GPT-4 有略微更好的勝率,這顯示了該模型在算術計算方面的強大能力。第三,GPT-4 在 SQA 任務上的勝率明顯更高,這表明在表格推理任務上,本文模型與 GPT-4 之間仍存在一定差距。

表 4 中,研究者進一步比較了本文模型和 OpenAI 模型在不同數據集類型的回話問答基準中的表現。

在表 5 中,研究者發現在需要檢索的數據集上,使用 top-5 數據塊作為訓練上下文會帶來一些改進。但在非檢索數據集上的性能卻有所下降。總體而言,這兩種模型的性能相當。這是因為在第二階段的調整中加入了 top-5 檢索數據塊,使其與需要檢索的推理階段保持一致,從而提高了 Avg-ret 分數。

表 6 展示了關于檢索上下文 / 語塊數量、上下文排序和不同檢索器如何影響對話質量保證結果的消融研究。

表 7 展示了本文模型與 OpenAI 模型在 QuAC 和 DoQA 數據集上進行了比較。

表 8 顯示了 ChatQA-70B 和 GPT-4 輸出的四個示例。

第一個例子是一個簡單的信息尋求問題,ChatQA-70B 和 GPT-4 都給出了正確的答案。在第二個例子中,模型需要找到隱含信息(以藍色高亮顯示)來給出答案。GPT-4 在給出答案時傾向于保守,它回答說上下文沒有提供關于年齡的確切信息,這也是正確的。

第三個和第四個例子都要求模型具有良好的表格理解和推理能力。在第三個例子中,ChatQA-70B 通過比較保護區的大小和 3100 公頃給出了正確的答案,而 GPT-4 則未能做到這一點。在第四個例子中,ChatQA-70B 正確列出了三個日期,但漏掉了一個日期,而 GPT-4 則正確回答了這個問題。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2023-12-09 14:30:50

2024-01-22 07:10:00

AI視頻

2022-05-20 10:43:30

AI模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2018-09-15 14:54:11

iPhone手機iPhone XR

2021-03-15 10:03:10

框架自動化開發

2023-06-19 08:19:50

2021-05-26 16:00:51

微信表情移動應用

2024-09-02 09:25:00

AI研究

2023-10-08 13:11:00

訓練數據

2023-07-14 09:49:16

2023-12-26 08:17:23

微軟GPT-4

2025-04-16 09:35:03

2024-07-09 12:54:57

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2025-03-24 13:24:23

2023-05-29 09:55:11

GPT-4英偉達

2023-06-19 12:28:21

GPT人工驗證數據集
點贊
收藏

51CTO技術棧公眾號

欧美成人精品| 97在线资源站| 午夜影院福利社| 色呦呦在线免费观看| 高清免费成人av| 美女啪啪无遮挡免费久久网站| 三区视频在线观看| а√天堂中文在线资源8| 久久亚洲欧美国产精品乐播| 国产乱人伦真实精品视频| 久久久99精品| 日韩午夜电影网| 亚洲精品在线电影| 午夜欧美福利视频| 国产精品69xx| 国产精品无圣光一区二区| 国产精品亚洲不卡a| 久草视频在线免费| 一本久久综合| 伊人av综合网| 日本黄色片在线播放| 99tv成人影院| 色噜噜久久综合| 日本大胆人体视频| 亚乱亚乱亚洲乱妇| 久久嫩草精品久久久久| 91久久久在线| 亚洲精品无码久久久久| 亚洲精品专区| 欧美富婆性猛交| 永久免费未视频| 国产成人黄色| 亚洲国产精品高清久久久| theporn国产精品| 欧美黑人一区| 懂色aⅴ精品一区二区三区蜜月| 免费观看国产视频在线| 国产精品一区在线看| av电影在线观看完整版一区二区| 91视频国产精品| 亚洲午夜精品久久久| 麻豆久久婷婷| 欧美又大又硬又粗bbbbb| 久久一区二区三| 欧美成人亚洲| 欧美成人午夜免费视在线看片| 国产传媒视频在线| 日韩精品水蜜桃| 这里只有精品久久| 国产人妻大战黑人20p| 亚洲大片精品免费| 日韩高清欧美高清| 亚洲av无码一区二区三区观看 | 亚洲免费在线视频一区 二区| 日韩欧美精品一区二区三区经典| 嫩草在线播放| 久久久久久久久久久久久夜| 欧美激情一区二区三区在线视频| 亚洲三区在线播放| 91丨porny丨国产入口| 久久国产精品99久久久久久丝袜| 亚洲欧洲综合在线| 久久日韩精品一区二区五区| 欧美大香线蕉线伊人久久| 日韩午夜影院| 欧美国产日韩亚洲一区| 日韩av在线电影观看| 在线视频自拍| 亚洲免费电影在线| cao在线观看| 345成人影院| 欧美日韩日日夜夜| 男人添女人荫蒂国产| 国产人妖ts一区二区| 亚洲另类xxxx| 波多野结衣家庭教师在线观看 | 久久久精品电影| 天天干中文字幕| 亚洲激情网址| 国产精品678| 国产三级三级在线观看| 成人国产在线观看| 色吧亚洲视频| 亚洲奶水xxxx哺乳期| 欧美日韩免费看| 日本 片 成人 在线| 视频在线一区| 亚洲片在线观看| 手机在线免费看片| 宅男噜噜噜66国产日韩在线观看| 国产精品高清在线观看| 99re只有精品| 91网站视频在线观看| 翔田千里亚洲一二三区| xxxx在线视频| 欧美日韩一区二区三区不卡| 女人扒开双腿让男人捅| 免费欧美一区| 欧美成人精品激情在线观看| 日本韩国欧美中文字幕| 激情六月婷婷综合| 麻豆传媒一区二区| 18av在线视频| 欧美中文字幕一区二区三区亚洲| 男人的天堂免费| 人人狠狠综合久久亚洲婷| 久久乐国产精品| 夜夜嗨av禁果av粉嫩avhd| 不卡视频在线观看| 国产91av视频在线观看| 亚洲人成在线网站| 日韩精品资源二区在线| 91精品国自产在线| 国产免费成人| 国产66精品久久久久999小说| 国产免费av高清在线| 亚洲成人免费av| 波多野结衣免费观看| 久操精品在线| 久久久久久噜噜噜久久久精品| 亚洲天堂网视频| 久久尤物电影视频在线观看| 中文字幕日韩精品无码内射| 精品久久在线| 亚洲男子天堂网| 日韩欧美性视频| 国产精品99久久久久久似苏梦涵 | 欧美日韩ab| 成人黄色av免费在线观看| 国产永久免费高清在线观看视频| 亚洲成人精品一区| 国产成人精品综合久久久久99| 欧美r级电影| 国产精品扒开腿做| 色猫av在线| 黑人巨大精品欧美一区二区一视频 | 日韩女优视频免费观看| 永久免费看片直接| 免费观看一级特黄欧美大片| 欧美日韩一区二区视频在线观看| www.51av欧美视频| 亚洲成人在线网| 国产大片中文字幕在线观看| 国产mv日韩mv欧美| 成人在线视频一区二区三区| 警花av一区二区三区| 欧美成人黑人xx视频免费观看| 国产伦理吴梦梦伦理| 中文字幕在线免费不卡| 欧美日韩一区二区三区69堂| 成人激情诱惑| 国产在线精品一区免费香蕉| 免费观看在线黄色网| 在线观看91精品国产麻豆| 久久一级免费视频| 六月丁香婷婷久久| 最近中文字幕免费mv| 蜜桃在线一区| 久久久综合av| 欧美18xxxxx| 在线亚洲欧美专区二区| 国产aaaaaaaaa| 国产一区二区三区精品视频| 成人小视频在线观看免费| 精品三级av在线导航| 91成人性视频| av片在线免费观看| 91精品国产一区二区人妖| 久久久久亚洲av成人片| 91免费国产视频网站| 欧美成人黑人猛交| 欧美电影免费| 国产传媒欧美日韩| 欧美男体视频| 欧美成人性色生活仑片| 日韩电影免费| 制服丝袜在线91| 国产一级片免费看| 国产三级一区二区| 色哟哟免费视频| 亚洲欧美春色| 黄频视频在线观看| 神马久久影院| 91久久精品久久国产性色也91| 丰满诱人av在线播放| 亚洲免费电影一区| av天堂一区二区三区| 欧美日韩国产精品| 老司机深夜福利网站| 高清不卡在线观看| 手机看片福利盒子久久| 欧美在线精品一区| 欧美在线一区二区三区四区| 伊人久久大香线蕉综合影院首页| 国模吧一区二区三区| 1769视频在线播放免费观看| 精品成人私密视频| 亚洲一区二区视频在线播放| 午夜影视日本亚洲欧洲精品| 青青青视频在线播放| 丁香啪啪综合成人亚洲小说| 日本免费观看网站| 亚洲精品激情| 亚洲激情免费视频| re久久精品视频| 国内视频一区二区| 玖玖玖视频精品| 国产精品久久久久久av下载红粉 | 色诱亚洲精品久久久久久| 在线看的片片片免费| 久久精品欧美一区二区三区不卡 | 图片区 小说区 区 亚洲五月| 欧美日韩精品欧美日韩精品一综合| 日韩激情在线播放| 一区二区三区在线观看视频| 美女100%露胸无遮挡| 91在线视频网址| 91精品人妻一区二区三区蜜桃2 | 中文字幕一区二区三区乱码不卡| 久草这里只有精品视频| 国产精品-区区久久久狼| 国产精品s色| 在线观看免费黄色片| 欧美综合久久| 玖玖玖精品中文字幕| 国产精品乱战久久久| 亚洲自拍中文字幕| 91成人app| 国产精品偷伦视频免费观看国产| 久久青青视频| 欧美有码在线视频| 日韩欧美精品一区二区三区| 久久久久中文字幕| 久操av在线| 欧美大尺度在线观看| 成人免费看片| 久久久999国产| 蜜桃视频在线观看www社区| 夜夜嗨av色综合久久久综合网| 色吊丝在线永久观看最新版本| 精品国产第一区二区三区观看体验| 99久久国产免费| 日韩一级免费一区| 精品久久在线观看| 日韩欧美国产一二三区| 亚洲国产精品视频在线| 欧美xxxxxxxxx| 亚洲乱色熟女一区二区三区| 欧美成人aa大片| 成人免费视频国产免费麻豆| 精品国产91亚洲一区二区三区婷婷 | 美国精品一区二区| 亚洲视频你懂的| 成人免费毛片xxx| 一区二区三区在线观看国产| 亚洲熟女www一区二区三区| 一区二区三区四区高清精品免费观看| av激情在线观看| 亚洲大片精品永久免费| 久久亚洲精品国产| 欧洲激情一区二区| 国产精品毛片一区二区在线看舒淇| 91麻豆精品国产91久久久| 精品国产av鲁一鲁一区| 亚洲第一区在线| 噜噜噜在线观看播放视频| 国产亚洲欧美一区| 成人免费看片| 2019中文字幕全在线观看| 日韩电影免费观| 国产在线不卡精品| 国产精品毛片av| 亚洲欧美精品| 国产在线欧美| av网址在线观看免费| 精品午夜久久福利影院| 岛国精品一区二区三区| 久久九九99视频| 欧美一区二区三区爽爽爽| 午夜在线电影亚洲一区| 怡红院男人的天堂| 欧美v国产在线一区二区三区| 午夜小视频免费| xvideos亚洲人网站| 2021天堂中文幕一二区在线观| 日本精品免费观看| 久久伦理中文字幕| 免费一区二区三区在在线视频| 色97色成人| 男人日女人逼逼| 看电视剧不卡顿的网站| 精品熟女一区二区三区| 中文av一区特黄| 日本中文在线播放| 在线综合+亚洲+欧美中文字幕| 五月天婷婷激情网| 久久影视电视剧免费网站清宫辞电视| 欧美激情20| 97中文在线观看| 欧美激情电影| 日韩视频第二页| 国产69精品久久久久毛片| av电影在线不卡| 午夜欧美一区二区三区在线播放| 亚洲天堂avav| 亚洲欧洲激情在线| 波多野结衣精品| 91亚洲精品在线| 日韩免费视频| 欧美极品欧美精品欧美图片| 岛国一区二区在线观看| 小嫩苞一区二区三区| 色94色欧美sute亚洲13| 手机看片一区二区| 欧美大成色www永久网站婷| 免费成人毛片| 视频一区二区在线观看| 国产亚洲亚洲| 成人午夜精品无码区| 亚洲一区在线观看免费观看电影高清| 亚洲中文字幕一区二区| 亚洲欧美综合另类中字| 毛片在线网站| 国产精品一区二区三区不卡| 欧美不卡视频| 香蕉视频xxxx| 亚洲欧美偷拍三级| 91精品人妻一区二区三区果冻| 亚洲天堂网站在线观看视频| 日韩电影毛片| 麻豆成人av| 久久尤物视频| 国产sm调教视频| 色菇凉天天综合网| 国产在线视频你懂得| 日本高清久久天堂| 九色成人国产蝌蚪91| 一女被多男玩喷潮视频| 99精品视频在线免费观看| 亚洲国产精品午夜在线观看| 亚洲成人黄色在线观看| av在线最新| 久久精品丝袜高跟鞋| 亚洲在线日韩| 少妇久久久久久久久久| 欧美午夜精品久久久久久超碰| 国产高清视频在线观看| 国产精品久久久久久久久久新婚| 精品国产一区二区三区香蕉沈先生| 欧美成人精品欧美一级乱| 久久精品视频在线免费观看 | 久久久久久色| 国产肥白大熟妇bbbb视频| 日本韩国欧美三级| 91精彩在线视频| 91久久国产婷婷一区二区| 欧美国产专区| 精品人妻一区二区免费视频| 欧美性xxxx在线播放| 久久经典视频| 国产欧美精品一区二区| 欧美.www| 美国黄色一级毛片| 欧美午夜一区二区三区免费大片| av成人手机在线| 91成人在线看| 国产日韩一区二区三区在线播放| 亚洲做受高潮无遮挡| 欧美日韩国产天堂| 污污视频在线| 欧美日韩一区在线播放| 精品中文字幕一区二区| 久久久久亚洲AV| 亚洲欧美激情精品一区二区| 福利一区二区免费视频| 51xx午夜影福利| 99久久国产综合精品色伊| 在线观看国产区| 欧美肥臀大乳一区二区免费视频| 欧美人体视频| 亚洲天堂国产视频| 亚洲国产精品欧美一二99 | 欧美成人一区在线| 亚洲警察之高压线| 99九九99九九九99九他书对| 亚洲第一激情av| 日本韩国在线视频爽| 国产欧美亚洲日本| 蜜桃精品视频在线| 国产无套内射又大又猛又粗又爽 | 中国1级黄色片| 亚洲成人av片在线观看| 91精品xxx在线观看| 嫩草影院中文字幕| 欧美激情一区在线| 四季av日韩精品一区| 国产综合久久久久久| 亚洲欧美日韩精品一区二区 | 在线播放麻豆| 久久综合福利|