英偉達新對話QA模型準確度超GPT-4，卻遭吐槽：無權重代碼意義不大

作者：機器之心 2024-01-22 00:25:00

今天，英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下，在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

昨天，Meta、紐約大學的研究者用「自我獎勵方法」，讓大模型自己生成自己的微調數據，從而在 Llama 2 70B 的迭代微調后超越了 GPT-4。今天，英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下，在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

一年多來，ChatGPT 及后續產品引發了生產和研究社區中構建問答（QA）模型的范式轉變。尤其是在實際應用中，QA 模型在以下情況成為首選：

用戶能夠以對話方式與 QA 模型進行交互，并可以輕松提出后續問題；
通才模型能夠以零樣本方式生成答案，無需針對數據集進行微調，同時媲美微調專家模型的準確度；
QA 模型能夠在開放域或長文檔設置中集成檢索到的證據塊，提供的上下文比 LLM 的上下文窗口長得多。

不過對于研究界而言，構建一個能夠媲美 GPT-4 等 SOTA 黑箱模型準確度的對話 QA 模型仍是一個巨大挑戰。

近日，在英偉達的一篇論文中，研究者提出了一個具有 GPT-4 級別準確度的白箱對話 QA 模型 ChatQA 70B。他們采用了兩階段指令調優方法以及用于對話 QA 的 RAG 增強檢索器、嚴格的數據管理過程。

論文標題：ChatQA: Building GPT-4 Level Conversational QA Models
論文地址：https://huggingface.co/papers/2401.10225
論文標題：ChatQA: Building GPT-4 Level Conversational QA Models

具體來講，本文主要做出了以下貢獻：

提出了兩階段指令調優方法和數據集管理方法，它們大大增強了 LLM 在零樣本對話 QA 任務中集成用戶提供或檢索上下文時的能力。本文方法顯著優于常規指令調優或基于 RLHF 的方法（如 Llama-2-Chat）。
對于對話 QA 中的 RAG，展現出了在人類標注多輪 QA 數據集上微調 SOTA 單輪查詢檢索器的效果與使用基于 LLM 的 SOTA 查詢重寫模型（如 GPT-3.5-turbo）一樣好。
基于 Llama2-7B、Llama2-13B、Llama2-70B 和內部 8B 預訓練 GPT 構建了一系列 ChatQA 模型，并在 10 個對話 QA 數據集上進行了全面研究，包括 5 個需要檢索的長文檔數據集和 3 個帶有表格的數據集。從平均得分結果來看，ChatQA-70B 可以在不使用任何來自 ChatGPT 模型的合成數據情況下優于 GPT 3.5-turbo (50.37) 和 GPT-4 (53.90)。
探究了「無法回答」的場景，即所需要的答案不在提供或檢索的上下文中，因此 LLM 很容易產生幻覺。本文證明，在指令調優中添加少量「無法回答」的樣本可以引導模型在必要時生成「無法回答」的輸出，從而大大減少幻覺。ChatQA-70B 在這方面優于 GPT-3.5-turbo，但與 GPT-4 相比仍有輕微差距（約 3.5%）。

對于英偉達的全新對話 QA 模型，有人認為有趣的一點在于，它不依賴任何來自 OpenAI GPT 模型的合成數據。而像馬斯克旗下 xAI 的聊天機器人 Grok 使用了大量 OpenAI 的模型數據。

推特 @fahirmdz

不過，也有讀者對英偉達不提供模型權重和代碼的做法「很不感冒」。如果這些都不公開的話，再厲害也對 LLM 社區沒啥意義。

推特 @AiBeginners

方法細節

1.ChatQA 兩階段調優

研究者提出了一種用于 ChatQA 的兩階段指令調優方法，請參見圖 1。研究者的方法從預訓練的 LLM 基礎模型開始。在階段 1，研究者在指令遵循和對話聯合數據集上使用了監督微調（SFT）。之后，本文的模型表現出作為對話智能體遵循指令的良好能力。然而情境化或基于 RAG 的 QA 能力仍然有限。

因此，研究者引入了一個稱為上下文增強指令調優的后續階段，它是專門為增強本文模型在對話 QA 中進行上下文感知或檢索增強生成的能力而設計的。

2.多輪問答檢索

在對話問答任務中，當文檔變得過于冗長而無法直接輸入 LLM 時，能夠處理對話式查詢的檢索器就變得至關重要。這種對話檢索器會對對話歷史和當前查詢進行編碼，然后從文檔中檢索相關上下文。之后，只有相關上下文才會被用作 LLM 的輸入。最先進的檢索器都是針對單輪查詢進行優化的，因此對多輪對話查詢的泛化能力有限。

在圖 2 中，研究者描述了他們的檢索器微調方法，以緩解這一問題。他們建議使用對話查詢和上下文對來進一步微調單輪檢索器，以更好地應對對話輸入。

另一種解決方案是對話查詢重寫法，它使用查詢重寫器根據對話歷史記錄重寫當前問題。重寫后的查詢直接作為單輪查詢檢索器的輸入，用于檢索相關上下文。除了嵌入和搜索成本外，查詢重寫模型還引入了大量額外的計算開銷來生成重寫后的查詢。

在表 1 中，研究者比較了五個數據集在零樣本設置下的查詢重寫和微調方法。

實驗及結果

1.實驗設置

研究者在不同規模的模型上進行了實驗。首先，為了顯示第二階段上下文增強指令調優的有效性，研究者將 Llama2-SFT7B/13B/70B 與第一階段監督微調（SFT）后的 Llama2-7B/13B/70B 基礎模型進行了比較。其次，與 Llama2-Chat-7B/13B/70B 進行比較，因為 Llama2-Chat 模型被證明具有強大的指令遵循和對話問答能力。

除了 Llama2 模型外，研究者還對自家的 GPT-8B 基礎模型進行了實驗，并與其第一階段的 SFT 基線（GPT-8BSFT）進行了比較。最后，還與兩個非常強大的 OpenAI 模型進行了比較：GPT-3.5-turbo (4k) 和 GPT-4 (8k)。

為了進行公平比較，研究者使用相同的上下文作為模型和基線的輸入。他們對所有基線的指令都進行了仔細調整，以確保它們取得盡可能好的結果。

研究者收集了五個包含長文檔的對話式問答數據集。他們將 Doc2Dial、QuAC 和 QReCC 文檔分割成大約 300 字的塊，并檢索前 5 個相關塊作為每個用戶問題的上下文。對于 TopioCQA 和 INSCIT，研究者遵循它們原始的分割方式，得到了更小的文本塊。

為了增加文檔長度的多樣性，研究者還收集了五個包含短文檔（少于 1500 字）的對話式問答數據集。平均而言，每個單詞將被分解為 1.5K 個 tokens。這些數據集包括 CoQA、DoQA、ConvFinQA、SQA 和 HybridDial。

考慮到 F1 分數是評估問答模型最常用的自動指標，研究者對 ConvFinQA 之外的所有數據集使用它。在 ConvFinQA 中，研究者使用精確匹配指標，因為 ConvFinQA 中的答案涉及從文檔中提取數字以及進行算術計算。因此，只有當答案與標準答案完全相同時，它才有意義。當模型生成算術公式時，研究者將使用計算器計算其最終結果，并與標準答案進行比較。此外，他們還進行了人工評估，以評估他們的最佳模型和 GPT-4 生成答案的正確性。

2.實驗結果

如表 2 所示，研究者比較了不同的模型變體和 OpenAI 模型在 10 個對話式問答數據集上的表現。

他們移除了微調階段的第一階段 SFT，僅在基礎 LLM 上應用第二階段的上下文增強指令調優。觀察數據可以發現平均得分下降了 1.9（從 54.08 降至 52.18）。除了 SQA 數據集外，移除第一階段會使模型在其他數據集上的表現一致地變差。

結果表明，即使在第二階段指令調優中也融合了第一階段 SFT 的所有數據集，第一階段仍然扮演著重要角色。因此，研究者認為先建立遵循指令的能力對第二階段的調整是有益的。

10 個數據集的人類評估結果如表 3 所示。首先，在大多數情況下（占比 69.09%），ChatQA-70B 模型和 GPT-4 表現相當。而 GPT-4 在勝率上略高于本文模型，大約高出 3.3%。這進一步證明了其模型在提供正確答案方面具有強大的能力。其次，在 ConvFinQA 任務中，本文模型比 GPT-4 有略微更好的勝率，這顯示了該模型在算術計算方面的強大能力。第三，GPT-4 在 SQA 任務上的勝率明顯更高，這表明在表格推理任務上，本文模型與 GPT-4 之間仍存在一定差距。

表 4 中，研究者進一步比較了本文模型和 OpenAI 模型在不同數據集類型的回話問答基準中的表現。

在表 5 中，研究者發現在需要檢索的數據集上，使用 top-5 數據塊作為訓練上下文會帶來一些改進。但在非檢索數據集上的性能卻有所下降。總體而言，這兩種模型的性能相當。這是因為在第二階段的調整中加入了 top-5 檢索數據塊，使其與需要檢索的推理階段保持一致，從而提高了 Avg-ret 分數。

表 6 展示了關于檢索上下文 / 語塊數量、上下文排序和不同檢索器如何影響對話質量保證結果的消融研究。

表 7 展示了本文模型與 OpenAI 模型在 QuAC 和 DoQA 數據集上進行了比較。

表 8 顯示了 ChatQA-70B 和 GPT-4 輸出的四個示例。

第一個例子是一個簡單的信息尋求問題，ChatQA-70B 和 GPT-4 都給出了正確的答案。在第二個例子中，模型需要找到隱含信息（以藍色高亮顯示）來給出答案。GPT-4 在給出答案時傾向于保守，它回答說上下文沒有提供關于年齡的確切信息，這也是正確的。

第三個和第四個例子都要求模型具有良好的表格理解和推理能力。在第三個例子中，ChatQA-70B 通過比較保護區的大小和 3100 公頃給出了正確的答案，而 GPT-4 則未能做到這一點。在第四個例子中，ChatQA-70B 正確列出了三個日期，但漏掉了一個日期，而 GPT-4 則正確回答了這個問題。

責任編輯：趙寧寧來源：機器之心