使用“反事實任務(wù)”評估大型語言模型

發(fā)布于 2024-7-9 10:34

瀏覽

0收藏

?LLMs的智能本質(zhì)是什么？

在之前的文章中，我談到了評估大型語言模型能力的困難。這些模型在許多基準測試中表現(xiàn)出色，但我們通常不知道基準測試中的測試項目，或足夠相似的項目，是否出現(xiàn)在訓(xùn)練數(shù)據(jù)中。這些模型是在進行一般性的理解和推理，還是在進行AI研究員Subbarao Kambhampati所說的“近似檢索”——依賴于模型訓(xùn)練數(shù)據(jù)中包含的文本模式？

反事實任務(wù)范式

反事實任務(wù)范式可以幫助回答這個問題。在這個范式中，模型在成對的任務(wù)上進行評估，這些任務(wù)需要相同類型的抽象和推理，但對于每一對任務(wù)，第一個任務(wù)的內(nèi)容可能與訓(xùn)練數(shù)據(jù)相似，而第二個任務(wù)（“反事實任務(wù)”）的內(nèi)容被設(shè)計成不太可能與訓(xùn)練數(shù)據(jù)相似。

例如，論文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》（《推理還是背誦：通過反事實任務(wù)探索語言模型的能力和局限性》）研究了GPT-4在判斷一組四步開局棋是否合規(guī)時的表現(xiàn)。GPT-4似乎對國際象棋有很好的理解；當給出以下提示時，它能夠以接近90%的準確率回答“是”或“否”：

你是一名國際象棋棋手。給定一個開局，確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法，則回答“是”。如果開局違反任何國際象棋規(guī)則，則回答“否”。新的開局“1.e4 e6 2.Be2 Bc5”是否合法？讓我們一步一步來思考。

作者的這個任務(wù)的反事實版本是要求GPT-4想象一個新的國際象棋變體，其中一切都相同，除了騎士和主教交換了初始位置。以下是該任務(wù)的示例提示：

你是一名國際象棋棋手。你正在玩一個國際象棋變體，其中每種顏色的騎士和主教的起始位置互換。騎士放在主教以前的位置，主教放在騎士以前的位置。給定一個開局，確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法，則回答“是”。如果開局違反任何國際象棋規(guī)則，則回答“否”。在這種自定義變體下，新的開局“1.e4 e6 2.Nfe2 Nc5”是否合法？讓我們一步一步來思考。

這種國際象棋版本的例子在GPT-4的訓(xùn)練數(shù)據(jù)中出現(xiàn)的可能性要小得多。作者（以及我自己的）直覺是，理解國際象棋的人類可以很容易地將他們的知識適應(yīng)這種新版本。然而，GPT-4在這個反事實任務(wù)上的準確率下降到大約54%（隨機猜測將產(chǎn)生50%的準確率）。

作者展示了幾種其他類型的任務(wù)，也有類似的效果。他們得出結(jié)論，大型語言模型表面上的推理能力可能在很大程度上依賴于訓(xùn)練數(shù)據(jù)中的模式，即“近似檢索”而非一般的抽象推理能力。

Meta的Yann LeCun在X（推特）上表示贊同：

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

ASU的Subbarao Kambhampati表示贊同：

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

另一篇使用這種評估范式的論文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》（《自回歸余燼：通過訓(xùn)練任務(wù)理解大型語言模型》）。“自回歸余燼”這個短語是對另一篇知名LLM論文《Sparks of AGI》（《AGI火花》）標題的幽默戲仿。其觀點是，由于像GPT-4這樣的LLM是通過自回歸訓(xùn)練的（即預(yù)測輸入中的下一個標記），它們的行為將反映自回歸所帶來的偏見。

例如，考慮將句子中的單詞順序顛倒的簡單任務(wù)：

輸入：paintings. the with pleased totally not was he True,

正確輸出：True, he was not totally pleased with the paintings.

你可能會認為執(zhí)行此任務(wù)的能力不依賴于句子中的特定單詞。然而，當輸出句子是可能的（即，根據(jù)前一個標記計算出的每個標記的概率高）時，GPT-3.5和GPT-4在這個任務(wù)上的表現(xiàn)都很好；但在輸出句子不太可能時，這些系統(tǒng)在該任務(wù)上的表現(xiàn)要差得多，例如，對于這個例子：

輸入：paintings. the with pleased he totally was not True,

正確輸出：True, not was totally he pleased with the paintings.

以下是總體表現(xiàn)情況，與LLM計算的輸出句子的概率對比繪制的圖表：

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

盡管輸出句子的概率無關(guān)緊要，但LLM的訓(xùn)練目標是預(yù)測可能的下一個標記，這泄露到了模型在任務(wù)上的表現(xiàn)中——這是一種自回歸的痕跡。論文中給出了更多的例子。

許多其他“壓力測試”LLM推理能力的論文也顯示了類似的結(jié)果。在本文結(jié)尾，我提供了各種關(guān)于這一主題的論文鏈接，供讀者跟進。

總之，LLM似乎具有一定的推理能力，但如果不對它們進行壓力測試（例如，通過反事實任務(wù)），就無法得出它們在一般情況下進行推理，而不是依賴于其訓(xùn)練數(shù)據(jù)，以無法泛化到分布外示例的方式進行推理的結(jié)論。

在下一篇文章中（即將發(fā)布），我將描述我的團隊正在進行的工作，即應(yīng)用反事實任務(wù)范式來壓力測試LLM是穩(wěn)健和普遍類比推理者的說法。

附錄：使用反事實任務(wù)（或相關(guān)壓力測試）評估LLM的論文

Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.

McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.

Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.

Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y., Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.

Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).

Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.

Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.

本文轉(zhuǎn)載自 ??MoPaaS魔泊云??，作者： Melanie mitchell

標簽

語言

模型

LLM

贊

回復(fù)