精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ChatGPT 的“絕世神功”,是如何練成的?

發(fā)布于 2024-11-11 16:31
瀏覽
0收藏

最近,OpenAI的預訓練模型ChatGPT給人工智能領(lǐng)域的研究人員留下了深刻的印象和啟發(fā)。毫無疑問,它又強又聰明,且跟它說話很好玩,還會寫代碼。它在多個方面的能力遠遠超過了自然語言處理研究者們的預期。于是我們自然就有一個問題:ChatGPT 是怎么變得這么強的?它的各種強大的能力到底從何而來?本篇文章試圖剖析 ChatGPT 的突現(xiàn)能力(Emergent Ability),追溯這些能力的來源,希望能夠給出一個全面的技術(shù)路線圖,來說明 GPT-3.5 模型系列以及相關(guān)的大型語言模型是如何一步步進化成目前的強大形態(tài)。

一、2020 版初代 GPT-3 與大規(guī)模預訓練

初代GPT-3展示了三個重要能力:

● 語言生成:遵循提示詞(prompt),然后生成補全提示詞的句子 (completion)。這也是今天人類與語言模型最普遍的交互方式。

● 上下文學習 (in-context learning):  遵循給定任務的幾個示例,然后為新的測試用例生成解決方案。很重要的一點是,GPT-3雖然是個語言模型,但它的論文幾乎沒有談到“語言建模” (language modeling) —— 作者將他們?nèi)康膶懽骶Χ纪度氲搅藢ι舷挛膶W習的愿景上,這才是 GPT-3的真正重點。

● 世界知識 (world knowledge):包括事實性知識 (factual knowledge) 和常識 (commonsense)。

那么這些能力從何而來呢?

基本上,以上三種能力都來自于大規(guī)模預訓練:在有3000億單詞的語料上預訓練擁有1750億參數(shù)的模型( 訓練語料的60%來自于 2016 - 2019 的 C4 + 22% 來自于 WebText2 + 16% 來自于Books + 3%來自于Wikipedia)。其中:

● 語言生成的能力來自于語言建模的訓練目標 (language modeling)。

● 世界知識來自 3000 億單詞的訓練語料庫(不然還能是哪兒呢)。

● 模型的 1750 億參數(shù)是為了存儲知識,Liang et al. (2022) 的文章進一步證明了這一點。他們的結(jié)論是,知識密集型任務的性能與模型大小息息相關(guān)。

● 上下文學習的能力來源及為什么上下文學習可以泛化,仍然難以溯源。直覺上,這種能力可能來自于同一個任務的數(shù)據(jù)點在訓練時按順序排列在同一個 batch 中。然而,很少有人研究為什么語言模型預訓練會促使上下文學習,以及為什么上下文學習的行為與微調(diào) (fine-tuning) 如此不同。

令人好奇的是,初代的GPT-3有多強。

其實比較難確定初代 GPT-3(在 OpenAI API 中被稱為  davinci )到底是“強”還是“弱”。一方面,它合理地回應了某些特定的查詢,并在許多數(shù)據(jù)集中達到了還不錯的性能;另一方面,它在許多任務上的表現(xiàn)還不如 T5 這樣的小模型(參見其原始論文)。在今天(2022 年 12 月)ChatGPT 的標準下,很難說初代的 GPT-3 是“智能的”。Meta 開源的 OPT 模型試圖復現(xiàn)初代 GPT-3,但它的能力與當今的標準也形成了尖銳的對比。許多測試過 OPT 的人也認為與現(xiàn)在的 text-davinci-002 相比,該模型確實 “不咋地”。盡管如此,OPT 可能是初代 GPT-3 的一個足夠好的開源的近似模型了(根據(jù) OPT 論文和斯坦福大學的 HELM 評估)。

雖然初代的 GPT-3 可能表面上看起來很弱,但后來的實驗證明,初代 GPT-3 有著非常強的潛力。這些潛力后來被代碼訓練、指令微調(diào) (instruction tuning) 和基于人類反饋的強化學習 (reinforcement learning with human feedback, RLHF) 解鎖,最終體展示出極為強大的突現(xiàn)能力。

二、從 2020 版 GPT-3 到 2022 版 ChatGPT 

從最初的 GPT-3 開始,為了展示 OpenAI 是如何發(fā)展到ChatGPT的,我們看一下 GPT-3.5 的進化樹:

ChatGPT 的“絕世神功”,是如何練成的?-AI.x社區(qū)

在 2020 年 7 月,OpenAI 發(fā)布了模型索引為的 davinci 的初代 GPT-3 論文,從此它就開始不斷進化。

在2021 年 7 月,Codex 的論文發(fā)布,其中初始的 Codex 是根據(jù)(可能是內(nèi)部的)120 億參數(shù)的 GPT-3 變體進行微調(diào)的。后來這個 120 億參數(shù)的模型演變成 OpenAI API 中的 code-cushman-001 。

在 2022 年 3 月 ,OpenAI 發(fā)布了指令微調(diào) (instruction tuning) 的論文,其監(jiān)督微調(diào) (supervised instruction tuning) 的部分對應了 davinci-instruct-beta 和 text-davinci-001 。

在2022 年 4 月至 7 月,OpenAI 開始對 code-davinci-002  模型進行 Beta 測試,也稱其為 Codex。然后 code-davinci-002、 text-davinci-003 和 ChatGPT 都是從 code-davinci-002 進行指令微調(diào)得到的。詳細信息請參閱 OpenAI的模型索引文檔。

盡管 Codex 聽著像是一個只管代碼的模型,但 code-davinci-002 可能是最強大的針對自然語言的GPT-3.5 變體(優(yōu)于  text-davinci-002 和 -003 )。 code-davinci-002 很可能在文本和代碼上都經(jīng)過訓練,然后根據(jù)指令進行調(diào)整(將在下面解釋)。然后2022 年 5-6 月發(fā)布的 text-davinci-002 是一個基于code-davinci-002 的有監(jiān)督指令微調(diào) (supervised instruction tuned) 模型。在 text-davinci-002 上面進行指令微調(diào)很可能降低了模型的上下文學習能力,但是增強了模型的零樣本能力(將在下面解釋)。

然后是 text-davinci-003 和 ChatGPT ,它們都在2022 年 11 月發(fā)布,是使用的基于人類反饋的強化學習的版本指令微調(diào) (instruction tuning with reinforcement learning from human feedback) 模型的兩種不同變體。text-davinci-003 恢復了(但仍然比 code-davinci-002 差)一些在text-davinci-002 中丟失的部分上下文學習能力(大概是因為它在微調(diào)的時候混入了語言建模) 并進一步改進了零樣本能力(得益于RLHF)。另一方面,ChatGPT 似乎犧牲了幾乎所有的上下文學習的能力來換取建模對話歷史的能力。

總的來說,在 2020 - 2021 年期間,在 code-davinci-002 之前,OpenAI 已經(jīng)投入了大量的精力通過代碼訓練和指令微調(diào)來增強GPT-3。當他們完成 code-davinci-002 時,所有的能力都已經(jīng)存在了。很可能后續(xù)的指令微調(diào),無論是通過有監(jiān)督的版本還是強化學習的版本,都會做以下事情(稍后會詳細說明):

● 指令微調(diào)不會為模型注入新的能力 —— 所有的能力都已經(jīng)存在了。指令微調(diào)的作用是解鎖 / 激發(fā)這些能力。這主要是因為指令微調(diào)的數(shù)據(jù)量比預訓練數(shù)據(jù)量少幾個數(shù)量級(基礎的能力是通過預訓練注入的)。

● 指令微調(diào)將 GPT-3.5 的分化到不同的技能樹。有些更擅長上下文學習,如 text-davinci-003 ,有些更擅長對話,如 ChatGPT 。

● 指令微調(diào)通過犧牲性能換取與人類的對齊(alignment)。OpenAI 的作者在他們的指令微調(diào)論文中稱其為 “對齊稅” (alignment tax)。許多論文都報道了 code-davinci-002 在基準測試中實現(xiàn)了最佳性能(但模型不一定符合人類期望)。在 code-davinci-002 上進行指令微調(diào)后,模型可以生成更加符合人類期待的反饋(或者說模型與人類對齊),例如:零樣本問答、生成安全和公正的對話回復、拒絕超出模型它知識范圍的問題。

三、Code-Davinci-002和Text-Davinci-002,在代碼上訓練,在指令上微調(diào)

在 code-davinci-002 和 text-davinci-002 之前,有兩個中間模型,分別是 davinci-instruct-beta 和 text-davinci-001。兩者在很多方面都比上述的兩個-002模型差(例如,text-davinci-001 鏈式思維推理能力不強)。所以我們在本節(jié)中重點介紹 -002 型號。

3.1 復雜推理能力的來源和泛化到新任務的能力

我們關(guān)注 code-davinci-002 和 text-davinci-002 ,這兩兄弟是第一版的 GPT3.5 模型,一個用于代碼,另一個用于文本。它們表現(xiàn)出了三種重要能力與初代 GPT-3 不同的能力:

● 響應人類指令:以前,GPT-3 的輸出主要訓練集中常見的句子。現(xiàn)在的模型會針對指令 / 提示詞生成更合理的答案(而不是相關(guān)但無用的句子)。

● 泛化到?jīng)]有見過的任務:當用于調(diào)整模型的指令數(shù)量超過一定的規(guī)模時,模型就可以自動在從沒見過的新指令上也能生成有效的回答。這種能力對于上線部署至關(guān)重要,因為用戶總會提新的問題,模型得答得出來才行。

● 代碼生成和代碼理解:這個能力很顯然,因為模型用代碼訓練過。

● 利用思維鏈 (chain-of-thought) 進行復雜推理:初代 GPT3 的模型思維鏈推理的能力很弱甚至沒有。code-davinci-002 和 text-davinci-002 是兩個擁有足夠強的思維鏈推理能力的模型。

  • 思維鏈推理之所以重要,是因為思維鏈可能是解鎖突現(xiàn)能力和超越縮放法則 (scaling laws) 的關(guān)鍵。

這些能力從何而來?

與之前的模型相比,兩個主要區(qū)別是指令微調(diào)和代碼訓練。具體來說:

● 能夠響應人類指令的能力是指令微調(diào)的直接產(chǎn)物。

● 對沒有見過的指令做出反饋的泛化能力是在指令數(shù)量超過一定程度之后自動出現(xiàn)的,T0、Flan 和 FlanPaLM 論文進一步證明了這一點。

● 使用思維鏈進行復雜推理的能力很可能是代碼訓練的一個神奇的副產(chǎn)物。對此,我們有以下的事實作為一些支持:

  • 最初的 GPT-3 沒有接受過代碼訓練,它不能做思維鏈。
  • text-davinci-001 模型,雖然經(jīng)過了指令微調(diào),但第一版思維鏈論文報告說,它的它思維鏈推理的能力非常弱 —— 所以指令微調(diào)可能不是思維鏈存在的原因,代碼訓練才是模型能做思維鏈推理的最可能原因。
  • PaLM 有 5% 的代碼訓練數(shù)據(jù),可以做思維鏈。
  • Codex論文中的代碼數(shù)據(jù)量為 159G ,大約是初代 GPT-3 5700 億訓練數(shù)據(jù)的28%。code-davinci-002 及其后續(xù)變體可以做思維鏈推理。
  • 在 HELM 測試中,Liang et al. (2022) 對不同模型進行了大規(guī)模評估。他們發(fā)現(xiàn)了針對代碼訓練的模型具有很強的語言推理能力,包括 120億參數(shù)的code-cushman-001.。
  • 我們在 AI2 的工作也表明,當配備復雜的思維鏈時,code-davinci-002 在 GSM8K 等重要數(shù)學基準上是目前表現(xiàn)最好的模型
  • 直覺來說,面向過程的編程 (procedure-oriented programming) 跟人類逐步解決任務的過程很類似,面向?qū)ο缶幊?(object-oriented programming) 跟人類將復雜任務分解為多個簡單任務的過程很類似。
  • 以上所有觀察結(jié)果都是代碼與推理能力 / 思維鏈之間的相關(guān)性。代碼和推理能力 / 思維鏈之間的這種相關(guān)性對研究社區(qū)來說是一個非常有趣的問題,但目前仍未得到很好的理解。然而,仍然沒有確鑿的證據(jù)表明代碼訓練就是CoT和復雜推理的原因。思維鏈的來源仍然是一個開放性的研究問題。

● 此外, 代碼訓練另一個可能的副產(chǎn)品是長距離依賴,正如Peter Liu所指出:“語言中的下個詞語預測通常是非常局部的,而代碼通常需要更長的依賴關(guān)系來做一些事情,比如前后括號的匹配或引用遠處的函數(shù)定義”。這里我想進一步補充的是:由于面向?qū)ο缶幊讨械念惱^承,代碼也可能有助于模型建立編碼層次結(jié)構(gòu)的能力。我們將對這一假設的檢驗留給未來的工作。

另外還要注意一些細節(jié)差異:

● text-davinci-002 與 code-davinci-002

  • Code-davinci-002 是基礎模型,text-davinci-002 是指令微調(diào) code-davinci-002 的產(chǎn)物(見 OpenAI 的文檔)。它在以下數(shù)據(jù)上作了微調(diào):(一)人工標注的指令和期待的輸出;(二)由人工標注者選擇的模型輸出。
  • 當有上下文示例 (in-context example) 的時候, Code-davinci-002 更擅長上下文學習;當沒有上下文示例 / 零樣本的時候, text-davinci-002 在零樣本任務完成方面表現(xiàn)更好。從這個意義上說,text-davinci-002 更符合人類的期待(因為對一個任務寫上下文示例可能會比較麻煩)。
  • OpenAI 不太可能故意犧牲了上下文學習的能力換取零樣本能力 —— 上下文學習能力的降低更多是指令學習的一個副作用,OpenAI 管這叫對齊稅。

● 001 模型(code-cushman-001 和 text-davinci-001)v.s. 002 模型(code-davinci-002 和 text-davinci-002)

  • 001 模型主要是為了做純代碼 / 純文本任務;002 模型則深度融合了代碼訓練和指令微調(diào),代碼和文本都行。
  • Code-davinci-002 可能是第一個深度融合了代碼訓練和指令微調(diào)的模型。證據(jù)有:code-cushman-001 可以進行推理但在純文本上表現(xiàn)不佳,text-davinci-001 在純文本上表現(xiàn)不錯但在推理上不大行。code-davinci-002 則可以同時做到這兩點。

3.2 這些能力是在預訓練之后已經(jīng)存在還是在之后通過微調(diào)注入?

在這個階段,我們已經(jīng)確定了指令微調(diào)和代碼訓練的關(guān)鍵作用。一個重要的問題是如何進一步分析代碼訓練和指令微調(diào)的影響?具體來說: 

上述三種能力是否已經(jīng)存在于初代的GPT-3中,只是通過指令和代碼訓練觸發(fā) / 解鎖?或者這些能力在初代的 GPT-3 中并不存在,是通過指令和代碼訓練注入?

如果答案已經(jīng)在初代的 GPT-3 中,那么這些能力也應該在 OPT 中。因此,要復現(xiàn)這些能力,或許可以直接通過指令和代碼調(diào)整 OPT。 

但是,code-davinci-002 也可能不是基于最初的 GPT-3 davinci,而是基于比初代 GPT-3 更大的模型。如果是這種情況,可能就沒辦法通過調(diào)整 OPT 來復現(xiàn)了。研究社區(qū)需要進一步弄清楚 OpenAI 訓練了什么樣的模型作為 code-davinci-002 的基礎模型。

我們有以下的假設和證據(jù):

● code-davinci-002的基礎模型可能不是初代GPT-3 davinci 模型。以下是證據(jù):

  • 初代的GPT-3在數(shù)據(jù)集 C4 2016 - 2019 上訓練,而 code-davinci-002 訓練集則在延長到2021年才結(jié)束。因此 code-davinci-002 有可能在 C4 的 2019-2021 版本上訓練。
  • 初代的 GPT-3 有一個大小為 2048 個詞的上下文窗口。code-davinci-002 的上下文窗口則為 8192。GPT 系列使用絕對位置嵌入 (absolute positional embedding),直接對絕對位置嵌入進行外推而不經(jīng)過訓練是比較難的,并且會嚴重損害模型的性能(參考 Press et al., 2022)。如果 code-davinci-002 是基于初代GPT-3,那OpenAI 是如何擴展上下文窗口的?

● 另一方面,無論基礎模型是初代的 GPT-3 還是后來訓練的模型, 遵循指令和零樣本泛化的能力都可能已經(jīng)存在于基礎模型中,后來才通過指令微調(diào)來解鎖 (而不是注入)。

  • 這主要是因為 OpenAI 的論文報告的指令數(shù)據(jù)量大小只有 77K,比預訓練數(shù)據(jù)少了幾個數(shù)量級。
  • 其他指令微調(diào)論文進一步證明了數(shù)據(jù)集大小對模型性能的對比,例如 Chung et al. (2022) 的工作中, Flan-PaLM 的指令微調(diào)僅為預訓練計算的 0.4%。一般來說,指令數(shù)據(jù)會顯著少于預訓練數(shù)據(jù)。

● 然而 ,模型的復雜推理能力可能是在預訓練階段通過代碼數(shù)據(jù)注入。

  • 代碼數(shù)據(jù)集的規(guī)模與上述指令微調(diào)的情況不同。這里的代碼數(shù)據(jù)量足夠大,可以占據(jù)訓練數(shù)據(jù)的重要部分(例如,PaLM 有 8% 的代碼訓練數(shù)據(jù))
  • 如上所述,在 code-davinci-002 之前的模型 text-davinci-001 大概沒有在代碼數(shù)據(jù)上面微調(diào)過,所以它的推理 / 思維鏈能力是非常差的,正如第一版思維鏈論文中所報告的那樣,有時甚至比參數(shù)量更小的 code-cushman-001 還差。

● 區(qū)分代碼訓練和指令微調(diào)效果的最好方法可能是比較 code-cushman-001、T5 和 FlanT5。

  • 因為它們具有相似的模型大小(110億 和 120億),相似的訓練數(shù)據(jù)集 (C4),它們最大的區(qū)別就是有沒有在代碼上訓練過 / 有沒有做過指令微調(diào)。
  • 目前還沒有這樣的比較。我們把這個留給未來的研究。

四、text-davinci-003 和 ChatGPT,基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF) 的威力

在當前階段(2022 年 12 月), text-davinci-002、text-davinci-003 和 ChatGPT之間幾乎沒有嚴格的統(tǒng)計上的比較 ,主要是因為:

● text-davinci-003 和 ChatGPT 在撰寫本文時才發(fā)布不到一個月。

● ChatGPT 不能通過 OpenAI API 被調(diào)用,所以想要在標準基準上測試它很麻煩。

所以在這些模型之間的比較更多是基于研究社區(qū)的集體經(jīng)驗 (統(tǒng)計上不是很嚴格)。不過,我們相信初步的描述性比較仍然可以揭示模型的機制。

我們首先注意到以下 text-davinci-002,text-davinci-003 和 ChatGPT 之間的比較:

● 所有三個模型都經(jīng)過指令微調(diào)。

● text-davinci-002 是一個經(jīng)過監(jiān)督學習指令微調(diào) (supervised instruction tuning)的模型。

● text-davinci-003 和 ChatGPT 是基于人類反饋的強化學習的指令微調(diào) (Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。這是它們之間最顯著的區(qū)別。

這意味著大多數(shù)新模型的行為都是 RLHF 的產(chǎn)物。

那么讓我們看看 RLHF 觸發(fā)的能力:

● 翔實的回應: text-davinci-003 的生成通常比 text-davinci-002長。ChatGPT 的回應則更加冗長,以至于用戶必須明確要求“用一句話回答我”,才能得到更加簡潔的回答。這是 RLHF 的直接產(chǎn)物。

● 公正的回應:ChatGPT 通常對涉及多個實體利益的事件(例如政治事件)給出非常平衡的回答。這也是RLHF的產(chǎn)物。

● 拒絕不當問題:這是內(nèi)容過濾器和由 RLHF 觸發(fā)的模型自身能力的結(jié)合,過濾器過濾掉一部分,然后模型再拒絕一部分。

● 拒絕其知識范圍之外的問題:例如,拒絕在2021 年 6 月之后發(fā)生的新事件(因為它沒在這之后的數(shù)據(jù)上訓練過)。這是 RLHF 最神奇的部分,因為它使模型能夠隱式地區(qū)分哪些問題在其知識范圍內(nèi),哪些問題不在其知識范圍內(nèi)。

有兩件事情值得注意:

● 所有的能力都是模型本來就有的, 而不是通過RLHF 注入的。 RLHF 的作用是觸發(fā) / 解鎖突現(xiàn)能力。這個論點主要來自于數(shù)據(jù)量大小的比較:因為與預訓練的數(shù)據(jù)量相比,RLHF 占用的計算量 / 數(shù)據(jù)量要少得多。

● 模型知道它不知道什么不是通過編寫規(guī)則來實現(xiàn)的, 而是通過RLHF解鎖的。這是一個非常令人驚訝的發(fā)現(xiàn),因為 RLHF 的最初目標是讓模型生成復合人類期望的回答,這更多是讓模型生成安全的句子,而不是讓模型知道它不知道的內(nèi)容。

幕后發(fā)生的事情可能是:

● ChatGPT: 通過犧牲上下文學習的能力換取建模對話歷史的能力。這是一個基于經(jīng)驗的觀測結(jié)果,因為 ChatGPT 似乎不像 text-davinci-003 那樣受到上下文演示的強烈影響。

● text-davinci-003:恢復了 text-davinci-002 所犧牲的上下文學習能力, 提高零樣本的能力。我們不確定這是否也是 RLHF 或其他東西的副產(chǎn)品。 根據(jù)instructGPT的論文,這是來自于強化學習調(diào)整階段混入了語言建模的目標(而不是 RLHF 本身)。

五、總結(jié)當前階段 GPT-3.5 的進化歷程

到目前為止,我們已經(jīng)仔細檢查了沿著進化樹出現(xiàn)的所有能力,下表總結(jié)了演化路徑:

ChatGPT 的“絕世神功”,是如何練成的?-AI.x社區(qū)

ChatGPT 的“絕世神功”,是如何練成的?-AI.x社區(qū)

我們可以得出結(jié)論:

● 語言生成能力 + 基礎世界知識 + 上下文學習都是來自于預訓練( davinci )。

● 存儲大量知識的能力來自 1750 億的參數(shù)量。

● 遵循指令和泛化到新任務的能力來自于擴大指令學習中指令的數(shù)量( Davinci-instruct-beta )。

● 執(zhí)行復雜推理的能力很可能來自于代碼訓練( code-davinci-002 )。

● 生成中立、客觀的能力、安全和翔實的答案來自與人類的對齊。具體來說:

  • 如果是監(jiān)督學習版,得到的模型是 text-davinci-002
  • 如果是強化學習版 (RLHF) ,得到的模型是 text-davinci-003
  • 無論是有監(jiān)督還是 RLHF ,模型在很多任務的性能都無法超過 code-davinci-002 ,這種因為對齊而造成性能衰退的現(xiàn)象叫做對齊稅。

● 對話能力也來自于 RLHF( ChatGPT ),具體來說它犧牲了上下文學習的能力,來換取:

  • 建模對話歷史
  • 增加對話信息量
  • 拒絕模型知識范圍之外的問題

六、GPT-3.5 目前不能做什么

雖然GPT-3.5是自然語言處理研究中的重要一步,但它并沒有完全包含許多研究人員(包括 AI2)設想的所有理想屬性。以下是GPT-3.5不具備的某些重要屬性:

● 實時改寫模型的信念:當模型表達對某事的信念時,如果該信念是錯誤的,我們可能很難糾正它:

  • 我最近遇到的一個例子是:ChatGPT 堅持認為 3599 是一個質(zhì)數(shù),盡管它承認 3599 = 59 * 61。另外,請參閱Reddit上關(guān)于游得最快的海洋哺乳動物的例子。
  • 然而,模型信念的強度似乎存在不同的層次。一個例子是即使我告訴它達斯·維達(星球大戰(zhàn)電影中的人物)贏得了2020年大選,模型依舊會認為美國現(xiàn)任總統(tǒng)是拜登。但是如果我將選舉年份改為 2024 年,它就會認為總統(tǒng)是達斯·維達是 2026 年的總統(tǒng)。

● 形式推理:GPT-3.5系列不能在數(shù)學或一階邏輯等形式嚴格的系統(tǒng)中進行推理:

  • 在自然語言處理的文獻中, “推理” 一詞的定義很多時候不太明確。但如果我們從模糊性的角度來看,例如一些問題 (a) 非常模棱兩可,沒有推理;(b) 有點兒邏輯在里面,但有些地方也可以模糊;(c) 非常嚴謹,不能有任何歧義。
  • 模型可以很好地進行 (b) 類的帶模糊性的推理,例子有:生成如何做豆腐腦的方法。做豆腐腦的時候,中間很多步驟模糊一點是可以接受的,比如到底是做咸的還是做甜的。只要整體步驟大致正確,做出來的豆腐腦兒就能吃。數(shù)學定理的證明思路。證明思路是用語言表達的非正式的逐步解法,其中每一步的嚴格推導可以不用太具體。證明思路經(jīng)常被用到數(shù)學教學:只要老師給一個大致正確的整體步驟,學生就可以大概明白。然后老師把具體的證明細節(jié)作為作業(yè)布置給學生,答案略。
  • GPT-3.5 不能進行類型 (c) 的推理(推理不能容忍歧義)。一個例子是嚴格的數(shù)學證明,要求中間步驟中不能跳,不能模糊,不能錯。但這種嚴格推理到底是應該讓語言模型做還是讓符號系統(tǒng)做還有待討論。一個例子是,與其努力讓 GPT 做三位數(shù)加法,不如直接調(diào) Python。

● 從互聯(lián)網(wǎng)進行檢索:GPT-3.5 系列(暫時)不能直接搜索互聯(lián)網(wǎng):

  • 但是有一篇 WebGPT 論文發(fā)表于2021年12月,里面就讓 GPT 調(diào)用了搜索引擎。所以檢索的能力已經(jīng)在 OpenAI 內(nèi)部進行了測試。
  • 這里需要區(qū)分的一點是,GPT-3.5 的兩個重要但不同的能力是 知識 和 推理。一般來說,如果我們能夠 將知識部分卸載到外部的檢索系統(tǒng),讓語言模型只專注于推理,這就很不錯了。因為:模型的內(nèi)部知識總是在某個時間被切斷。模型始終需要最新的知識來回答最新的問題。回想一下,我們已經(jīng)討論過 1750 億的參數(shù)大量用于存儲知識。如果我們可以將知識卸載到模型之外,那么模型參數(shù)可能會大大減少,最終它甚至可以在手機上運行(瘋狂的想法,但 ChatGPT 已經(jīng)足夠科幻了,誰知道未來會怎樣呢)。

七、結(jié)論

在這篇文章中,作者仔細檢查了GPT-3.5系列的能力范圍,并追溯了它們所有突現(xiàn)能力的來源。初代GPT-3模型通過預訓練獲得生成能力、世界知識和in-context learning。然后通過instruction tuning的模型分支獲得了遵循指令和能泛化到?jīng)]有見過的任務的能力。經(jīng)過代碼訓練的分支模型則獲得了代碼理解的能力,作為代碼訓練的副產(chǎn)品,模型同時潛在地獲得了復雜推理的能力。結(jié)合這兩個分支,code-davinci-002似乎是具有所有強大能力的最強GPT-3.5模型。接下來通過有監(jiān)督的instruction tuning和 RLHF通過犧牲模型能力換取與人類對齊,即對齊稅。RLHF 使模型能夠生成更翔實和公正的答案,同時拒絕其知識范圍之外的問題。

本文轉(zhuǎn)載自??AI大模型世界??,作者:tgeek.cn

收藏
回復
舉報
回復
相關(guān)推薦
91精品国产一区二区三区动漫 | 九九热99久久久国产盗摄| 在线观看av网页| 亚洲资源一区| 99r精品视频| 国产精品视频1区| 国产在线观看免费av| 精品黄色一级片| 日韩欧美国产三级| 老头吃奶性行交视频| 男人天堂久久久| 91尤物视频在线观看| 成人激情视频在线播放| 中日韩黄色大片| 亚州av乱码久久精品蜜桃 | 高清毛片在线看| 国产电影精品久久禁18| 国产精品96久久久久久| 麻豆亚洲av熟女国产一区二| 国内精品久久久久久久影视简单| 7777精品伊人久久久大香线蕉最新版| 内射国产内射夫妻免费频道| 老司机在线视频二区| 久久婷婷国产综合精品青草| 5g国产欧美日韩视频| 九九热最新视频| 亚洲国产欧美国产综合一区| 久久影院在线观看| 欧美人妻一区二区三区| 美国十次av导航亚洲入口| 91精品国产入口在线| 99视频精品免费| 岛国av在线网站| 一区二区三区在线视频观看| 亚洲在线欧美| 波多野结衣一区二区| 91蜜桃免费观看视频| 国产不卡一区二区在线观看 | 青青草原免费观看| 久久美女视频| 一区二区三区日韩在线| 人妻丰满熟妇av无码久久洗澡 | 麻豆蜜桃91| 性生活免费网站| 狠狠色2019综合网| 国产精品综合网站| 精品乱码一区内射人妻无码| 欧美一级视频| 热99在线视频| 日日夜夜操视频| 日韩在线观看一区二区| 欧美最猛性xxxxx(亚洲精品)| 黄色小视频在线免费看| 国色天香一区二区| 色综合久综合久久综合久鬼88| 欧美特黄一级片| 99精品在线免费在线观看| 最近2019年手机中文字幕| 久久丫精品忘忧草西安产品| 激情五月综合| 中文字幕免费精品一区高清| 日本美女xxx| 日韩欧美不卡| 两个人的视频www国产精品| 午夜激情福利网| 911久久香蕉国产线看观看| 美女视频久久黄| 强行糟蹋人妻hd中文| 亚洲高清成人| 日本亚洲精品在线观看| 337p粉嫩色噜噜噜大肥臀| 三级欧美在线一区| 国产精品一二区| 国产一区二区三区黄片| 国产成人亚洲综合a∨婷婷| 99中文字幕| 亚洲欧洲成人在线| 国产欧美精品一区二区三区四区| 色99中文字幕| 在线网址91| 欧美日韩国产综合新一区| 成年人视频在线免费| 国产精品日本一区二区不卡视频| 日韩视频一区二区在线观看| 国产又黄又粗又猛又爽的视频| 亚洲警察之高压线| 色老头一区二区三区| 国产一级二级三级视频| 亚洲自拍另类| 91在线观看免费高清| 日本黄色大片视频| 久久精品视频网| 一区二区冒白浆视频| 色yeye免费人成网站在线观看| 精品日本美女福利在线观看| 欧美成人福利在线观看| 国产欧美啪啪| 亚洲人成电影网站色xx| 国产探花在线免费观看| 国产精品视区| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 国产精品永久免费观看| 国内精品久久久久久久久久久| 99国产精品久久久久| 亚洲精品不卡| 蜜桃视频在线观看免费视频| 欧美一区二区性放荡片| 精品国产av无码| 午夜精品av| 国产精品久久久| 日日躁夜夜躁白天躁晚上躁91| 国产精品嫩草影院av蜜臀| 国产曰肥老太婆无遮挡| 丁香婷婷久久| 日韩国产欧美精品在线| 美国黄色小视频| 日韩成人av影视| 国产综合18久久久久久| 国产精品实拍| 欧美三级欧美一级| 欧美高清性xxxx| 欧美二区不卡| 国产欧美日韩视频| 国产最新视频在线观看| 天天综合色天天| 极品白嫩少妇无套内谢| 欧美激情欧美| 国产精品高清在线观看| 性猛交xxxx| 亚洲一本大道在线| 国内精品国产三级国产aⅴ久| 日韩av自拍| 国产精品狠色婷| 国内在线精品| 在线观看网站黄不卡| 色无极影院亚洲| 久久不射中文字幕| 久久riav| 亚洲欧美一区二区三区| 亚洲国产精品电影| 天天操天天射天天爽| 国产 欧美在线| 99热这里只有精品免费| 麻豆精品久久| 精品中文字幕在线| www.久久伊人| 亚洲综合激情另类小说区| 久久无码人妻一区二区三区| 亚洲综合五月| 成人免费视频网站| 波多野结衣乳巨码无在线观看| 欧美成人vr18sexvr| 麻豆疯狂做受xxxx高潮视频| 懂色av一区二区三区蜜臀| 在线观看污视频| 99久久人爽人人添人人澡| 色综合91久久精品中文字幕| 亚洲精品成人电影| 无码av中文一区二区三区桃花岛| 亚洲一级av无码毛片精品 | 男女视频一区二区三区| 国产成人ay| 国产精品入口夜色视频大尺度| 在线观看国产原创自拍视频| 欧美高清一级片在线| 人妻人人澡人人添人人爽| 国产剧情一区在线| 丰满少妇大力进入| 亚洲影院天堂中文av色| 国产精品偷伦视频免费观看国产| 欧美成人性生活视频| 欧美一区二区三区免费大片| 激情综合网五月婷婷| 久久一区二区视频| 欧美美女一级片| 欧美成人精品| 欧美精品一区二区三区在线看午夜| 国产超碰精品| 久久天堂av综合合色| 亚洲精品久久久久久动漫器材一区| 午夜伊人狠狠久久| xxxx日本黄色| 国产成人av一区| 成人免费在线小视频| 日韩欧美视频在线播放| 国产成人成网站在线播放青青| 六月婷婷综合| 久热国产精品视频| 欧美91精品久久久久国产性生爱| 欧美日韩国产免费| 日韩激情在线播放| 国产精品人人做人人爽人人添| 337p日本欧洲亚洲大胆张筱雨| 香蕉久久国产| 影音先锋男人的网站| 日韩精品免费一区二区夜夜嗨| 国产精品国产自产拍高清av水多 | 全亚洲最色的网站在线观看| 黄色av免费在线| 日韩极品精品视频免费观看| 国产一区二区三区在线观看| 欧美日韩国产中文精品字幕自在自线| 亚洲一二三四五六区| 99久久精品免费看| 无码人妻少妇色欲av一区二区| 日韩av电影一区| 国产av人人夜夜澡人人爽麻豆 | 中文字幕在线观看亚洲| 人妻精品一区一区三区蜜桃91| 欧美色图免费看| 日韩久久久久久久久| 中文字幕五月欧美| 国产熟妇久久777777| 国产不卡视频在线播放| 天天干天天玩天天操| 久久国产99| 亚洲国产精品无码av| 欧美.www| 这里只有精品66| 国产精品中文字幕亚洲欧美| 国语精品中文字幕| 日本一区二区三区电影免费观看| 国产精品久久久精品| 自拍一区在线观看| 久久久噜噜噜久久中文字免| sm国产在线调教视频| 日韩在线免费视频| 国内在线免费高清视频| 日韩精品免费看| 欧美在线精品一区二区三区| 日韩一级二级三级| 国产老女人乱淫免费| 欧美日韩国产一级二级| 亚洲视屏在线观看| 一本到三区不卡视频| 999这里只有精品| 午夜精品福利一区二区三区av | 色素色在线综合| 日韩美一区二区| 欧美日韩在线免费观看| 国产婷婷色一区二区在线观看 | 久久艳片www.17c.com| h视频网站在线观看| 国产午夜精品一区二区三区 | 国产欧美日韩综合| 中文字幕第4页| 久久婷婷综合激情| 性少妇bbw张开| 国产三级精品三级| 欧美一区二区三区粗大| 中文字幕乱码日本亚洲一区二区 | 日韩美女视频中文字幕| 欧美男体视频| 国产高清在线不卡| 国产激情久久| 成人激情av在线| 国产精品日本一区二区不卡视频 | 国产婷婷在线视频| 日韩午夜中文字幕| 亚洲AV无码精品自拍| 日韩视频免费直播| 特级丰满少妇一级aaaa爱毛片| 日韩电影视频免费| 激情小说 在线视频| 中文字幕亚洲激情| 成人无遮挡免费网站视频在线观看| 久色乳综合思思在线视频| 成人性生交大片免费看网站| 欧美在线国产精品| 97精品国产99久久久久久免费| 成人黄色片在线| 红杏视频成人| 日本在线免费观看一区| 99精品电影| 男人添女人下部高潮视频在观看| 亚洲视频成人| 天天干在线影院| 国产成人精品综合在线观看| 成人免费无码大片a毛片| 国产日产欧产精品推荐色| 日韩在线观看视频一区二区| 亚洲成人综合网站| 波多野结衣爱爱| 欧美成人一区二区三区在线观看| 深夜福利视频在线免费观看| 中文字幕在线看视频国产欧美| 蜜臀av国内免费精品久久久夜夜| 日本精品性网站在线观看| 成人豆花视频| 欧美日本亚洲| 欧美/亚洲一区| 午夜视频在线瓜伦| 成人一级片在线观看| 中文字幕精品亚洲| 午夜精品久久久久| 99久久免费国产精精品| 亚洲美女在线视频| 在线观看三级视频| 国产精品成人品| 国产精品中文字幕制服诱惑| 亚洲免费不卡| 亚洲综合好骚| 亚洲欧美综合视频| 中文字幕一区二区三| 69成人免费视频| 日韩美女一区二区三区四区| 成年人在线观看| 91产国在线观看动作片喷水| 精品一区二区三区亚洲| 亚洲mv在线看| 久久国产精品久久w女人spa| 国产乱国产乱老熟300部视频| 国产精品美女久久久久av爽李琼| 亚洲 欧美 视频| 日韩欧美中文一区| 午夜免费视频在线国产| 青青久久aⅴ北条麻妃| 91精品国产自产在线丝袜啪| 伊人色综合影院| 日韩国产精品久久久久久亚洲| 欧美日韩一区二区三区四区五区六区| 亚洲欧洲日产国产综合网| 无码人妻精品一区二| 日韩av在线资源| 成人免费网站观看| 国产66精品久久久久999小说| 久久免费精品视频在这里| 青青在线免费观看视频| 久久中文娱乐网| 国产情侣在线视频| 欧美本精品男人aⅴ天堂| 国产丝袜在线| 成人久久久久久| 婷婷激情综合| 久久6免费视频| 国产精品久久久久影视| 中文有码在线播放| 这里只有精品在线观看| 欧美va在线观看| 日本一区二区三区在线视频| 美女久久网站| 亚洲激情视频小说| 91久久精品国产91性色tv | 日本免费一区二区三区视频| 亚洲一区二区在线看| 久久精品国产亚洲高清剧情介绍| 中文字幕第24页| 欧美日韩国产综合久久| 麻豆传媒在线完整视频| 91在线网站视频| 午夜欧美视频| 国产国语老龄妇女a片| 图片区小说区国产精品视频| 婷婷综合激情网| 欧洲一区二区视频| 国产中文精品久高清在线不| 动漫av免费观看| 国产精品视频一区二区三区不卡| 中文字幕av片| 久久精品久久久久| 午夜日韩影院| 男人添女荫道口图片| 91片在线免费观看| 国产精品高清无码| 美乳少妇欧美精品| 极品国产人妖chinesets亚洲人妖| 青青青免费在线| 欧美激情综合在线| 99久久精品国产色欲| 97香蕉超级碰碰久久免费软件| 一本久久青青| www.这里只有精品| 一区二区三区在线视频免费| 天堂中文字幕在线| 国产免费成人av| 亚洲一级一区| 亚洲图片另类小说| 欧美一区二区三区性视频| 超碰在线97国产| 色吧亚洲视频| 国产成人在线免费观看| 欧美h在线观看| xxx欧美精品| 久久亚洲黄色| 中文字幕av不卡在线| 亚洲一级不卡视频| 超碰97在线免费观看| 国产精品久久久久久久久久久久午夜片 | 国产极品在线视频| 日本一区二区三区久久久久久久久不| 国产同性人妖ts口直男| 26uuu另类亚洲欧美日本一| 久久人体视频| 青青草福利视频| 日韩一区二区在线观看| 亚洲成a人片| 久久精品无码中文字幕| 日本一区二区视频在线| 成人午夜免费福利| 国产精品私拍pans大尺度在线|