Transformer速查寶典：模型、架構、訓練方法的論文都在這里了

作者：機器之心 2023-08-14 08:46:54

論文大合集，一篇文章就搞定。今天給大家帶來一篇 Transformer 的綜述文章，供大家了解 Transformer 的來龍去脈及相關技術。

AI 發展迅速，這對于剛剛入門或是正想跟上「潮流」的新手們來說并不友好。如果有一份詳細全面的知識列表可能會幫助他們更快走上「正途」。

今天給大家帶來一篇 Transformer 的綜述文章，供大家了解 Transformer 的來龍去脈及相關技術。

本篇綜述涵蓋了 21 種模型、11 種架構變化、7 種預訓練后處理技術和 3 種訓練技術（還有 5 種不屬于以上技術的東西）。模型包括 GPT-3、GPT-4、Gopher、AlphaCode、RETRO、GPT-3.5、Chinchilla、Flamingo 等。一些重要的架構變化包括多查詢注意力、稀疏注意力、混合專家等。同時還介紹了 RLHF、CAI、Minerva 等預訓練后處理技術以及超參。所有內容均按照重要性和獨特性進行排序，并將鏈接附在下方。

以下為機器之心不改變原義對文章進行編譯的內容。

一、模型

以下模型的屬性若未明確說明，要么未公開，要么大致遵循標準 GPT 配置。

1.GPT-3

屬性：175B 參數，96 層，12288 嵌入維度，96 個注意力頭
論文地址：https://arxiv.org/pdf/2005.14165.pdf
發布詳情 Open AI 發布于 2020 年 5 月

本文是繼 GPT-2 論文（2018 及擴展定律論文后，大語言模型的一片開創性論文。以下是論文中指出有關 GPT-3 的特征。

它在一個 300B token 的數據集上進行訓練。該數據集主要由過濾后的 Common Crawl 以及一些書籍、網絡文本和維基百科構成；
使用了 BPE tokenizer（與 GPT-2 相同）；
2048 上下文長度；
交替使用密集和稀疏注意力層；
在最初的 375M toks 中，學習率升至 0.6 × 10^-4，260B toks 后余弦衰減至 10%；
在前 12B 個 token 中，批大小從 32k toks 上升到 3.2M toks；
4x MLP 投影率，如 2017 年 Transformer 論文所示；
50k 詞匯表（vocab size）。

以上的許多特征形成了一種標準配置，被后來的模型重復使用。

在論文記錄超參數的表 2.1 中有一個可能的拼寫錯誤，其中 GPT-3 13B 被記作為具有 5140 的嵌入維度，這里應該是 5120。

2.GPT-4

報告地址：https://arxiv.org/pdf/2303.08774.pdf
發布詳情：Open AI 2022 年 8 月對其完成預訓練，發布于 2023 年 3 月。

GPT-4 是 OpenAI 提供的一個模型，其架構不明（技術上類似于 Transformer）。技術報告主要包含大部分評估（結果表現良好），以及能夠從較小模型精確推斷出的持續擴展結果。報告還記錄了提高模型安全性的措施，并演示了 GPT-4 的多模態能力，這種能力似乎是用類似于 Flamingo 的方式訓練的。

3.Gopher

屬性：280B 參數，260B 非嵌入參數，80 層，16384 嵌入維度，128 個注意力頭
論文地址：https://arxiv.org/pdf/2112.11446.pdf
發布詳情：DeepMind 在 2020 年底對其進行訓練，發布于 2021 年 12 月。

Gopher 是 DeepMind 在 2021 年發布的第一個大型語言模型。它使用 RMSNorm 而不是 LayerNorm，使用 Transformer-XL 的相對位置編碼方案而不是絕對位置編碼，這就是嵌入參數如此之多的原因。

它使用 SentencePiece 進行分詞，詞匯表大小為 32k，并用 300B token 進行訓練，其中一半來自為 Gopher 收集的 MassiveText，以及書籍、Common Crawl、維基百科、新聞和 Github。

4.AlphaCode

屬性：41B 參數，8 個編碼器層，56 個解碼器層，6144 嵌入維度
論文地址：https://arxiv.org/pdf/2203.07814.pdf
發布詳情：DeepMind 發布于 2022 年 2 月。

AlphaCode 是在 715GB（967B token）代碼基礎上訓練出來的模型，可以用于解決編程競賽問題。它是本文中唯一采用解碼器 - 編碼器架構的模型。它將編程競賽題視為一項翻譯任務（問題陳述 → 解決方案），以獲得雙向性。它在編碼器中使用 1536 個 token，在解碼器中使用 768 個 token。使用多查詢注意力，并在推理時生成數千個樣本，然后選擇一個解決方案子集進行提交。

5.RETRO

屬性：7B 參數
論文地址：https://arxiv.org/pdf/2112.04426.pdf
發布詳情：DeepMind 發布于 2022 年 2 月。

檢索是一種通用的技術，即在進行推理時提供一個數據庫供其查找。RETRO 是第一篇使用 2T token 數據庫的 Transformer 檢索論文。它使用預訓練的 BERT 式模型將 token 數據庫嵌入塊中，然后在訓練和推理期間對數據庫中的最近鄰執行分塊交叉注意力。

6.GPT-3.5

屬性：架構未知
文檔地址 https://platform.openai.com/docs/guides/gpt
發布詳情：OpenAI 發布于 2022 年 3 月。

OpenAI 將三種模型劃分為 GTP-3.5，具體包括 davinci-002 系列中的兩種和 davinci-003 系列中的一種。其中， code-davinci-002 是基本模型，text-davinci-002 是一個帶有 FeedME 非 RL 指令調整的版本。text-davinci-003 是帶有 RLHF 的 InstructGPT。有一篇 InstructGPT 論文訓練了 RLHF 模型，但沒有提到 FeedME，而 text-davinci-002 雖然是 InstructGPT 模型，但沒有使用 RLHF。OpenAI API 上的 davinci 模型在 2020 年的論文中被指出是 175B 模型，但從未證實 davinci-002 是否具有相同尺寸。

7.Chinchilla

屬性：70B 參數，80 層，8192 嵌入維度，64 個注意力頭
論文地址：https://arxiv.org/pdf/2203.15556.pdf
發布詳情：DeepMind 發布于 2022 年 3 月。

Chinchilla 的論文中引入了新的、改進版的 scalling law。它使用 1.5T token（與 Gopher 相似的數據集）和與 Gopher 相同的計算量進行訓練，但性能優于 Gopher。在 scalling law 中，模型的參數和 token 數按照 20:1 的比例線性增加。學習率采用余弦調度進行調整。Megatron Turing NLG 和 Jurassic J-1 Jumbo 是另外兩個大型模型，由于它們不是 Chinchilla 最優模型，也沒有獨特意義，因此沒有在本文中單獨記錄。

8.Flamingo

屬性：80B 參數
論文地址 https://arxiv.org/pdf/2204.14198.pdf
發布詳情：DeepMind 發布于 2022 年 4 月。

Flamingo 是一個多模態（文本 / 圖像）模型。它只生成文本，而圖像輸入通過視覺編碼器（435M 參數）運行，并使用交叉注意力來關注這些輸出。它還在視覺編碼器之后使用重采樣器（194M 參數），無論輸入特征的數量如何，都能產生固定（少量）的視覺 token。它們建立在凍結的 Chinchilla 模型上，80B 參數來自添加到 70B Chinchilla 模型中的交叉注意力層。PaLI 是谷歌的圖像 / 語言多模態模型。

9.Gato

屬性：1.18B 參數
論文地址：https://arxiv.org/pdf/2205.06175.pdf
發布詳情：發布于 2022 年 5 月。

Gato 是一個通用型智能體，算是 Flamingo 的后續產品，但擁有更多的模態。它使用圖像和文本，以及按鈕按壓數據格式化成的 token，還有來自機器人感知的連續數據編碼，并嘗試使用盡可能少的數據來完成額外的任務。這些任務包括機器人堆疊測試、圖像字幕和 Atari。

10.Anthropic LM

屬性：52B 參數，64 層，8192 嵌入維度
論文地址：https://arxiv.org/pdf/2112.00861.pdf
發布詳情：Anthropic 發布于 2021 年 12 月。

在 400Btoken 上進行訓練，但在 Chinchilla 之后的一篇論文（《 Language Models (Mostly) Know What They Know 》）中，Anthropic 使用了為 850B token 訓練的具有相同架構的模型。在后來的另一篇關于道德自我糾正的論文中，使用了一個沒有明確說明的 175B 模型。

11.PaLM

屬性：540B 參數，118 層，18432 嵌入維度，48 個注意力頭
論文地址：https://arxiv.org/pdf/2204.02311.pdf
發布詳情：Google 發布于 2022 年 4 月。

截至 2023 年 1 月，這是公開已知的最大密集語言模型。PaLM 使用 SwiGLU 激活，使用并行注意力、多查詢注意力、旋轉嵌入，并對輸入和輸出嵌入使用相同的矩陣。它沒有使用偏置，使用了一個包含 256k 個 token 的 SentencePiece tokenizer。PaLM 是在與 LaMDA 和 GLaM 類似的數據集上，用 780B 個 token 進行訓練的。

12.GPT-NeoX

屬性：20B 參數
論文地址：https://arxiv.org/pdf/2204.06745.pdf
項目地址：https://github.com/EleutherAI/gpt-neox
發布詳情：Eleuther AI 發布于 2022 年 2 月。

這是 Eleuther 的一個開源模型。它使用 DeepSpeed (微軟) 和 Nvidia Megatron 在 GPU 上進行訓練，并使用與 GPT-J 相同的架構修改，在整個 Pile (400B token) 上進行訓練。

13.GPT-J

屬性：6.7B 參數
項目地址：https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b
發布詳情：Eleuther AI 發布于 2021 年 7 月。

GPT-J 因完全開源而聞名，并且與 GPT-3 論文中 6.7B 版本性能相媲美。它在 TPU 上進行訓練，并使用旋轉嵌入，并行注意力。為降低復雜性，它僅使用了密集注意力層。它是在 Pile 上訓練的，Pile 是一個由 Eleuther AI 創建的開放數據集，包含 22 個較小的數據集，包括 Common Crawl、 OpenWebText、書籍和論文。

14.GLaM

屬性：1.2T 參數
論文地址：https://arxiv.org/pdf/2112.06905.pdf
發布詳情：Google 發布于 2021 年 12 月。

GLaM 被稱為「通用語言模型」，是一個混合專家 (MoE) 模型，其中的參數是稀疏激活。它每層有 64 個專家，每個 token 激活 96.6B 參數。每一層都有一個門控單元，它為每個 token 選擇 64 個 MLP 中的一個或兩個。

15.LAMDA

屬性：137B 參數，64 層，8192 嵌入維度，128 個注意力頭
論文地址：https://arxiv.org/pdf/2201.08239.pdf
發布詳情：Google 在 I/O 上演示于 2021 年 5 月，論文發布于 2022 年 1 月。

LaMDA 對話模型是根據 Meena 創建的。它明確有一個包含大量對話 / 論壇的 2.81T 數據集 (用 32k 的 SentencePiece tokenizer 進行編碼)。基礎模型有時被稱為 LaMDA GLM 或 GLM- 137B；LaMDA 在此基礎上添加了許多對話微調。

模型訓練用了多少個 token 是明確的，它用到了 1024 個 TPUv3，使用率為 56.5%，訓練時間為 57.7 天，batch 大小為 256k，可能是 bf16，計算表明這將是 2.81T token 中的約 900B。

16.Switch

屬性：1T 參數
論文地址：https://arxiv.org/pdf/2101.03961.pdf
發布詳情：Google 發布于 2022 年 6 月。

SwitchTransformer 對 GLaM 進行了改進，它只路由到一個專家，從而減少了計算量。它的創新是使用了不同的路由機制，證明了路由到單個專家是有效的。

17.BLOOM

屬性：176B 參數，70 層，14336 嵌入維度，112 個注意力頭
論文地址：https://arxiv.org/pdf/2211.05100.pdf
發布詳情：HuggingFace 發布于 2022 年 7 月。

截止于本文梳理的時間，BLOOM 是最大的開源模型。它在 HuggingFace 語料庫 ROOTS 上進行訓練，該語料庫包含 498 個 HuggingFace 數據集。該模型在 366B token 上進行訓練，并且位置編碼是用 ALiBi 完成的。它用到了 250k 詞匯表大小的 BPE tokenizer，幫助它適應多語言數據。

18.Galactica

屬性：120B 參數
論文地址：https://arxiv.org/pdf/2211.09085.pdf
發布詳情：Meta 發布于 2022 年 11 月。

Galactica 是一個科學模型，主要以論文、少量代碼、其他基于知識的數據和一些 Common Crawl 數據為基礎進行預訓練。它用 <work> token 對工作記憶進行編碼，并使用特殊 token 對引文進行編碼。

19.LLaMa

屬性：65B 參數
論文地址：https://arxiv.org/pdf/2302.13971.pdf
發布詳情：Meta 發布于 2023 年 2 月。

LLaMa 像是 Chinchilla 的復制品，有著相當標準的訓練組合，大部分為 Common Crawl。

20.OPT

屬性：175B 參數，與 GPT-3 相同的架構
論文地址：https://arxiv.org/pdf/2205.01068.pdf
項目地址：https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/OPT175B_Logbook.pdf
發布詳情：Meta 發布于 2022 年 5 月。

這是 GPT-3 的復刻版，它在 Pile 和 PushShift reddit 上訓練，只有 180B token。

這些 Meta 論文完全不是相互關聯的項目。LLama、OPT 和 Galactica 共有 41 位作者，只有一位是重合的。

21.GLM-130B

屬性：130B 參數
論文地址：https://arxiv.org/pdf/2210.02414.pdf
發布詳情：清華大學發布于 2022 年 10 月。

GLM 是一個開源的雙語（中文 / 英文）模型。它使用旋轉嵌入和 DeepNorm，并通過 GeGLU 激活 MLP。值得關注的是，它主要以 INT4 進行推理（而其他模型，如 BLOOM 和 OPT，則量化為 INT8）。它還在預訓練中加入了 prompt，而不是標準的 GPT 架構，并且使用 GLM 實現了雙向注意力。

架構變化

1. 多查詢注意力（Multi-Query Attention，MQA）

論文地址：https://arxiv.org/pdf/1911.02150.pdf

Noam Shazeer 的這篇論文中，key 和 value 在 head 之間共享，大大減少了推理時所需的內存數量，提高了延遲和吞吐量。這是一篇非常簡潔的論文，并附有代碼和結果。AlphaCode 和 PaLM 都使用 MQA。

2. 稀疏注意力

論文地址：https://arxiv.org/pdf/1904.10509.pdf

在這種機制中，注意力不會應用于所有之前的 token。它描述了稀疏 Transformer 的兩種風格，一種是跨步式，即關注最后 N 個 token；另一種是固定式，即關注序列中的部分 token。在 GPT-3 論文中，該模型被描述為交替密集和「局部帶狀」稀疏層。

3. 混合專家（Mixture-of-Experts，MoE）

關于 MoE 的內容有很多，在介紹 GLaM 和 Switch 時已經提到了一點。因此，此處將羅列一些優秀的原始文獻。

2017 年關于 LSTM 的 MoE 論文 https://arxiv.org/abs/1701.06538
面向 MoE 的 Deepmind Scaling Laws 論文 https://arxiv.org/pdf/2202.01169.pdf
訓練 1.1T 參數 MoE 的 Meta 論文：https://arxiv.org/pdf/2112.10684.pdf

一些谷歌的論文：

https://arxiv.org/pdf/2202.08906.pdf
https://arxiv.org/pdf/2202.09368.pdf
https://arxiv.org/pdf/2205.10937.pdf
https://arxiv.org/pdf/2202.08906.pdf
https://openreview.net/pdf?id=23ZjUGpjcc

4.FlashAttention

論文地址：https://arxiv.org/pdf/2205.14135.pdf

FlashAttention 是一種架構變革，能以更少的內存訪問量完成注意力處理。它對注意力矩陣進行切片和增量化的 softmax 約簡，并避免了在后向傳播過程中存儲整個中間注意力矩陣。論文指出，與 megatron 相比，它訓練速度提高到 1.7 倍，推理速度提高到 4 倍多（上下文長度越長，倍數越大）。在此之前，另一篇文章 (https://arxiv.org/pdf/2112.05682.pdf) 也在 TPU 上采用了同樣的方法，實現了 O (log_n) 內存占用。

5. 編碼器 + 解碼器

論文地址：https://arxiv.org/pdf/1706.03762.pdf

根據 Transformer 的原始論文，編碼器 - 解碼器架構最初是為翻譯任務而設計的。經典的 GPT 架構交替使用注意力和 MLP 模塊。原始的 Transformer 則采用了編碼器塊和解碼器塊。編碼器塊的結構是：注意力機制 → MLP；解碼器塊的結構是：掩蔽注意力→ 編碼器 - 解碼器注意力 → MLP。對于許多序列到序列的任務來說，例如 AlphaCode 或 T5，這也是一個合理的架構。

6. 平行注意力

論文地址：https://arxiv.org/pdf/2204.02311.pdf

PaLM 使用平行注意力。即在訓練模型時，注意力層和 MLP 層并行運行，使用相同的向量。如此一來，就可以將注意力和前饋矩陣乘法合并在一起，從而提升運算強度，獲得更好的性能（PaLM 的訓練速度提升了 15%）。GPT-J 也使用了這種方法。

7. 可供選擇的激活方案：GeGLU，SwiGLU，SoLU

論文地址：https://arxiv.org/pdf/1706.03762.pdf

最初的 Transformer 論文使用 ReLU 來激活 MLP 模塊。它在兩個線性變換（matmuls）之間進行簡單的 x if > x = 0 else 0。從直觀上看，這有點草率。GeLU 與 ReLU 類似，但要平滑一些。

論文地址：https://transformer-circuits.pub/2022/solu/index.html

SoLU（Softmax）簡單地說就是 x*softmax (x)，用于提高模型的可解釋性。

論文地址：https://arxiv.org/pdf/2002.05202.pdf

SwiGLU 是所列論文中最復雜的，也是 Noam Shazee 的個人論文。它建立在門控線性單元的基礎上，旨在比 ReLU 更穩定，并在 GLU 之前進行 swish 運算。與 GeLU 一樣，它軟化了 ReLU，允許某些值低于零。

8.LayerNorm 的替代方案：DeepNorm，RMSNorm

LLM 每個區塊有兩次 norm（一次用于注意力，一次用于前饋），它會執行一些歸一化功能以改進訓練。

DeepNorm 論文地址：https://arxiv.org/pdf/2203.00555.pdf)

RMSNorm 論文地址：https://arxiv.org/pdf/1910.07467.pdf

DeepNorm 和 RMSNorm 可以成為替代方案。RMSNorm（均方根）簡單來說就是數值均值的平方根。還有一種 batch norm，效率很低，用起來似乎不太聰明。

9.RoPE

論文地址：https://arxiv.org/pdf/2104.09864.pdf
相關 Blog 文章：https://blog.eleuther.ai/rotary-embeddings/

這篇 Blog 文章總結得十分優秀，本文不做贅述。

10.BPE vs SentencePiece Tokenizers

BPE 項目地址：https://huggingface.co/learn/nlp-course/chapter6/5?fw=pt
SentencePiece 編碼器項目地址：https://github.com/google/sentencepiece

字節對編碼（Byte Pair Encoding，BPE）是大多數語言模型的默認編碼，最初的 GPT 論文、GPT-3 以及 GPT-3.5 都使用了這種編碼。不使用純 BPE，而使用 SentencePiece 情況的一個明顯原因是，分布不包含空格分隔的單詞，就像 AlphaCode、GLM（中文）和 PaLM（明確是因為多語言）那樣。

11.ALiBi

論文地址：https://arxiv.org/pdf/2108.12409.pdf

ALiBi（Attention with Linear Biases）是一種長上下文位置嵌入方案，通過根據距離對 qk 分數進行線性偏置，來支持對更長的長度進行外推。BLOOM 用了 ALiBi，Galactica 也嘗試過，但沒有采用。

預訓練后處理技術

1. 采用 PPO 算法的 RLHF

在 RLHF 中，首先要訓練一個獎勵模型，由標注員評估模型生成的數組。然后在 RL 中使用 PPO（近端策略優化），策略生成由獎勵模型評估的輸出，以改進策略。

Christiano 論文：https://proceedings.neurips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html

Deepmind 的 Sparrow 和 Anthropic 的 LM 都是用 RL (AI|H) F 訓練的，它們都有對話界面。WebGPT 和 GopherCite 一樣，也是用 RLHF 訓練的（后者調用了 RLHPreferences）。我認為，這都起源于 2017 年的 Christiano，它先于 LLM 所有內容，之后才是 2020 年根據人類反饋進行的總結以及 PPO 論文。

2020 年根據人類反饋進行的總結 https://proceedings.neurips.cc/paper/2020/file/1f89885d556929e98d3ef9b86448f951-Paper.pdf

2.Constitutional

論文鏈接：https://arxiv.org/pdf/2212.08073.pdf

作為 RLHF 的擴展，Constitutional 基本上是 RLAIF，不過實際上被稱為 CAI。它有一個監督學習階段，在這一階段，只提供幫助的 AI 會生成對抗性 prompt。然后，助手會根據所提供的 constitution（以字符串的形式提供給模型的一組短值）迭代出自己的響應。然后對這些響應進行微調。第二階段就像采用 PPO 的 RLHF，只不過將 AI 反饋替換了。

3.Minerva

論文地址：https://arxiv.org/pdf/2206.14858.pdf

Minerva 是 Blueshift 團隊于 2022 年 6 月發布的一個數學和科學數據微調模型，執行效果非常好。它是一個來自 PaLM 的 62/540B 微調模型。它的數據集來自 ArXiV 和一些網站，并經過精心預處理，保留了數學格式。

4.Codex

論文地址：https://arxiv.org/pdf/2107.03374.pdf

Codex 于 2021 年 7 月推出（并支撐了 Github Copilot 的推出)，是在 100B token 代碼 (此處為公開的 Github 代碼) 上微調而成的。該論文還首次提出了 HumanEval，即人類編寫的代碼評估。本文最值得注意的是，它證明了代碼數據對代碼性能非常重要，因為 GPT-J 在代碼方面的表現優于 GPT-3。他們還為代碼添加了一些 token，這使壓縮率提高了 30%。

5. 只對 CoTed 輸出進行微調

我忘了哪篇論文是這么做的，但依稀記得他們根據模型的思維鏈輸出對模型進行了微調，結果變得更好。雖然這在意料之中，但是也值得關注。

6.FeedME (SFT)

論文地址：https://arxiv.org/pdf/2203.02155.pdf

這種方法在 Instruct GPT 論文中有所描述，但這不一定是該方法起源。該方法的起源更加接近下面這篇論文。

論文地址：https://arxiv.org/pdf/1909.08593.pdf

監督微調使用人工生成的內容，然后用于微調預訓練模型。論文發現，SFT 比基礎預訓練模型表現更好，但 RLHF 比 SFT 表現更好。

7.FLAN

論文地址：https://arxiv.org/pdf/2109.01652.pdf

FLAN 是一個經過指令調整的模型（在指令格式的 nlp 任務上進行了微調），可提升零樣本性能。

訓練技術

1. 善于設置超參數

沒有論文是專門討論這個的，但正確設置超參數顯然是非常重要的。

通過閱讀以下文章可以獲得一些基準。

Chinchilla 論文：https://arxiv.org/pdf/2203.15556.pdf
Scalling Laws 論文 https://arxiv.org/pdf/2001.08361.pdf
Jane Street 的有關理解批大小的博客文章：https://blog.janestreet.com/does-batch-size-matter/

2. 基于人類反饋的預訓練

論文地址：https://arxiv.org/pdf/2302.08582.pdf

盡管 PHF（Pretraining with Human Feedback）在預訓練時使用了一種簡單的技術來標記數據，但預訓練往往采用無監督的形式。該方法在訓練時使用兩個條件 token（好的和壞的）預置到樣本中，然后在推理時使用它們進行采樣。該研究還嘗試了其他各種目標（尤其是把壞數據過濾掉），但在 python 風格、PII 和毒性上的評估結果都很差。

3.MuP

論文地址：https://arxiv.org/pdf/2203.03466.pdf

MuP（Maximal Update Parameterization ）是一種參數化方法，這種方法不僅節省了參數掃描計算，而且更接近最優。這篇論文很好地闡述了這一方法的理論依據。

其他

1. 思維鏈（CoT）

論文地址：https://arxiv.org/pdf/2201.11903.pdf

CoT 是一種讓模型「step-by-step」思考并產生更好結果的技術，名字起源于上述論文《 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 》。論文描述了發表于 2021 年 2 月的論文《Prompt Programming for Large Language Models:Beyond the Few-Shot Paradigm》中技術的具體應用。

論文地址：https://arxiv.org/pdf/2102.07350.pdf

2. 工具使用

關于規范工具使用的論文可以最早追溯到 2021 年 12 月的 WebGPT 論文。文中 GPT-3 可以訪問網絡，從而大大增強了模型能力。

論文地址：https://arxiv.org/pdf/2112.09332.pdf

除此以外，DeepMind 還訓練了可以借助 RL 工具來完成各種任務的智能體；Meta 發布語言模型 Toolformer，可以教會自己使用工具。

DeepMind 論文：https://arxiv.org/pdf/2202.08137.pdf
Meta 的 Toolformer：https://arxiv.org/pdf/2302.04761.pdf

3.Fill In the Middle

論文地址：https://arxiv.org/pdf/2207.14255.pdf

這篇論文描述了一種簡單的數據轉換，它將子字符串從文本中間移到末尾，并要求模型填充中間部分。這樣，模型就能獲得一種對代碼補全等任務非常有用的能力，而不會影響嚴格意義上從左到右任務的性能。

4. 采樣技術：Top-k，Top-p (核)，Beam Search

與 Top -P 有關的論文地址：https://arxiv.org/pdf/1904.09751.pdf

語言模型的輸出基本上是每個可能 token 的 logit，然后將其 softmax 化為概率。將 logits 轉換為 token 的最簡單方法，就是取最有可能的 token。當語言模型有溫度控制時，它將 logits 除以溫度，這使模型對其首選更有信心 / 更沒有信心。Top -K 采樣從該分布中獲取前 K 個 token 和樣本。Top -P 采樣，或稱核采樣，會選擇 tokens 中概率累積排名前 P 個百分比的部分，并從這個選定的部分進行抽樣。

5. 無尾采樣（Tail Free Sampling）

文章地址：https://www.trentonbricken.com/Tail-Free-Sampling/

無尾采樣是 Top-p 采樣的衍生，之所以這樣命名是為了找到「尾」，因為 Top-p 采樣可能會在許多 token 具有相似概率的點上被切斷而失敗。上面這篇文章像是說明了無尾采樣能夠更好進行采樣工作的原因，但當涉及到提高模型的創造力和范圍時，沒有很好的基準。

補充地址（文章中提到的其他論文的地址）如下：

GPT-2 論文（2018）：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
擴展定律論文：https://arxiv.org/pdf/2001.08361.pdf
Transformer 論文 2017：https://arxiv.org/pdf/1706.03762.pdf
Turing NLG 論文：https://arxiv.org/pdf/2201.11990.pdf
Jurassic J-1 Jumbo 論文：https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf
PaLI 論文：https://arxiv.org/pdf/2209.06794.pdf
post-Chinchilla 論文：https://arxiv.org/pdf/2207.05221.pdf
有關道德自我糾正的論文：https://arxiv.org/pdf/2302.07459.pdf
近端策略優化論文：https://arxiv.org/pdf/1707.06347.pdf
Deepmind 的 Sparrow 論文：https://arxiv.org/pdf/2209.14375.pdf
WebGPT 論文：https://arxiv.org/pdf/2112.09332.pdf
GopherCite 論文：https://arxiv.org/pdf/2203.11147.pdf

責任編輯：張燕妮來源：機器之心

AI 論文