精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Transformer速查寶典:模型、架構、訓練方法的論文都在這里了

人工智能 新聞
論文大合集,一篇文章就搞定。今天給大家帶來一篇 Transformer 的綜述文章,供大家了解 Transformer 的來龍去脈及相關技術。

AI 發展迅速,這對于剛剛入門或是正想跟上「潮流」的新手們來說并不友好。如果有一份詳細全面的知識列表可能會幫助他們更快走上「正途」。

今天給大家帶來一篇 Transformer 的綜述文章,供大家了解 Transformer 的來龍去脈及相關技術。

本篇綜述涵蓋了 21 種模型、11 種架構變化、7 種預訓練后處理技術和 3 種訓練技術(還有 5 種不屬于以上技術的東西)。模型包括 GPT-3、GPT-4、Gopher、AlphaCode、RETRO、GPT-3.5、Chinchilla、Flamingo 等。一些重要的架構變化包括多查詢注意力、稀疏注意力、混合專家等。同時還介紹了 RLHF、CAI、Minerva 等預訓練后處理技術以及超參。所有內容均按照重要性和獨特性進行排序,并將鏈接附在下方。

以下為機器之心不改變原義對文章進行編譯的內容。

一、模型

以下模型的屬性若未明確說明,要么未公開,要么大致遵循標準 GPT 配置。

1.GPT-3

圖片

  • 屬性:175B 參數,96 層,12288 嵌入維度,96 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2005.14165.pdf
  • 發布詳情 Open AI 發布于 2020 年 5 月

本文是繼 GPT-2 論文(2018 及擴展定律論文后,大語言模型的一片開創性論文。以下是論文中指出有關 GPT-3 的特征。

  • 它在一個 300B token 的數據集上進行訓練。該數據集主要由過濾后的 Common Crawl 以及一些書籍、網絡文本和維基百科構成;
  • 使用了 BPE tokenizer(與 GPT-2 相同);
  • 2048 上下文長度;
  • 交替使用密集和稀疏注意力層;
  • 在最初的 375M toks 中,學習率升至 0.6 × 10^-4,260B toks 后余弦衰減至 10%;
  • 在前 12B 個 token 中,批大小從 32k toks 上升到 3.2M toks;
  • 4x MLP 投影率,如 2017 年 Transformer 論文所示;
  • 50k 詞匯表(vocab size)。

以上的許多特征形成了一種標準配置,被后來的模型重復使用。

在論文記錄超參數的表 2.1 中有一個可能的拼寫錯誤,其中 GPT-3 13B 被記作為具有 5140 的嵌入維度,這里應該是 5120。

2.GPT-4

圖片


  • 報告地址:https://arxiv.org/pdf/2303.08774.pdf
  • 發布詳情:Open AI 2022 年 8 月對其完成預訓練,發布于 2023 年 3 月。

GPT-4 是 OpenAI 提供的一個模型,其架構不明(技術上類似于 Transformer)。技術報告主要包含大部分評估(結果表現良好),以及能夠從較小模型精確推斷出的持續擴展結果。報告還記錄了提高模型安全性的措施,并演示了 GPT-4 的多模態能力,這種能力似乎是用類似于 Flamingo 的方式訓練的。

3.Gopher

  • 屬性:280B 參數,260B 非嵌入參數,80 層,16384 嵌入維度,128 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2112.11446.pdf
  • 發布詳情:DeepMind 在 2020 年底對其進行訓練,發布于 2021 年 12 月。

Gopher 是 DeepMind 在 2021 年發布的第一個大型語言模型。它使用 RMSNorm 而不是 LayerNorm,使用 Transformer-XL 的相對位置編碼方案而不是絕對位置編碼,這就是嵌入參數如此之多的原因。

它使用 SentencePiece 進行分詞,詞匯表大小為 32k,并用 300B token 進行訓練,其中一半來自為 Gopher 收集的 MassiveText,以及書籍、Common Crawl、維基百科、新聞和 Github。

4.AlphaCode

圖片

  • 屬性:41B 參數,8 個編碼器層,56 個解碼器層,6144 嵌入維度
  • 論文地址:https://arxiv.org/pdf/2203.07814.pdf
  • 發布詳情:DeepMind 發布于 2022 年 2 月。

AlphaCode 是在 715GB(967B token)代碼基礎上訓練出來的模型,可以用于解決編程競賽問題。它是本文中唯一采用解碼器 - 編碼器架構的模型。它將編程競賽題視為一項翻譯任務(問題陳述 → 解決方案),以獲得雙向性。它在編碼器中使用 1536 個 token,在解碼器中使用 768 個 token。使用多查詢注意力,并在推理時生成數千個樣本,然后選擇一個解決方案子集進行提交。

5.RETRO

圖片

  • 屬性:7B 參數
  • 論文地址:https://arxiv.org/pdf/2112.04426.pdf
  • 發布詳情:DeepMind 發布于 2022 年 2 月。

檢索是一種通用的技術,即在進行推理時提供一個數據庫供其查找。RETRO 是第一篇使用 2T token 數據庫的 Transformer 檢索論文。它使用預訓練的 BERT 式模型將 token 數據庫嵌入塊中,然后在訓練和推理期間對數據庫中的最近鄰執行分塊交叉注意力。

6.GPT-3.5

  • 屬性:架構未知
  • 文檔地址 https://platform.openai.com/docs/guides/gpt
  • 發布詳情:OpenAI 發布于 2022 年 3 月。

OpenAI 將三種模型劃分為 GTP-3.5,具體包括 davinci-002 系列中的兩種和 davinci-003 系列中的一種。其中, code-davinci-002 是基本模型,text-davinci-002 是一個帶有 FeedME 非 RL 指令調整的版本。text-davinci-003 是帶有 RLHF 的 InstructGPT。有一篇 InstructGPT 論文訓練了 RLHF 模型,但沒有提到 FeedME,而 text-davinci-002 雖然是 InstructGPT 模型,但沒有使用 RLHF。OpenAI API 上的 davinci 模型在 2020 年的論文中被指出是 175B 模型,但從未證實 davinci-002 是否具有相同尺寸。

7.Chinchilla

  • 屬性:70B 參數,80 層,8192 嵌入維度,64 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2203.15556.pdf
  • 發布詳情:DeepMind 發布于 2022 年 3 月。

Chinchilla 的論文中引入了新的、改進版的 scalling law。它使用 1.5T token(與 Gopher 相似的數據集)和與 Gopher 相同的計算量進行訓練,但性能優于 Gopher。在 scalling law 中,模型的參數和 token 數按照 20:1 的比例線性增加。學習率采用余弦調度進行調整。Megatron Turing NLG 和 Jurassic J-1 Jumbo 是另外兩個大型模型,由于它們不是 Chinchilla 最優模型,也沒有獨特意義,因此沒有在本文中單獨記錄。

8.Flamingo


  • 屬性:80B 參數
  • 論文地址 https://arxiv.org/pdf/2204.14198.pdf
  • 發布詳情:DeepMind 發布于 2022 年 4 月。

Flamingo 是一個多模態(文本 / 圖像)模型。它只生成文本,而圖像輸入通過視覺編碼器(435M 參數)運行,并使用交叉注意力來關注這些輸出。它還在視覺編碼器之后使用重采樣器(194M 參數),無論輸入特征的數量如何,都能產生固定(少量)的視覺 token。它們建立在凍結的 Chinchilla 模型上,80B 參數來自添加到 70B Chinchilla 模型中的交叉注意力層。PaLI 是谷歌的圖像 / 語言多模態模型。

9.Gato

  • 屬性:1.18B 參數
  • 論文地址:https://arxiv.org/pdf/2205.06175.pdf
  • 發布詳情:發布于 2022 年 5 月。

Gato 是一個通用型智能體,算是 Flamingo 的后續產品,但擁有更多的模態。它使用圖像和文本,以及按鈕按壓數據格式化成的 token,還有來自機器人感知的連續數據編碼,并嘗試使用盡可能少的數據來完成額外的任務。這些任務包括機器人堆疊測試、圖像字幕和 Atari。

10.Anthropic LM

圖片

  • 屬性:52B 參數,64 層,8192 嵌入維度
  • 論文地址:https://arxiv.org/pdf/2112.00861.pdf
  • 發布詳情:Anthropic 發布于 2021 年 12 月。

在 400Btoken 上進行訓練,但在 Chinchilla 之后的一篇論文(《 Language Models (Mostly) Know What They Know 》)中,Anthropic 使用了為 850B token 訓練的具有相同架構的模型。在后來的另一篇關于道德自我糾正的論文中,使用了一個沒有明確說明的 175B 模型。

11.PaLM

圖片

  • 屬性:540B 參數,118 層,18432 嵌入維度,48 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2204.02311.pdf
  • 發布詳情:Google 發布于 2022 年 4 月。

截至 2023 年 1 月,這是公開已知的最大密集語言模型。PaLM 使用 SwiGLU 激活,使用并行注意力、多查詢注意力、旋轉嵌入,并對輸入和輸出嵌入使用相同的矩陣。它沒有使用偏置,使用了一個包含 256k 個 token 的 SentencePiece tokenizer。PaLM 是在與 LaMDA 和 GLaM 類似的數據集上,用 780B 個 token 進行訓練的。

12.GPT-NeoX

圖片


  • 屬性:20B 參數
  • 論文地址:https://arxiv.org/pdf/2204.06745.pdf
  • 項目地址:https://github.com/EleutherAI/gpt-neox
  • 發布詳情:Eleuther AI 發布于 2022 年 2 月。

這是 Eleuther 的一個開源模型。它使用 DeepSpeed (微軟) 和 Nvidia Megatron 在 GPU 上進行訓練,并使用與 GPT-J 相同的架構修改,在整個 Pile (400B token) 上進行訓練。

13.GPT-J

圖片


  • 屬性:6.7B 參數
  • 項目地址:https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b
  • 發布詳情:Eleuther AI 發布于 2021 年 7 月。

GPT-J 因完全開源而聞名,并且與 GPT-3 論文中 6.7B 版本性能相媲美。它在 TPU 上進行訓練,并使用旋轉嵌入,并行注意力。為降低復雜性,它僅使用了密集注意力層。它是在 Pile 上訓練的,Pile 是一個由 Eleuther AI 創建的開放數據集,包含 22 個較小的數據集,包括 Common Crawl、 OpenWebText、書籍和論文。

14.GLaM

圖片

  • 屬性:1.2T 參數
  • 論文地址:https://arxiv.org/pdf/2112.06905.pdf
  • 發布詳情:Google 發布于 2021 年 12 月。

GLaM 被稱為「通用語言模型」,是一個混合專家 (MoE) 模型,其中的參數是稀疏激活。它每層有 64 個專家,每個 token 激活 96.6B 參數。每一層都有一個門控單元,它為每個 token 選擇 64 個 MLP 中的一個或兩個。

15.LAMDA

圖片

  • 屬性:137B 參數,64 層,8192 嵌入維度,128 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2201.08239.pdf
  • 發布詳情:Google 在 I/O 上演示于 2021 年 5 月,論文發布于 2022 年 1 月。

LaMDA 對話模型是根據 Meena 創建的。它明確有一個包含大量對話 / 論壇的 2.81T 數據集 (用 32k 的 SentencePiece tokenizer 進行編碼)。基礎模型有時被稱為 LaMDA GLM 或 GLM- 137B;LaMDA 在此基礎上添加了許多對話微調。

模型訓練用了多少個 token 是明確的,它用到了 1024 個 TPUv3,使用率為 56.5%,訓練時間為 57.7 天,batch 大小為 256k,可能是 bf16,計算表明這將是 2.81T token 中的約 900B。

16.Switch

圖片


  • 屬性:1T 參數
  • 論文地址:https://arxiv.org/pdf/2101.03961.pdf
  • 發布詳情:Google 發布于 2022 年 6 月。

SwitchTransformer 對 GLaM 進行了改進,它只路由到一個專家,從而減少了計算量。它的創新是使用了不同的路由機制,證明了路由到單個專家是有效的。

17.BLOOM

圖片

  • 屬性:176B 參數,70 層,14336 嵌入維度,112 個注意力頭
  • 論文地址:https://arxiv.org/pdf/2211.05100.pdf
  • 發布詳情:HuggingFace 發布于 2022 年 7 月。

截止于本文梳理的時間,BLOOM 是最大的開源模型。它在 HuggingFace 語料庫 ROOTS 上進行訓練,該語料庫包含 498 個 HuggingFace 數據集。該模型在 366B token 上進行訓練,并且位置編碼是用 ALiBi 完成的。它用到了 250k 詞匯表大小的 BPE tokenizer,幫助它適應多語言數據。

18.Galactica

圖片


  • 屬性:120B 參數
  • 論文地址:https://arxiv.org/pdf/2211.09085.pdf
  • 發布詳情:Meta 發布于 2022 年 11 月。

Galactica 是一個科學模型,主要以論文、少量代碼、其他基于知識的數據和一些 Common Crawl 數據為基礎進行預訓練。它用 <work> token 對工作記憶進行編碼,并使用特殊 token 對引文進行編碼。

19.LLaMa

圖片

  • 屬性:65B 參數
  • 論文地址:https://arxiv.org/pdf/2302.13971.pdf
  • 發布詳情:Meta 發布于 2023 年 2 月。

LLaMa 像是 Chinchilla 的復制品,有著相當標準的訓練組合,大部分為 Common Crawl。

20.OPT

圖片

  • 屬性:175B 參數,與 GPT-3 相同的架構
  • 論文地址:https://arxiv.org/pdf/2205.01068.pdf
  • 項目地址:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/OPT175B_Logbook.pdf
  • 發布詳情:Meta 發布于 2022 年 5 月。

這是 GPT-3 的復刻版,它在 Pile 和 PushShift reddit 上訓練,只有 180B token。

這些 Meta 論文完全不是相互關聯的項目。LLama、OPT 和 Galactica 共有 41 位作者,只有一位是重合的。

21.GLM-130B

圖片

  • 屬性:130B 參數
  • 論文地址:https://arxiv.org/pdf/2210.02414.pdf
  • 發布詳情:清華大學發布于 2022 年 10 月。

GLM 是一個開源的雙語(中文 / 英文)模型。它使用旋轉嵌入和 DeepNorm,并通過 GeGLU 激活 MLP。值得關注的是,它主要以 INT4 進行推理(而其他模型,如 BLOOM 和 OPT,則量化為 INT8)。它還在預訓練中加入了 prompt,而不是標準的 GPT 架構,并且使用 GLM 實現了雙向注意力。

架構變化

1. 多查詢注意力(Multi-Query Attention,MQA)

圖片

論文地址:https://arxiv.org/pdf/1911.02150.pdf

Noam Shazeer 的這篇論文中,key 和 value 在 head 之間共享,大大減少了推理時所需的內存數量,提高了延遲和吞吐量。這是一篇非常簡潔的論文,并附有代碼和結果。AlphaCode 和 PaLM 都使用 MQA。

2. 稀疏注意力

圖片

論文地址:https://arxiv.org/pdf/1904.10509.pdf

在這種機制中,注意力不會應用于所有之前的 token。它描述了稀疏 Transformer 的兩種風格,一種是跨步式,即關注最后 N 個 token;另一種是固定式,即關注序列中的部分 token。在 GPT-3 論文中,該模型被描述為交替密集和「局部帶狀」稀疏層。

3. 混合專家(Mixture-of-Experts,MoE)

關于 MoE 的內容有很多,在介紹 GLaM 和 Switch 時已經提到了一點。因此,此處將羅列一些優秀的原始文獻。

  • 2017 年關于 LSTM 的 MoE 論文 https://arxiv.org/abs/1701.06538
  • 面向 MoE 的 Deepmind Scaling Laws 論文 https://arxiv.org/pdf/2202.01169.pdf
  • 訓練 1.1T 參數 MoE 的 Meta 論文 :https://arxiv.org/pdf/2112.10684.pdf

一些谷歌的論文:

  • https://arxiv.org/pdf/2202.08906.pdf 
  • https://arxiv.org/pdf/2202.09368.pdf 
  • https://arxiv.org/pdf/2205.10937.pdf
  • https://arxiv.org/pdf/2202.08906.pdf
  • https://openreview.net/pdf?id=23ZjUGpjcc

4.FlashAttention

圖片

論文地址:https://arxiv.org/pdf/2205.14135.pdf

FlashAttention 是一種架構變革,能以更少的內存訪問量完成注意力處理。它對注意力矩陣進行切片和增量化的 softmax 約簡,并避免了在后向傳播過程中存儲整個中間注意力矩陣。論文指出,與 megatron 相比,它訓練速度提高到 1.7 倍,推理速度提高到 4 倍多(上下文長度越長,倍數越大)。在此之前,另一篇文章 (https://arxiv.org/pdf/2112.05682.pdf) 也在 TPU 上采用了同樣的方法,實現了 O (log_n) 內存占用。

5. 編碼器 + 解碼器

圖片

論文地址:https://arxiv.org/pdf/1706.03762.pdf

根據 Transformer 的原始論文,編碼器 - 解碼器架構最初是為翻譯任務而設計的。經典的 GPT 架構交替使用注意力和 MLP 模塊。原始的 Transformer 則采用了編碼器塊和解碼器塊。編碼器塊的結構是:注意力機制 → MLP;解碼器塊的結構是:掩蔽注意力→ 編碼器 - 解碼器注意力 → MLP。對于許多序列到序列的任務來說,例如 AlphaCode 或 T5,這也是一個合理的架構。

6. 平行注意力

圖片

論文地址:https://arxiv.org/pdf/2204.02311.pdf

PaLM 使用平行注意力。即在訓練模型時,注意力層和 MLP 層并行運行,使用相同的向量。如此一來,就可以將注意力和前饋矩陣乘法合并在一起,從而提升運算強度,獲得更好的性能(PaLM 的訓練速度提升了 15%)。GPT-J 也使用了這種方法。

7. 可供選擇的激活方案:GeGLU,SwiGLU,SoLU

圖片

論文地址:https://arxiv.org/pdf/1706.03762.pdf

最初的 Transformer 論文使用 ReLU 來激活 MLP 模塊。它在兩個線性變換(matmuls)之間進行簡單的 x if > x = 0 else 0。從直觀上看,這有點草率。GeLU 與 ReLU 類似,但要平滑一些。

圖片

論文地址:https://transformer-circuits.pub/2022/solu/index.html

SoLU(Softmax)簡單地說就是 x*softmax (x),用于提高模型的可解釋性。

圖片

論文地址:https://arxiv.org/pdf/2002.05202.pdf

SwiGLU 是所列論文中最復雜的,也是 Noam Shazee 的個人論文。它建立在門控線性單元的基礎上,旨在比 ReLU 更穩定,并在 GLU 之前進行 swish 運算。與 GeLU 一樣,它軟化了 ReLU,允許某些值低于零。

8.LayerNorm 的替代方案:DeepNorm,RMSNorm

LLM 每個區塊有兩次 norm(一次用于注意力,一次用于前饋),它會執行一些歸一化功能以改進訓練。

圖片

DeepNorm 論文地址:https://arxiv.org/pdf/2203.00555.pdf)

圖片

RMSNorm 論文地址:https://arxiv.org/pdf/1910.07467.pdf

DeepNorm 和 RMSNorm 可以成為替代方案。RMSNorm(均方根)簡單來說就是數值均值的平方根。還有一種 batch norm,效率很低,用起來似乎不太聰明。

9.RoPE

圖片

  • 論文地址:https://arxiv.org/pdf/2104.09864.pdf
  • 相關 Blog 文章:https://blog.eleuther.ai/rotary-embeddings/

這篇 Blog 文章總結得十分優秀,本文不做贅述。

10.BPE vs SentencePiece Tokenizers

圖片

  • BPE 項目地址:https://huggingface.co/learn/nlp-course/chapter6/5?fw=pt
  • SentencePiece 編碼器項目地址:https://github.com/google/sentencepiece

字節對編碼(Byte Pair Encoding,BPE)是大多數語言模型的默認編碼,最初的 GPT 論文、GPT-3 以及 GPT-3.5 都使用了這種編碼。不使用純 BPE,而使用 SentencePiece 情況的一個明顯原因是,分布不包含空格分隔的單詞,就像 AlphaCode、GLM(中文)和 PaLM(明確是因為多語言)那樣。

11.ALiBi

圖片

論文地址:https://arxiv.org/pdf/2108.12409.pdf

ALiBi(Attention with Linear Biases)是一種長上下文位置嵌入方案,通過根據距離對 qk 分數進行線性偏置,來支持對更長的長度進行外推。BLOOM 用了 ALiBi,Galactica 也嘗試過,但沒有采用。

預訓練后處理技術

1. 采用 PPO 算法的 RLHF

在 RLHF 中,首先要訓練一個獎勵模型,由標注員評估模型生成的數組。然后在 RL 中使用 PPO(近端策略優化),策略生成由獎勵模型評估的輸出,以改進策略。

圖片

Christiano 論文:https://proceedings.neurips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html

Deepmind 的 Sparrow 和 Anthropic 的 LM 都是用 RL (AI|H) F 訓練的,它們都有對話界面。WebGPT 和 GopherCite 一樣,也是用 RLHF 訓練的(后者調用了 RLHPreferences)。我認為,這都起源于 2017 年的 Christiano,它先于 LLM 所有內容,之后才是 2020 年根據人類反饋進行的總結以及 PPO 論文。

圖片

2020 年根據人類反饋進行的總結 https://proceedings.neurips.cc/paper/2020/file/1f89885d556929e98d3ef9b86448f951-Paper.pdf

2.Constitutional

圖片

論文鏈接:https://arxiv.org/pdf/2212.08073.pdf

作為 RLHF 的擴展,Constitutional 基本上是 RLAIF,不過實際上被稱為 CAI。它有一個監督學習階段,在這一階段,只提供幫助的 AI 會生成對抗性 prompt。然后,助手會根據所提供的 constitution(以字符串的形式提供給模型的一組短值)迭代出自己的響應。然后對這些響應進行微調。第二階段就像采用 PPO 的 RLHF,只不過將 AI 反饋替換了。

3.Minerva

圖片

論文地址:https://arxiv.org/pdf/2206.14858.pdf

Minerva 是 Blueshift 團隊于 2022 年 6 月發布的一個數學和科學數據微調模型,執行效果非常好。它是一個來自 PaLM 的 62/540B 微調模型。它的數據集來自 ArXiV 和一些網站,并經過精心預處理,保留了數學格式。

4.Codex

圖片

論文地址:https://arxiv.org/pdf/2107.03374.pdf

Codex 于 2021 年 7 月推出(并支撐了 Github Copilot 的推出),是在 100B token 代碼 (此處為公開的 Github 代碼) 上微調而成的。該論文還首次提出了 HumanEval,即人類編寫的代碼評估。本文最值得注意的是,它證明了代碼數據對代碼性能非常重要,因為 GPT-J 在代碼方面的表現優于 GPT-3。他們還為代碼添加了一些 token,這使壓縮率提高了 30%。

5. 只對 CoTed 輸出進行微調

我忘了哪篇論文是這么做的,但依稀記得他們根據模型的思維鏈輸出對模型進行了微調,結果變得更好。雖然這在意料之中,但是也值得關注。

6.FeedME (SFT)

圖片

論文地址:https://arxiv.org/pdf/2203.02155.pdf

這種方法在 Instruct GPT 論文中有所描述,但這不一定是該方法起源。該方法的起源更加接近下面這篇論文。

圖片

論文地址:https://arxiv.org/pdf/1909.08593.pdf

監督微調使用人工生成的內容,然后用于微調預訓練模型。論文發現,SFT 比基礎預訓練模型表現更好,但 RLHF 比 SFT 表現更好。

7.FLAN

圖片

論文地址:https://arxiv.org/pdf/2109.01652.pdf

FLAN 是一個經過指令調整的模型(在指令格式的 nlp 任務上進行了微調),可提升零樣本性能。

訓練技術

1. 善于設置超參數

沒有論文是專門討論這個的,但正確設置超參數顯然是非常重要的。

通過閱讀以下文章可以獲得一些基準。

  • Chinchilla 論文:https://arxiv.org/pdf/2203.15556.pdf
  • Scalling Laws 論文 https://arxiv.org/pdf/2001.08361.pdf
  • Jane Street 的有關理解批大小的博客文章:https://blog.janestreet.com/does-batch-size-matter/

2. 基于人類反饋的預訓練

圖片

論文地址:https://arxiv.org/pdf/2302.08582.pdf

盡管 PHF(Pretraining with Human Feedback)在預訓練時使用了一種簡單的技術來標記數據,但預訓練往往采用無監督的形式。該方法在訓練時使用兩個條件 token(好的和壞的)預置到樣本中,然后在推理時使用它們進行采樣。該研究還嘗試了其他各種目標(尤其是把壞數據過濾掉),但在 python 風格、PII 和毒性上的評估結果都很差。

3.MuP

圖片

論文地址:https://arxiv.org/pdf/2203.03466.pdf

MuP(Maximal Update Parameterization )是一種參數化方法,這種方法不僅節省了參數掃描計算,而且更接近最優。這篇論文很好地闡述了這一方法的理論依據。

其他

1. 思維鏈(CoT)

圖片

論文地址:https://arxiv.org/pdf/2201.11903.pdf

CoT 是一種讓模型 「step-by-step」思考并產生更好結果的技術,名字起源于上述論文《 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 》。論文描述了發表于 2021 年 2 月的論文《Prompt Programming for Large Language Models:Beyond the Few-Shot Paradigm》中技術的具體應用。

圖片

論文地址:https://arxiv.org/pdf/2102.07350.pdf

2. 工具使用

關于規范工具使用的論文可以最早追溯到 2021 年 12 月的 WebGPT 論文。文中 GPT-3 可以訪問網絡,從而大大增強了模型能力。

論文地址:https://arxiv.org/pdf/2112.09332.pdf

除此以外,DeepMind 還訓練了可以借助 RL 工具來完成各種任務的智能體 ;Meta 發布語言模型 Toolformer,可以教會自己使用工具。

  • DeepMind 論文:https://arxiv.org/pdf/2202.08137.pdf
  • Meta 的 Toolformer:https://arxiv.org/pdf/2302.04761.pdf

3.Fill In the Middle

圖片

論文地址:https://arxiv.org/pdf/2207.14255.pdf

這篇論文描述了一種簡單的數據轉換,它將子字符串從文本中間移到末尾,并要求模型填充中間部分。這樣,模型就能獲得一種對代碼補全等任務非常有用的能力,而不會影響嚴格意義上從左到右任務的性能。

4. 采樣技術:Top-k,Top-p (核),Beam Search

圖片

與 Top -P 有關的論文地址:https://arxiv.org/pdf/1904.09751.pdf

語言模型的輸出基本上是每個可能 token 的 logit,然后將其 softmax 化為概率。將 logits 轉換為 token 的最簡單方法,就是取最有可能的 token。當語言模型有溫度控制時,它將 logits 除以溫度,這使模型對其首選更有信心 / 更沒有信心。Top -K 采樣從該分布中獲取前 K 個 token 和樣本。Top -P 采樣,或稱核采樣,會選擇 tokens 中概率累積排名前 P 個百分比的部分,并從這個選定的部分進行抽樣。

5. 無尾采樣(Tail Free Sampling)

圖片

文章地址:https://www.trentonbricken.com/Tail-Free-Sampling/

無尾采樣是 Top-p 采樣的衍生,之所以這樣命名是為了找到 「尾」,因為 Top-p  采樣可能會在許多 token 具有相似概率的點上被切斷而失敗。上面這篇文章像是說明了無尾采樣能夠更好進行采樣工作的原因,但當涉及到提高模型的創造力和范圍時,沒有很好的基準。

補充地址(文章中提到的其他論文的地址)如下:


  • GPT-2 論文(2018):https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
  • 擴展定律論文:https://arxiv.org/pdf/2001.08361.pdf
  • Transformer 論文 2017:https://arxiv.org/pdf/1706.03762.pdf
  • Turing NLG 論文:https://arxiv.org/pdf/2201.11990.pdf
  • Jurassic J-1 Jumbo 論文:https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf
  • PaLI 論文:https://arxiv.org/pdf/2209.06794.pdf
  • post-Chinchilla 論文:https://arxiv.org/pdf/2207.05221.pdf
  • 有關道德自我糾正的論文:https://arxiv.org/pdf/2302.07459.pdf
  • 近端策略優化論文:https://arxiv.org/pdf/1707.06347.pdf
  • Deepmind 的 Sparrow 論文:https://arxiv.org/pdf/2209.14375.pdf
  • WebGPT 論文:https://arxiv.org/pdf/2112.09332.pdf
  • GopherCite 論文:https://arxiv.org/pdf/2203.11147.pdf
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-16 09:34:10

2017-10-24 14:57:58

AI人工智能機器學習

2018-03-19 14:43:28

2023-12-11 21:59:01

時序分析深度學習自回歸模型

2021-10-06 16:21:32

類型對象Typescript

2019-12-31 10:08:35

架構模式軟件

2019-12-04 07:57:22

6G5G網絡

2019-07-21 08:10:21

技術研發優化

2022-03-02 10:36:37

Linux性能優化

2017-12-08 10:42:49

HBase切分細節

2017-08-28 16:40:07

Region切分觸發策略

2025-09-16 09:05:00

2017-02-24 12:29:20

Android Thi開發板硬件

2018-11-28 10:39:01

5G網絡運營商

2024-07-02 11:16:21

2018-04-26 16:15:02

數據庫MySQLMySQL 8.0

2021-07-01 09:00:00

安全數字化轉型滲透

2022-11-28 08:44:46

死鎖面試線程

2016-05-20 11:26:54

客戶端優化 直播推流

2018-03-31 08:45:52

iPhone交通卡iOS 11.3
點贊
收藏

51CTO技術棧公眾號

三级精品视频久久久久| 色综合色狠狠综合色| 98国产高清一区| 一级黄色免费网站| 久久亚洲精品中文字幕蜜潮电影| 9191成人精品久久| 国产精品国产亚洲精品看不卡| 嫩草研究院在线| 麻豆成人免费电影| 久久久噜噜噜久噜久久| 欧美黄色激情视频| 亚洲大奶少妇| 在线欧美一区二区| 日韩精品综合在线| 97电影在线| 99视频国产精品| 91亚洲精品久久久久久久久久久久| 国产精品黄色网| 91精品国产自产在线观看永久∴| 日韩电影视频免费| 午夜一区二区视频| 成人av免费电影网站| 亚洲综合清纯丝袜自拍| 一本久道久久综合| 三区在线观看| gogo大胆日本视频一区| 亚洲自拍偷拍第一页| 亚洲免费视频二区| 妖精视频成人观看www| 精品国偷自产在线视频99| 亚洲自拍偷拍一区二区| 日韩中文字幕无砖| 欧美日本在线看| 免费观看成人在线视频| av男人的天堂在线观看| 亚洲在线观看免费视频| 永久免费在线看片视频| 成人av毛片| 久久中文娱乐网| 国产日韩欧美亚洲一区| 精品久久久无码中文字幕| 久久精品国产精品亚洲红杏| 国产精品99久久久久久白浆小说| 91九色丨porny丨肉丝| 黄色日韩在线| 欧美激情精品久久久久久蜜臀 | 国产精品区一区二区三区| 久久久久国产精品视频| 天天插天天干天天操| 国产sm精品调教视频网站| 91色在线观看| av在线亚洲天堂| 国产一区 二区 三区一级| 国产欧美婷婷中文| 亚洲一区二区三区网站| 麻豆成人av在线| 国产日产久久高清欧美一区| 这里只有精品6| 美腿丝袜亚洲一区| 成人精品一区二区三区电影免费| 超碰在线97观看| 男女视频一区二区| 国产欧美欧洲在线观看| 91精品国产乱码久久久久| 久久99国内精品| 91亚洲精品视频| 亚洲国产成人精品一区二区三区| 国产成人精品亚洲777人妖| 99高清视频有精品视频| 欧美一区二不卡视频| 北条麻妃国产九九精品视频| 精品高清视频| 国产女主播在线写真| 国产精品女主播av| 国产91在线亚洲| 阿v视频在线观看| 91福利视频久久久久| 不卡的在线视频| 91成人福利| 亚洲精品中文字幕av| 成人性视频免费看| 牛牛国产精品| 69久久夜色精品国产7777| 无码人妻精品一区二区蜜桃色欲| 免费人成在线不卡| 97操在线视频| 高清毛片在线看| 伊人一区二区三区| 黄色a级片免费| 婷婷激情成人| 亚洲精品久久久久久下一站| 51妺嘿嘿午夜福利| 欧美在线免费| 国产成人精品优优av| 国产免费视频一区二区三区| 国产成人在线电影| 日韩成人av电影在线| www在线观看播放免费视频日本| 亚洲成人在线网站| 中文字幕有码av| 国产精品nxnn| 色偷偷综合社区| 亚洲免费激情视频| 麻豆国产欧美日韩综合精品二区| 成人欧美一区二区三区视频 | 超碰精品在线观看| 一区二区三区 在线观看视| 国产av 一区二区三区| 久久精品五月| ts人妖另类在线| 成人欧美一区| 午夜视频一区二区| 久久久久久综合网| 国产成人高清| 午夜精品一区二区三区av| 一二三区在线播放| 26uuu另类欧美| 国产一线二线三线女| 亚洲综合视频| 中文字幕精品av| 亚洲欧美偷拍一区| 成人动漫av在线| 伊人网在线免费| 欧美少妇激情| 国产一区二区三区在线观看网站| 国产精品111| 国产成人h网站| 异国色恋浪漫潭| 成人免费一区| 亚洲天堂2020| 久久99国产综合精品免费| 成人在线一区二区三区| 久久视频免费在线| 99久久久成人国产精品| 最近中文字幕日韩精品| 亚洲视屏在线观看| 久久女同性恋中文字幕| 777久久久精品一区二区三区| 亚洲天堂中文字幕在线观看| 久久中文字幕在线视频| 在线免费看91| 国产精品久久99| 天天干天天爽天天射| 欧美伦理在线视频| 国产精品毛片a∨一区二区三区|国 | 亚洲一区二区自偷自拍 | 天天视频天天爽| 极品美女一区二区三区| 国产91久久婷婷一区二区| 男女污视频在线观看| 日韩欧美中文在线| 国产精品高清无码在线观看| 美日韩精品视频| 日本一区二区三区视频在线观看| 神马久久资源| 国产亚洲精品激情久久| 中文字幕男人天堂| 亚洲欧美一区二区视频| 992kp免费看片| 午夜久久福利| 精品国产综合久久| 精品91久久| 在线亚洲国产精品网| 在线视频1卡二卡三卡| 综合久久一区二区三区| 在线观看网站黄| 精品1区2区3区4区| 精品一区二区视频| 91超碰碰碰碰久久久久久综合| 亚洲最大中文字幕| 国产精品久久久久久久免费看 | 青青草原网站在线观看| 伊人www22综合色| 97久久超碰福利国产精品…| 麻豆影视在线| 6080yy午夜一二三区久久| 18精品爽视频在线观看| 99久久综合狠狠综合久久| 黑森林福利视频导航| 久久资源中文字幕| 成人区精品一区二区| 三上悠亚激情av一区二区三区| 中文字幕视频在线免费欧美日韩综合在线看| 中文字幕观看视频| 亚洲一区二区三区自拍| 国产精品一二三区在线观看| 激情综合色播五月| 成人午夜免费在线| 日韩美女一区二区三区在线观看| 亚洲影视中文字幕| 亚洲福利影院| 日韩有码视频在线| 日本1级在线| 91麻豆精品国产91久久久久| 在线观看亚洲欧美| 亚洲欧美视频在线观看| 久久精品综合视频| 精品午夜久久福利影院| 草草久久久无码国产专区| 五月天久久久| 欧美一区1区三区3区公司| 久久免费福利| 国产精品久久久| hd国产人妖ts另类视频| 深夜福利亚洲导航| 香蕉国产在线视频| 日韩欧美成人午夜| 免费在线观看av的网站| 亚洲成人动漫一区| 欧美日韩亚洲国产另类| 国产日韩欧美不卡在线| 人妻体内射精一区二区三区| 精品一区二区三区视频在线观看| 91av资源网| 午夜激情一区| 一本二本三本亚洲码| 国产欧美日韩视频在线| 精品久久久久久亚洲| 欧美一级大片在线视频| 国产精品美乳在线观看| 桃色一区二区| 人体精品一二三区| 极品美鲍一区| 欧美激情亚洲视频| 最新av在线播放| 俺去亚洲欧洲欧美日韩| 国产二区视频在线观看| 国产婷婷色综合av蜜臀av| 成人无码一区二区三区| 日韩欧美一区二区在线视频| 在线视频 中文字幕| 欧美亚洲日本国产| 不卡av电影在线| 欧美性黄网官网| 免费观看一区二区三区毛片| 午夜一区二区三区在线观看| 久久成人国产精品入口| 一区二区三区在线免费视频| 成人在线观看高清| 亚洲欧美激情小说另类| 欧美第一页在线观看| 亚洲特黄一级片| 51精品免费网站| 亚洲欧美综合另类在线卡通| 日韩国产第一页| 亚洲图片激情小说| 91香蕉视频在线播放| 综合自拍亚洲综合图不卡区| 日本爱爱小视频| 亚洲精品综合在线| 免费网站看av| 婷婷六月综合亚洲| 国产成人愉拍精品久久| 日韩欧中文字幕| 探花国产精品一区二区| 欧美日韩欧美一区二区| 91肉色超薄丝袜脚交一区二区| 欧美日韩高清不卡| 国产成人a人亚洲精品无码| 精品免费日韩av| 亚欧洲精品视频| 亚洲欧美日韩在线高清直播| 国产一级片在线播放| 久久精品亚洲一区| 污片视频在线免费观看| 91精品国产乱码久久久久久久久 | 成人a免费视频| 精品中文字幕一区二区三区| 国产成人精品一区二区三区福利| 久久综合社区| 色婷婷精品国产一区二区三区| 色999日韩| 91视频 - 88av| 久久激情久久| 九九精品久久久| 成人国产一区二区三区精品| 亚洲av综合一区二区| 中文字幕中文字幕一区二区| 麻豆一区二区三区精品视频| 欧美日韩一区二区在线播放| 亚洲一级视频在线观看| 欧美岛国在线观看| 黄色美女网站在线观看| 麻豆国产va免费精品高清在线| 国产美女福利在线观看| 国产suv精品一区二区三区88区| 亚洲精品伊人| 久久精品日产第一区二区三区| 色综合五月天| 日韩中文字幕在线免费| 看电视剧不卡顿的网站| 免费不卡的av| 亚洲欧美综合网| 国产成人精品777777| 欧美精品丝袜中出| 丰满人妻一区二区| 亚洲午夜小视频| 男插女视频久久久| 国产精品一区二区三区在线播放| 国产精品tv| 97精品国产97久久久久久粉红| 亚洲一区自拍| 欧美一区二区三区影院| 欧美经典一区二区三区| xxxxxx国产| 337p亚洲精品色噜噜| 狠狠v欧美ⅴ日韩v亚洲v大胸| 欧美老少配视频| 久久99久久久精品欧美| 久久久久久九九| 国内精品嫩模av私拍在线观看| 韩国中文字幕av| 2021久久国产精品不只是精品| 久草成人在线视频| 欧美乱熟臀69xxxxxx| 欧美成人免费| 91国内产香蕉| 91精品国产自产精品男人的天堂| 亚洲一二三区精品| 久久免费国产| 国产传媒第一页| 亚洲高清免费视频| www.黄色片| 草民午夜欧美限制a级福利片| 成人一区视频| 色狠狠久久av五月综合|| 久久综合网络一区二区| 国产老熟女伦老熟妇露脸| 亚洲一二三区在线观看| 99草在线视频| 久久国产精品影视| 亚洲日本中文| 最新精品视频| 国产原创一区二区三区| 多男操一女视频| 69精品人人人人| 伊人影院在线视频| 亚洲综合中文字幕68页| 在线成人超碰| 九色91porny| 一区二区三区日韩| 亚洲第一页视频| 久久久久久美女| 国产香蕉精品| 内射国产内射夫妻免费频道| zzijzzij亚洲日本少妇熟睡| 日本在线观看视频网站| 亚洲精美色品网站| 国产白浆在线免费观看| 麻豆av一区二区三区久久| 久久不射网站| www.狠狠爱| 欧美日韩一区二区三区高清| 午夜在线小视频| 91视频九色网站| 国产精品jizz在线观看美国| 野战少妇38p| 精品久久久视频| 九一在线视频| 国产视频观看一区| 午夜国产欧美理论在线播放| 国产伦精品一区二区免费| 色先锋aa成人| 日本中文字幕在线2020| 2022国产精品| 国产一区二区三区久久久久久久久| 亚洲熟妇一区二区三区| 欧美影院一区二区| 羞羞的视频在线观看| 国产精品久久久久久久免费大片 | 飘雪影院手机免费高清版在线观看| 日韩免费观看网站| 天天精品视频| 亚洲精品乱码久久久久久不卡 | 亚洲精品久久久久久无码色欲四季| 欧美激情视频一区二区| 最新亚洲精品| 一起草最新网址| 欧美性猛xxx| 黄色在线免费| 久久99精品久久久久久秒播放器 | 在线视频精品| 69xxx免费| 精品卡一卡二卡三卡四在线| 国产日韩电影| 视色,视色影院,视色影库,视色网| 成人av资源站| 91成人国产综合久久精品| 久久久久久国产精品| 日韩片欧美片| 无码人妻aⅴ一区二区三区| 欧美另类久久久品| 欧美私密网站| 超级碰在线观看| 久久久电影一区二区三区| 99精品视频免费看| 日韩av黄色在线观看| 欧美涩涩视频| 91av手机在线| 精品五月天久久|