精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

神級(jí)項(xiàng)目訓(xùn)練GPT-2僅需5分鐘,Andrej Karpathy都點(diǎn)贊

人工智能 新聞
AI 領(lǐng)域大牛 Karpathy 一個(gè)僅用 1000 行代碼即可在 CPU/fp32 上實(shí)現(xiàn) GPT-2 訓(xùn)練的項(xiàng)目「llm.c」曾經(jīng)引發(fā)機(jī)器學(xué)習(xí)社區(qū)的熱烈討論。

還記得 Andrej Karpathy 純 C 語(yǔ)言復(fù)現(xiàn) GPT-2 大模型的項(xiàng)目嗎?

今年 4 月,AI 領(lǐng)域大牛 Karpathy 一個(gè)僅用 1000 行代碼即可在 CPU/fp32 上實(shí)現(xiàn) GPT-2 訓(xùn)練的項(xiàng)目「llm.c」曾經(jīng)引發(fā)機(jī)器學(xué)習(xí)社區(qū)的熱烈討論。

llm.c 旨在大幅簡(jiǎn)化大模型的訓(xùn)練,ta 使用純 C 語(yǔ)言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不過(guò)即使是這樣的優(yōu)化,復(fù)現(xiàn) GPT-2 級(jí)別的模型也需要在 8 塊 H100 上花費(fèi) 45 分鐘進(jìn)行訓(xùn)練。

沒(méi)想到幾個(gè)月過(guò)去,業(yè)界水平居然有了指數(shù)級(jí)的提升,讓 Karpathy 本人都感到驚嘆:

圖片

在 GitHub 上出現(xiàn)了一個(gè)新項(xiàng)目「Modded-NanoGPT」,對(duì)技術(shù)進(jìn)行了大幅度的迭代,現(xiàn)在實(shí)現(xiàn)相同的結(jié)果只需要 5 分鐘。該研究的作者 Keller Jordan 曾在 Hive AI 工作,一直以來(lái)的研究方向都著重于模型訓(xùn)練的優(yōu)化。他在本周三表示,利用具有大序列長(zhǎng)度的 FlexAttention,他已把速度的記錄從 7.2 分鐘提升到了 5 分鐘。

圖片

現(xiàn)在有了 FlexAttention 和較大的 seqlen,文檔的拆分更少了,因此語(yǔ)言建模在訓(xùn)練和驗(yàn)證時(shí)都變得更容易。該記錄在 HellaSwag 上的準(zhǔn)確率略有降低,約為 29%,而之前的記錄和 Andrej Karpathy 的原始訓(xùn)練準(zhǔn)確率約為 30%。

讓我們看看他是怎么做的:

圖片

項(xiàng)目鏈接:https://github.com/KellerJordan/modded-nanogpt/tree/master

Modded-NanoGPT

該項(xiàng)目名為「Modded-NanoGPT」,它是 llm.c 存儲(chǔ)庫(kù)的 PyTorch GPT-2 訓(xùn)練器的改進(jìn)變體:

  • 10B tokens-->1B tokens
  • 8xH100 上花 45 分鐘訓(xùn)練 -->8xH100 上花 5 分鐘訓(xùn)練

Modded-NanoGPT 采用如下技術(shù):

  • 先進(jìn)的架構(gòu):旋轉(zhuǎn)嵌入、QK-Norm 和 ReLU^2;
  • 新優(yōu)化器:Muon;
  • 嵌入中的 Untied Head;
  • 投影和分類(lèi)層初始化為零(muP-like);
  • 架構(gòu) shortcut:值殘差和嵌入 shortcut(部分遵循論文《Value Residual Learning For Alleviating Attention Concentration In Transformers》);
  • 動(dòng)量(Momentum)warmup;
  • Tanh soft logit capping(遵循 Gemma 2);
  • FlexAttention。

要進(jìn)行訓(xùn)練,請(qǐng)運(yùn)行以下三個(gè)命令:

pip install -r requirements.txt
pip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0
python data/cached_fineweb10B.py 10 # downloads only the first 1.0B training tokens to save time
./run.sh

在網(wǎng)絡(luò)連接良好的 8xH100 上,訓(xùn)練應(yīng)在 20 分鐘內(nèi)完成。

結(jié)果將是一個(gè)具有 124M 活躍參數(shù)的 transformer,在 10 億 Fineweb tokens 上訓(xùn)練了 1875 steps,實(shí)現(xiàn)了約 3.278 的驗(yàn)證損失。相比之下,默認(rèn)的 llm.c PyTorch 訓(xùn)練器在 100 億 tokens 上訓(xùn)練了 19560 steps 后,驗(yàn)證損失 >3.28。

值得一提的是,要在更少的 GPU 上運(yùn)行 Modded-NanoGPT,只需修改 run.sh 以獲得不同的 --nproc_per_node。如果內(nèi)存不足,只需在 train_gpt2.py 中將 device_batch_size 縮小到 16 或 32。

這里有一個(gè)適用于全新 8xH100 實(shí)例的啟動(dòng)腳本:

sudo apt-get update
sudo apt-get install vim tmux python3-pip python-is-python3 -y
git clone https://github.com/KellerJordan/modded-nanogpt.git
cd modded-nanogpt
tmux

pip install numpy==1.23.5 huggingface-hub tqdm
pip install --upgrade torch &
python data/cached_fineweb10B.py 18

如果 CUDA 或 NCCL 版本與你當(dāng)前的系統(tǒng)設(shè)置不兼容,Docker 可以成為一種有用的替代方案。這種方法標(biāo)準(zhǔn)化了 CUDA、NCCL、CUDNN 和 Python 的版本,減少了依賴(lài)性問(wèn)題并簡(jiǎn)化了設(shè)置。注意:系統(tǒng)上必須已安裝 NVIDIA 驅(qū)動(dòng)程序。

sudo docker build -t modded-nanogpt .
sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18
sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh

有一個(gè)問(wèn)題在于,NanoGPT 訓(xùn)練很快是很好,但它可能無(wú)法擴(kuò)展,只是過(guò)擬合了 val 損失?Keller Jordan 表示,這很難反駁,因?yàn)椤赴匆?guī)模」是一個(gè)無(wú)限類(lèi)別(如果這些方法對(duì) >100T 的模型就不奏效了怎么辦?),因此無(wú)法完全證明。此外,作者也同意快速運(yùn)行中使用的一些方法不太可能擴(kuò)展。但如果讀者關(guān)心 1.5B 模型,他們可能會(huì)被這個(gè)結(jié)果說(shuō)服:

直接將快速運(yùn)行(10/18/24 版本)擴(kuò)展到 1.5B 參數(shù)可以得到一個(gè)具有 GPT-2(1.5B)級(jí) HellaSwag 性能的模型,它要比 Karpathy 的基線便宜 2.5 倍(233 美元對(duì)比 576 美元):

圖片

圖片

Muon optimizer

除了在前人的肩膀上探索,新項(xiàng)目也使用了 Keller Jordan 自研的優(yōu)化方式。比如這個(gè) Muon 優(yōu)化器,據(jù)他所說(shuō)是目前已知最快的優(yōu)化器,適用于包括 CIFAR-10 和 GPT-2 規(guī)模語(yǔ)言建模在內(nèi)的各種訓(xùn)練場(chǎng)景。

Muon 的定義如下:

其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代,它近似地用 U @ V.T 替換 G,其中 U, S, V = G.svd ()。

@torch.compile
def zeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7):
    assert len (G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16 () / (G.norm () + eps)
    if G.size (0) > G.size (1):
        X = X.T 
    for _ in range (steps):
        A = X @ X.T
        B = b * A + c * A @ A
        X = a * X + B @ X
    if G.size (0) > G.size (1):
        X = X.T 
    return X.to (G.dtype)

對(duì)于這種訓(xùn)練場(chǎng)景,Muon 具有以下有利特性:

  • 內(nèi)存使用量比 Adam 低
  • 采樣效率提高約 1.5 倍
  • 掛鐘開(kāi)銷(xiāo)小于 2%

總結(jié)

作者表示,生成此優(yōu)化器的許多選擇都是通過(guò)追求 CIFAR-10 快速運(yùn)行而通過(guò)實(shí)驗(yàn)獲得的。其中值得一提的經(jīng)驗(yàn)包括:

  • 在更新中使用 Nesterov 動(dòng)量,在動(dòng)量之后應(yīng)用正交化。
  • 使用特定的五次 Newton-Schulz 迭代作為正交化方法。
  • 使用五次多項(xiàng)式的非收斂系數(shù)以最大化零處的斜率,從而最小化必要的 Newton-Schulz 迭代次數(shù)。事實(shí)證明,方差實(shí)際上并不那么重要,因此我們最終得到一個(gè)五次多項(xiàng)式,它在重復(fù)應(yīng)用后(快速)收斂到 0.68、1.13 的范圍,而不是到 1。
  • 在 bfloat16 中運(yùn)行 Newton-Schulz 迭代(而 Shampoo 實(shí)現(xiàn)通常依賴(lài)于在 fp32 或 fp64 中運(yùn)行的逆 pth 根)。

使用 Newton-Schulz 迭代進(jìn)行正交化的方法可以追溯到 Bernstein & Newhouse (2024),他們建議將其作為計(jì)算 Shampoo 預(yù)處理器的方法,并從理論上探索了沒(méi)有預(yù)處理器累積的 Shampoo。Keller Jordan 特別感謝了論文作者之一 Jeremy Bernstein 的協(xié)助。

如果我們?cè)谶@里使用 SVD 而不是 Newton-Schulz 迭代,那么這個(gè)優(yōu)化器就會(huì)因?yàn)樘鵁o(wú)法使用。Bernstein & Newhouse 還指出,沒(méi)有預(yù)處理器累積的 Shampoo 相當(dāng)于譜范數(shù)中的最陡下降,因此 Shampoo 可以被認(rèn)為是一種平滑譜最陡下降的方法。所提出的優(yōu)化器可以被認(rèn)為是平滑譜最陡下降的第二種方法,與 Shampoo 相比,它具有不同的內(nèi)存和運(yùn)行時(shí)權(quán)衡。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2009-03-23 09:07:04

2024-05-30 07:02:00

KarpathyGPT-2人工智能

2023-10-06 19:21:49

Initializr應(yīng)用Spring

2019-06-05 09:42:53

Kafka App 消息隊(duì)列

2025-09-08 08:53:00

2024-07-12 12:46:03

2017-12-15 10:37:22

2025-10-17 17:49:11

GPT-5AI模型

2016-07-11 16:04:26

慧點(diǎn)科技

2024-04-11 12:47:37

AI模型

2021-05-21 06:44:43

AI人工智能GPU

2012-06-28 10:26:51

Silverlight

2023-05-29 09:48:36

AI李飛飛

2022-12-19 10:32:23

算法測(cè)量

2021-08-11 09:47:22

項(xiàng)目Django 管理

2017-03-30 16:09:49

互聯(lián)網(wǎng)

2024-06-12 13:27:58

2024-06-11 08:37:00

2021-08-03 17:00:25

Spring Boot代碼Java

2024-08-27 13:54:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩在线综合网| 亚洲国产99精品国自产| 色综合电影网| 999精品国产| aa亚洲婷婷| 色多多国产成人永久免费网站| 精品国产鲁一鲁一区二区三区| 黄色大片在线| 久久综合九色综合97婷婷女人| 国产精品免费观看在线| 日本少妇高清视频| 亚洲人成精品久久久| 91精品国产高清一区二区三区 | 色屁屁草草影院ccyycom| 黄色成人91| 亚洲欧美国产精品va在线观看| 性生生活大片免费看视频| 97人人爽人人澡人人精品| 国产精品成人一区二区艾草 | 久久久久久久久久久久国产精品| 暖暖成人免费视频| 一区二区三区在线高清| 日本一区二区三区免费观看| 亚洲a视频在线| 日韩va欧美va亚洲va久久| 久久久久国产一区二区三区| 亚洲天堂精品一区| 色天天色综合| 精品国产乱码久久| 国产精品自拍视频在线| 香蕉伊大人中文在线观看| 亚洲精品视频在线| 亚洲制服中文| 搞黄视频在线观看| 91免费国产视频网站| 成人在线视频网| 国产字幕在线观看| 亚洲在线一区| 97在线观看视频国产| 青青草原免费观看| 亚洲高清资源在线观看| 中文字幕日韩欧美在线视频| 精品夜夜澡人妻无码av| 成人性生交大片免费看96| 9191国产精品| 一级黄色录像在线观看| jizz久久久久久| 在线视频欧美精品| 国语对白做受xxxxx在线中国 | 国产精品网站视频| 免费看污视频的网站| 午夜宅男久久久| 7777免费精品视频| 啦啦啦免费高清视频在线观看| 极品av少妇一区二区| 欧美激情区在线播放| 青青草手机在线观看| 欧美三级小说| 久久久久久国产精品三级玉女聊斋| 全网免费在线播放视频入口| 欧美一区久久| 欧美高清一级大片| 久久久久亚洲av成人片| 在线国产欧美| 91精品国产91久久久久| 精品免费囯产一区二区三区 | 日本免费一区二区三区最新| 久久久久国产成人精品亚洲午夜 | 一级黄色电影片| 国产精品久久久网站| 亚洲第一福利网站| 成人网站免费观看| 日本一二区不卡| 久久久黄色av| 久久久久久天堂| 一本久道久久久| 国产z一区二区三区| 中文无码av一区二区三区| 久久精品久久精品| 99免费在线视频观看| 色一情一乱一区二区三区| 久久综合九色综合97婷婷| 视频一区视频二区视频三区视频四区国产| 中文字幕在线播放| 伊人一区二区三区| 国产精品后入内射日本在线观看| 色豆豆成人网| 欧美一级理论片| 一区二区三区免费在线观看视频 | 一级片在线观看免费| 日本女人一区二区三区| 91麻豆桃色免费看| 无套内谢的新婚少妇国语播放| 久久久久国产精品麻豆| 日韩 欧美 自拍| a级片在线免费观看| 91黄色免费版| 在线xxxxx| 成人区精品一区二区婷婷| 欧美精品日韩三级| 精品国产xxx| 国产酒店精品激情| 欧美日韩综合久久| 丝袜中文在线| 精品视频1区2区| 中文字幕av观看| 欧美fxxxxxx另类| 日本亚洲欧美三级| 性少妇videosexfreexxx片| 久久久久国产成人精品亚洲午夜| 三级网在线观看| 成人性生活视频| 精品欧美一区二区在线观看| 天天摸日日摸狠狠添| 亚洲国产导航| 91视频网页| 99青草视频在线播放视| 婷婷久久综合九色国产成人| 17c国产在线| 国产精品自拍区| 国语自产精品视频在线看一大j8| 一级黄色片视频| 久久久亚洲欧洲日产国码αv| 午夜一区二区三区免费| 中文字幕永久在线| 国产一区二区女| 欧美一级片免费观看| 在线免费观看污| 欧美二区视频| 4438全国成人免费| 国产aⅴ爽av久久久久成人| 国产日韩欧美不卡在线| 久激情内射婷内射蜜桃| 欧美日韩黄色| 久久精品2019中文字幕| 亚洲大片免费观看| 99久久99久久精品免费看蜜桃 | 免费国产精品视频| 自拍偷拍亚洲激情| 亚洲综合色在线观看| 欧美极品在线观看| 欧洲亚洲免费视频| 日漫免费在线观看网站| 午夜精品久久久久久久99樱桃| 天天操夜夜操很很操| 久久精品亚洲人成影院 | 亚洲综合网站| 色综合老司机第九色激情| 国产男男gay网站| 亚洲三级在线免费观看| 亚洲日本黄色片| 中文字幕一区二区三区欧美日韩| 91夜夜未满十八勿入爽爽影院| 免费av网站在线观看| 欧美精品aⅴ在线视频| 欧美风情第一页| 国产精品香蕉一区二区三区| 日本a在线天堂| 高清日韩欧美| 97精品伊人久久久大香线蕉| 亚洲第一第二区| 午夜久久久久久久久久一区二区| 91九色蝌蚪porny| 日韩午夜高潮| 欧美另类高清视频在线| 麻豆精品蜜桃| 久久精品视频网站| 精品人妻aV中文字幕乱码色欲| 亚洲综合色自拍一区| 老司机免费视频| 香蕉久久国产| 在线观看免费91| 亚洲激情自拍偷拍| 久久精品99国产精品| 丝袜足脚交91精品| 美女久久久久久| 欧美成aaa人片在线观看蜜臀| 国产熟女一区二区丰满| 亚洲福利视频一区| 久久久无码人妻精品一区| 日韩国产欧美视频| 尤物在线精品| 91亚洲国产成人精品性色| 污污视频在线| 日韩国产精品一区| 中文有码在线播放| 一区二区三区久久久| 亚洲国产欧美视频| 激情欧美一区二区三区在线观看| av一区二区三区免费观看| 亚洲精品推荐| 91免费欧美精品| 末成年女av片一区二区下载| 一本大道久久加勒比香蕉 | 欧美日韩aaa| 久久精品国产亚洲av高清色欲| 久久亚洲二区三区| 小早川怜子一区二区三区| 国产精品久久久久久模特| 一区二区三区四区国产| 久久婷婷国产| 国产一区二区香蕉| 超级碰碰久久| 欧美激情第99页| 91在线视频| 日韩精品免费在线视频观看| 97精品人妻一区二区三区| 精品久久久久久久久久| 黑鬼狂亚洲人videos| 久久久综合网站| 国产51自产区| 黄色精品一二区| www日韩视频| 99精品国产一区二区青青牛奶| 一区二区三区一级片| 久久99国内| 成人激情直播| 白嫩亚洲一区二区三区| 国产精品99一区| 久久影院午夜精品| 欧美区二区三区| 久草中文在线| 色偷偷888欧美精品久久久| 日韩偷拍自拍| 亚洲国产精品女人久久久| av官网在线观看| 欧美美女一区二区三区| 神马久久久久久久| 欧美日韩人人澡狠狠躁视频| 麻豆国产尤物av尤物在线观看| 中文字幕av一区 二区| 亚洲专区区免费| 不卡区在线中文字幕| 无码人妻一区二区三区免费n鬼沢| 激情综合亚洲精品| 激情视频免费网站| 日本美女一区二区三区视频| 日本一本二本在线观看| 99国产一区| 免费成人午夜视频| 99riav国产精品| 亚洲人精品午夜射精日韩 | 亚洲春色一区二区三区| 日韩亚洲国产中文字幕欧美| 国产精品无码久久av| 欧美日产在线观看| 亚洲图片视频小说| 91精品久久久久久久99蜜桃| 国产又黄又大又粗的视频| 欧美日韩在线综合| 青青草激情视频| 国产一级久久| 一区二区传媒有限公司| 日韩午夜精品| 人妻有码中文字幕| 久久精品午夜| 三级在线视频观看| 亚洲无人区码一码二码三码的含义| 亚洲大胆人体大胆做受1| 国产成人综合在线播放| 亚洲一区日韩精品| 精品一二三四区| 一二三av在线| 国产91综合网| www男人天堂| 99国产精品久| 亚洲国产日韩一区无码精品久久久| 久久蜜臀精品av| 欧美日韩国产黄色| 一区二区理论电影在线观看| 国产一级特黄aaa大片| 第一福利永久视频精品| 成年人视频免费| 欧美高清性hdvideosex| 性网爆门事件集合av| 精品视频在线播放色网色视频| 国产精品99999| 久久天堂av综合合色| 久久av色综合| 日本一本a高清免费不卡| 日韩一区二区三免费高清在线观看| 91青青草免费观看| 亚洲精品小区久久久久久| 亚洲一区二区精品在线| 精品99视频| mm1313亚洲国产精品无码试看| 久久国产综合精品| 男男一级淫片免费播放| 欧美韩国日本不卡| 青青草手机视频在线观看| 欧美日韩裸体免费视频| 一级二级三级视频| 亚洲成av人影院在线观看| seseavlu视频在线| 欧美精品精品精品精品免费| 亚洲天堂1区| 国产精品视频在线免费观看| 成人在线一区| 欧美一级免费播放| 久久精品99国产精品日本| 久久久久9999| 亚洲另类春色国产| 国产亚洲欧美日韩高清| 欧美成人精品福利| 最新97超碰在线| 欧美在线视频在线播放完整版免费观看| 久久精品国产精品亚洲毛片| 久久99精品久久久久久久青青日本| 日韩电影在线视频| 每日在线更新av| 国产高清在线观看免费不卡| xxxx日本黄色| 欧美视频13p| 亚洲产国偷v产偷v自拍涩爱| 中文字幕在线看视频国产欧美在线看完整 | 久精品国产欧美| 欧美精品国产| 色乱码一区二区三区在线| 2022国产精品视频| 九热这里只有精品| 欧美日韩你懂的| 久蕉在线视频| 欧美亚洲视频在线观看| 911亚洲精品| 男女啪啪免费观看| 老司机午夜精品| 日本黄色小视频在线观看| 欧美色另类天堂2015| 天堂中文字幕av| 高清视频欧美一级| 亚洲视频一起| 欧美a级黄色大片| 韩国女主播成人在线| 欧美色图17p| 欧美三级三级三级爽爽爽| 国产在线视频网| 国产成人精品日本亚洲专区61| 欧美美女黄色| 5月婷婷6月丁香| 成人激情小说网站| 国产在线观看成人| 精品免费视频一区二区| 欧美xxxx免费虐| 国产亚洲精品美女久久久m| 激情久久五月| 国产麻豆剧传媒精品国产av| 同产精品九九九| 人成在线免费视频| 欧洲成人免费aa| 国产一区2区| 成人亚洲精品777777大片| 国产精品区一区二区三区| 伊人久久国产精品| 日韩在线欧美在线国产在线| 91嫩草国产线观看亚洲一区二区 | 亚洲一区中文字幕| 亚洲五月综合| 在线观看亚洲免费视频| 精品国产乱码久久久久酒店| 视频一区二区三区在线看免费看 | 国产又粗又猛又爽又| 一区二区国产精品视频| 粉嫩91精品久久久久久久99蜜桃 | 久久高清国产| av电影在线不卡| 5858s免费视频成人| 污污在线观看| 蜜桃麻豆www久久国产精品| 日韩综合小视频| 亚洲色图27p| 精品奇米国产一区二区三区| 瑟瑟视频在线看| 亚洲欧美99| 高清在线成人网| 无码人妻丰满熟妇精品区| 日韩中文有码在线视频| 亚洲图色一区二区三区| 欧美色图另类小说| 国产精品欧美综合在线| 亚洲精品国产一区二| 欧美在线激情视频| 亚洲成人日韩| 亚洲综合网在线观看| 欧美高清视频不卡网| 91高清视频在线观看| 水蜜桃一区二区三区| 成人av免费在线观看| 亚洲天堂中文网| 91国在线精品国内播放| 日韩av密桃| 妖精视频一区二区| 欧美视频日韩视频| 毛片在线导航| 亚洲精品欧美精品| 暴力调教一区二区三区| 在线观看日韩一区二区| 亚州欧美日韩中文视频| 久久影院一区| aaaaa一级片| 欧美sm极限捆绑bd|