精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind研究成本大起底,一篇ICML論文燒掉1290萬美元

人工智能 新聞
DeepMind最近被ICML 2024接收的一篇論文,完完全全暴露了他們背靠谷歌的「豪橫」。一篇文章預估了這項研究所需的算力和成本,大概是Llama 3預訓練的15%,耗費資金可達12.9M美元。

發一篇頂會論文,需要多少實驗預算?

最近,DeepMind發表了一項研究,對LLM擴大規模時各種算法和架構細節,比如參數和優化器的選擇,進行了廣泛的實證調查。

這篇論文已被ICML 2024接收。

圖片

論文地址:https://arxiv.org/abs/2407.05872

63頁的論文涵蓋了數以萬計的模型,備選方案包括3種優化器、4種參數化方案、幾種對齊假設、十多個學習率,以及最高達26.8B的14種參數規模。

圖片

需要進行實驗的4種參數化方案

僅僅聽到這些數字,就不難知道,這項研究必定涉及海量的模型運行實驗。

而有一位忠實讀者,為了測試自己對論文內容的理解,統計了其中進行的所有實驗,并估算出了復現論文的成本。

圖片

將所需算力全部加在一起,林林總總,居然達到了驚人的1290萬美元。

考驗基本功的時刻到了,假如你是研究團隊的leader,根據實驗計劃對所需算力和成本進行預估是一項必不可少的技能。

那就讓我們跟著這篇博客文章盤一遍,這一千多萬美元,究竟燒在哪里。

Transformer架構信息

論文附錄C提供了關于模型算法和架構的各種細節設置,比如使用decoder-only架構、層歸一化、GeLU激活函數、無dropout、T5分詞器、批大小為256、用FSDP并行等等。

圖片

實驗模型的參數規模統計

通過架構方面的信息,我們可以大致估算出訓練中每個token所需的FLOPS,記為M。

由于論文沒有描述到任何GQA/MQA機制,所以就假設Rkv=1,此外還有lseq=512,Dhead=128,L=8(深度),V=32101(分詞器詞匯量)。

模型總參數量可以表示為:

圖片

因此,就可以得到M的計算公式:

圖片

默認情況下,每次實驗處理的token數(tokens per experiment, TPE)為5k(訓練步數)×256(批大小)×512(lseq),約為6.5536e9。

def M(d: int, L=8, l_seq=512, V=32101) -> int:
    return 6*d * (L*(12*d + l_seq) + V)
TPE = 50000 * 256 * 512

對齊實驗

假設對齊實驗中,直接使用了后面的學習率掃描得出的最優結果,并沒有單獨進行學習率掃描,因此這一步的成本計算比較簡單:

圖片

def alignment() -> int:
    return 4 * TPE * sum(M(d) for d in [1024,2048,4096])
# >>> f'{alignment():.3E}'
# '3.733E+20'
# >>> cost_of_run(alignment())[0]
# 888.81395400704

如果H100每運行1小時的花費以3美元計算,對齊實驗的成本大致為888美元。

學習率

子問題:最佳評估損失(eval loss)實驗

論文的表E1記錄了6種模型規模下,所有可能的優化器×參數化方案×模型大小×實驗設置的組合,分別進行基礎學習率掃描,以獲得最佳評估損失。

圖片

總共包括如下幾個實驗變量:

- 模型維度D∈3072,4096,6144,8192,12288,16384

- 4種參數化方案

- 3種優化器,其中SGD僅有5個實驗設置,Adam和Adam+Param Scaling有7個實驗設置

假設這里的實驗都是單獨進行,沒有從其他地方復制結果,因此如果全部運行一遍,有成本上限預估:

圖片

H = [1,2,4,6,8,12,16,20,24,32,48,64,96,128]
D = [h * 128 for h in H]
def table_e1() -> int:
  sets_x_optims = 5 + 7 + 7
  return 4 * sets_x_optims * TPE * sum(M(d) for d in D[-6:])
# >>> f'{table_e1():.3E}';cost_of_run(table_e1())
# '1.634E+23'
# (388955.9991064986, 16206.499962770775)

這部分的成本就接近40萬美元,雖然仍屬于可接受范圍內,但對于大多數學術預算來說,已經算是非常昂貴了。

表E1給出了最佳評估損失,但沒有描述LR的掃描策略,每張圖上的點數也不盡相同。

圖片

由于沒有得到論文作者的答復,我們也無法確定具體機制,因此假設每個最佳評估損失都經過了15次實驗(目測發現,每條線的點數約為10~15)。

β參數

根據論文4.2節內容,學習率還涉及到兩個超參數的選擇:β和γ。

圖片

如果僅有β參數,則被稱為「LR+default」設置:

圖片

這部分包括3×優化器,4×參數化,加上全局和單層(GlobalLR、Perlayer-fullalign)分別進行實驗,以及未知的LR掃描數量:

圖片

def beta_only() -> int:
  return 3*4*2*PpL * TPE * sum(M(d) for d in D)
# 7.988E+23 (1902022.3291813303, 79250.93038255542)

從公式就可以看出,成本和下文的epsilon實驗類似,都是200萬美元。

γ參數

相比β參數的實驗,這部分有兩個細節差異。

首先,除了GlobalLR、Perlayer-fullalign兩種設置外,還需要加上Perlayer-noalign設置。

圖片

其次,僅針對d=1024=b,進行3D超參數搜索(γ_1,γ_h,γ_L+1),因此有額外的800次運行。

圖片

兩者結合后的計算公式為:

圖片

這部分的預估成本與Adam的epsilon熱力圖實驗接近,約為320萬美元。

def gamma_expts() -> int:
  return 36*TPE * (800*M(1024) + PpL*sum(M(d) for d in D))
# gamma_expts 1.354E+24 (3224397.534237257, 134349.8972598857)

Adam優化器的Epsilon參數

論文4.3節所述的Epsilon參數實驗是計算量的大頭。

圖片

圖片

根據上面的推斷,每次找到最佳評估損失時都嘗試過15個不同的學習率(points per line),那么圖6所示的epsilon參數變化圖耗費的計算量為:

圖片

計算結果透露出一種簡潔的昂貴,也就是200萬美元的賬單而已。

PpL = 15 # unprincipled estimate
def eps_variants() -> int:
  return 4 * 6 * PpL * TPE * sum(M(d) for d in D)
'''
>>> f'{eps_variants():.3E}';cost_of_run(eps_variants())
'7.988E+23'
(1902022.3291813303, 79250.93038255542)
'''

除了圖6左側的折線圖,還有附錄F熱力圖的結果。

圖片

假設每個方塊值都是經過13次學習率掃描后得到的結果,這部分計算量則為:

圖片

結果發現,僅僅要得到這8張熱力圖,成本就是320萬美元。而且,由于我們將LR掃描數量建模為常數13,這個數字可能低于實際成本。

def eps_heatmaps() -> int:
  # eps-type * eps-val * parameterizations * LR range * ...
  return 2 * 6 * 4 * 13 * TPE * sum(M(d) for d in D[-6:])
'''
>>> f'{eps_heatmaps():.3E}';cost_of_run(eps_heatmaps())
'1.341E+24'
(3193533.466348094, 133063.89443117057)
'''

權重衰減

權重衰減實驗(附錄G)比較好理解,對4×參數化方案以及所有參數進行一次基本的LR掃描:

圖片

比epsilon實驗便宜不少,也就是灣區工程師一年的工資——31.7萬美元。

def weight_decay() -> int:
  return 4 * PpL * TPE * sum(M(d) for d in D)
'''
>>> f'{weight_decay():.3E}'; cost_of_run(weight_decay())
'1.331E+23'
(317003.7215302217, 13208.488397092571)
'''

Adafactor優化器

這部分實驗在附錄C3中有詳細描述,是為了檢驗Adafactor和Adam+parameter scaling是否有相似的寬度縮放機制。

圖片

共有2×4張圖,其中每個優化器收集11個數據點,因此計算公式為:

圖片

賬單上再加18.8萬美元。

def adafactor() -> int:
  return 2*2*4*PpL*TPE*sum(M(d) for d in D[:11])
'''
>>> f'{adafactor():.3E}'; cost_of_run(adafactor())
'7.918E+22'
(188532.80765144504, 7855.533652143543)
'''

計算最優化

論文嘗試改變注意力頭H的數量,希望找到計算最優化的設置,但其中涉及步長和數據集的改變,因此這部分不使用公式描述,計算代碼如下:

def P(d: int, L=8, V=32101) -> int:
    return 2 * d * (6*L*d + V)

def compute_optimal():
  indices_50k = (14, 14, 12)
  return 4*PpL*sum([
    TPE * sum(sum( M(d) for d in D[:i] ) for i in indices_50k),
        20  * sum(P(d)*M(d) for d in D[:11]) *3,
  ])
# compute_optim 7.518E+23 (1790104.1799513847, 74587.67416464102)

總結

將以上各部分實驗的算力和成本匯總在一起:

alignment       3.733E+20 (888.81395400704, 37.033914750293334)
table_e1        1.634E+23 (388955.9991064986, 16206.499962770775)
eps_variants    7.988E+23 (1902022.3291813303, 79250.93038255542)
eps_heatmaps    1.341E+24 (3193533.466348094, 133063.89443117057)
beta_only       7.988E+23 (1902022.3291813303, 79250.93038255542)
gamma_expts     1.354E+24 (3224397.534237257, 134349.8972598857)
weight_decay    1.331E+23 (317003.7215302217, 13208.488397092571)
adafactor       7.918E+22 (188532.80765144504, 7855.533652143543)
compute_optim   7.518E+23 (1790104.1799513847, 74587.67416464102)

結果發現,整篇論文的運算量為5.42e24 FLOPS。

這個數字僅僅是Llama 3訓練計算量的15%,如果在10萬卡H100集群上運行,只需要2天時間即可完成所有實驗。

total_flops=5.421E+24
rental price: US$12.9M
h100 node months required: 746.9595590938408

(sanity check) D=[128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 4096, 6144, 8192, 12288, 16384]
(sanity check) model sizes: ['0.00979B', '0.0227B', '0.058B', '0.106B', '0.166B', '0.325B', '0.534B', '0.794B', '1.1B', '1.87B', '4.02B', '6.97B', '15.3B', '26.8B']
(sanity check) M/6P: ['63.4%', '68.5%', '75.3%', '79.7%', '82.8%', '86.8%', '89.3%', '91.0%', '92.2%', '93.9%', '95.7%', '96.7%', '97.7%', '98.3%']

然而,如果不從LLM預訓練的標準來衡量,僅把DeepMind的這篇論文看做一篇學術研究,這個計算量就顯得相當奢侈了。

如果實驗室僅有10張H100,就根本不可能進行這個量級的研究。

有100張H100的大型實驗室,或許能用幾年時間跑完以上所有實驗。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-07-03 10:58:35

DeepMind深度學習

2020-09-04 16:38:01

網絡攻擊勒索軟件數據泄露

2023-06-21 11:10:12

人工智能AI

2021-08-01 12:04:03

數據泄露漏洞信息安全

2021-05-04 21:22:35

勒索軟件數據恢復網絡攻擊

2021-08-03 15:04:13

數據泄露漏洞信息安全

2012-02-10 09:34:02

2015-08-25 14:23:07

數據

2009-02-25 09:27:47

微軟游戲學習能力

2023-07-25 13:59:29

谷歌論文

2017-03-06 16:43:04

無人駕駛Google X懸滑板

2023-07-25 13:39:00

2021-09-16 09:02:59

數據泄露漏洞成本

2021-04-30 11:31:42

勒索軟件攻擊組織

2021-10-11 14:07:28

比特幣虛擬貨幣加密貨幣

2021-08-15 21:35:08

數據泄露漏洞信息安全

2021-05-18 14:32:25

勒索軟件攻擊數據泄露

2021-03-15 09:50:01

漏洞網絡安全網絡攻擊

2020-10-15 12:31:45

安全合規成本IT安全

2023-09-10 10:45:37

模型人工智能
點贊
收藏

51CTO技術棧公眾號

中文字幕在线免费看线人| www.国产在线视频| 国产精品久久久久久久久毛片| 亚洲a在线视频| 日韩欧美国产精品一区| 国产又黄又大又粗视频| av在线免费一区| 国产精品一二三在| 浅井舞香一区二区| 四虎884aa成人精品| 秋霞蜜臀av久久电影网免费| 欧美亚洲尤物久久| bt天堂新版中文在线地址| 国内在线免费高清视频| 国产成人精品免费看| 国产不卡精品视男人的天堂| 欧美久久久久久久久久久久| 蜜臀91精品国产高清在线观看| 欧美一级理论性理论a| 免费午夜视频在线观看| 性欧美ⅴideo另类hd| 国产欧美精品一区| 国产精品日韩高清| 国产老妇伦国产熟女老妇视频| 亚洲综合电影一区二区三区| 久久在精品线影院精品国产| www.av天天| 国内露脸中年夫妇交换精品| 欧美精品久久久久久久多人混战| 国产在线青青草| 日本中文字幕中出在线| 国产精品国产三级国产三级人妇| 蜜桃狠狠色伊人亚洲综合网站| 国产黄a三级三级三级| 日本中文在线一区| 青草青草久热精品视频在线网站| 久久精品99国产精| 在线精品视频在线观看高清| 色偷偷9999www| 无码少妇精品一区二区免费动态| 色婷婷久久久| 亚洲国产精品免费| 中文字幕第九页| 视频精品二区| 日韩欧美一级片| 想看黄色一级片| 91精品一区| 欧美高清dvd| 亚洲欧美偷拍另类| 亚洲综合视频| 91精品国产91久久久久久最新毛片| www.这里只有精品| 成人亚洲网站| 欧美三级电影在线观看| 在线观看亚洲色图| 123成人网| 欧美在线视频不卡| 天天色综合社区| 91成人福利社区| 88在线观看91蜜桃国自产| 国产高清999| 国产精品va视频| 日韩欧美自拍偷拍| 蜜臀aⅴ国产精品久久久国产老师| 欧美一级大片在线视频| 日韩午夜激情视频| 妖精视频一区二区| 国产伦精品一区二区三区免费优势 | 国产精品福利在线观看| 久久久久久亚洲av无码专区| 蜜桃91丨九色丨蝌蚪91桃色| 成人精品aaaa网站| 亚洲国产www| 91丨porny丨国产| 日韩免费三级| 直接在线观看的三级网址| 亚洲综合色视频| 免费高清在线观看免费| 91综合国产| 欧美一卡在线观看| 特级西西人体wwwww| 精品99久久| 成人444kkkk在线观看| 国产无码精品视频| 老司机午夜精品视频在线观看| 国产噜噜噜噜久久久久久久久| aaaa一级片| 久久综合999| 一区二区三区欧美在线| 欧美日韩经典丝袜| 色哟哟一区二区在线观看| www.色欧美| 美女主播精品视频一二三四| 亚洲人成自拍网站| 尤物在线免费视频| 每日更新成人在线视频| 91亚洲精品一区二区| 亚洲av片一区二区三区| ...xxx性欧美| 国产综合免费视频| 欧洲一区在线| 中文字幕av一区| 国产大片aaa| 久久99国产乱子伦精品免费| 久久婷婷开心| 先锋成人av| 欧美日韩精品一区二区三区四区 | 国产精品沙发午睡系列| 国产精品2区| 国产一区二区三区日韩欧美| 久久99久久久| 激情五月播播久久久精品| 鲁丝一区二区三区免费| 黄色片网站在线| 色婷婷综合久久久久中文| 佐佐木明希电影| 小处雏高清一区二区三区| 清纯唯美亚洲激情| 少妇无码一区二区三区| 一区二区三区国产豹纹内裤在线| 婷婷激情四射五月天| 亚洲+变态+欧美+另类+精品| 欧美乱妇高清无乱码| 中文字幕人妻丝袜乱一区三区| 成人av在线资源网站| 米仓穗香在线观看| 日韩电影精品| 国产亚洲一区二区精品| 日韩欧美在线观看免费| 99免费精品在线| 男人天堂a在线| 日韩一区二区三区精品| 久久精品欧美视频| 亚洲一卡二卡在线| 国产日产欧美精品一区二区三区| 欧洲黄色一级视频| 美女视频亚洲色图| 91极品女神在线| 少妇无码一区二区三区| 午夜久久久久久电影| 亚洲视频 中文字幕| 极品中文字幕一区| 成人在线视频电影| 黄网av在线| 337p日本欧洲亚洲大胆色噜噜| 免费在线视频观看| 成人一区二区在线观看| 日本免费a视频| 国产女人18毛片水真多18精品| 欧美精品www| 人妻偷人精品一区二区三区| 亚洲成人7777| 亚洲黄色在线网站| 欧美专区一区二区三区| 奇米精品在线| 成人免费在线观看视频| 视频一区视频二区国产精品 | 麻豆传媒一区二区三区| 综合操久久久| 亚洲精品v亚洲精品v日韩精品| 九九热精品视频| 韩国av免费在线| 精品久久久中文| 国产精成人品免费观看| 麻豆成人在线观看| 日韩精品一区二区在线视频 | 亚洲欧美日本国产有色| jizzyou欧美16| 久久午夜a级毛片| 精品区在线观看| 午夜精品久久久久久久久久久| 亚洲制服丝袜在线播放| 日韩av中文字幕一区二区三区 | 成人免费av片| 奇米在线7777在线精品| 99热这里只有精品7| 成人精品毛片| 国产精品毛片a∨一区二区三区|国| 午夜毛片在线| 精品卡一卡二卡三卡四在线| 天天干天天干天天操| 国产精品美日韩| 亚洲午夜精品在线观看| 亚洲在线免费| 日本在线视频www色| 免费萌白酱国产一区二区三区| 国产精品大片wwwwww| 在线不卡日本v二区707| 日韩精品中文字幕久久臀| 一本到在线视频| 亚洲高清三级视频| 精品无码国产污污污免费网站| 激情成人综合网| 欧美牲交a欧美牲交aⅴ免费真| 国产精品久久久久久麻豆一区软件 | 精品亚洲男同gayvideo网站| 在线观看国产精品入口男同| 一区二区三区在线观看欧美| 日韩人妻无码一区二区三区| 国产一区三区三区| 国产免费一区二区三区视频| 一区二区三区在线电影| 日韩偷拍一区二区| 久久激情av| 91老司机在线| 手机看片久久| 久久免费视频在线| 黄色一级片在线观看| 亚洲欧美国产日韩中文字幕| 国产夫妻自拍av| 欧美日韩精品欧美日韩精品一| 国产a∨精品一区二区三区仙踪林| 最新久久zyz资源站| 男人天堂av电影| av一区二区不卡| 亚洲在线观看网站| 青青国产91久久久久久| 波多野结衣家庭教师在线播放| 欧美 日韩 国产 一区| 亚州欧美一区三区三区在线| 欧美五码在线| 国产91精品入口17c| 国产免费区一区二区三视频免费 | 亚洲国产高清不卡| 一级性生活大片| 不卡电影免费在线播放一区| 男人的天堂免费| 国产一区二区在线免费观看| 欧美成人福利在线观看| 石原莉奈在线亚洲二区| 久草资源站在线观看| 国产欧美日本| 欧美,日韩,国产在线| 狠狠爱www人成狠狠爱综合网 | 成人小视频免费看| 久久久综合九色合综国产精品| 国产十八熟妇av成人一区| 国产成人午夜片在线观看高清观看| 一区二区久久精品| 韩国精品久久久| 亚洲精品国产久| 精品无码三级在线观看视频| 中文字幕成人免费视频| 奇米影视一区二区三区| 天堂在线资源视频| 日本亚洲视频在线| gogogo高清免费观看在线视频| 六月丁香综合在线视频| 深夜黄色小视频| 精品无人区卡一卡二卡三乱码免费卡| 亚洲怡红院在线| 国产一区不卡视频| 人妻 丝袜美腿 中文字幕| 成人午夜激情在线| 国产精品福利导航| 久久久久国产精品厨房| 黄色国产在线播放| 最新欧美精品一区二区三区| 欧产日产国产v| 天天操天天干天天综合网| 色婷婷av国产精品| 欧美性欧美巨大黑白大战| 国产剧情精品在线| 亚洲精品一区二区三区精华液 | 中文子幕无线码一区tr| 国产视频123区| 亚洲精品视频在线观看网站| 久一视频在线观看| 日韩欧美aⅴ综合网站发布| 波多野结衣午夜| 91精品国产aⅴ一区二区| 少妇一级淫片免费看| 亚洲最新av在线| av片在线观看| 欧美与欧洲交xxxx免费观看| 巨胸喷奶水www久久久 | 夜夜躁狠狠躁日日躁2021日韩| 日本不卡一区二区三区在线观看| 欧美电影三区| 亚洲精品蜜桃久久久久久| 免播放器亚洲| www.成人黄色| 久久尤物电影视频在线观看| 久久久久麻豆v国产| 亚洲一区二区三区在线| 免费黄色小视频在线观看| 91精品国产福利| 黑人与亚洲人色ⅹvideos| 成年无码av片在线| 黄瓜视频成人app免费| 99国产盗摄| 精品免费在线| 国产欧美日韩小视频| 男男视频亚洲欧美| 91视频在线免费| 亚洲欧洲日本在线| 手机在线看片1024| 日韩精品中文字幕在线不卡尤物 | 国产丝袜在线精品| 久草视频免费播放| 欧美乱妇20p| 欧美精品a∨在线观看不卡 | 国产精品2024| 欧美午夜激情影院| 五月天精品一区二区三区| 一级黄色片免费看| 亚洲精品一区二三区不卡| 久久亚洲导航| 91色琪琪电影亚洲精品久久| 国产成人高清| 久激情内射婷内射蜜桃| 国产一区二区三区在线看麻豆| 一级片手机在线观看| 亚洲午夜精品17c| 国产女人爽到高潮a毛片| 国产午夜精品一区二区三区| a天堂资源在线| 97影院在线午夜| 小处雏高清一区二区三区| 天天爱天天操天天干| 久久蜜桃av一区精品变态类天堂 | 一起操在线播放| 欧美综合色免费| 欧美在线一卡| 51ⅴ精品国产91久久久久久| 亚洲一区二区三区四区电影| 免费看av软件| 久久精品国产亚洲一区二区三区| www.av天天| 欧美中文字幕一区| 成人在线观看一区| 国产激情视频一区| 国产精品欧美三级在线观看| 美女福利视频在线| 久久精品视频免费| 欧产日产国产69| 亚洲欧美成人一区二区在线电影| 一区二区电影免费观看| 久久久久久国产精品mv| 国产精品久久久久久久久久妞妞| 在线观看免费视频国产| 亚洲综合精品自拍| 亚洲国产精品久久久久久6q| 欧美激情第99页| 成人资源在线播放| 国产日本在线播放| 99久久综合99久久综合网站| 久久久国产精品成人免费| 日韩成人av在线| 免费亚洲电影| 日韩欧美亚洲v片| 麻豆一区二区三区| 在线观看美女av| 日韩女优毛片在线| а√在线中文网新版地址在线| 国产欧美一区二区在线播放| 亚洲深夜福利| 极品蜜桃臀肥臀-x88av| 7777精品伊人久久久大香线蕉| 国产乱色在线观看| 国产 高清 精品 在线 a| 一本色道久久综合亚洲精品高清| 日本黄色动态图| 在线观看网站黄不卡| 婷婷视频在线| 99re在线视频观看| 翔田千里一区二区| 2014亚洲天堂| 欧美本精品男人aⅴ天堂| 黄视频免费在线看| 日本成人三级电影网站| 久久99国产精品久久| 久久久久成人片免费观看蜜芽| 日韩成人免费视频| 精品福利在线| 久操手机在线视频| 久久久99精品久久| 99久久精品国产一区二区成人| 欧美精品aaa| 成人av国产| 免费观看一区二区三区| 色综合久久综合中文综合网| 国产原厂视频在线观看| 国内精品久久久久久久果冻传媒| 日韩av中文字幕一区二区 | 在线观看麻豆| 都市激情久久久久久久久久久| 老司机免费视频久久| 欧美色图亚洲视频| 亚洲欧美一区二区激情| 免费观看性欧美大片无片| 男人操女人免费软件| 亚洲人成人一区二区在线观看| 无码国产伦一区二区三区视频| 国产精品揄拍一区二区| 国产欧美日本| 久久老司机精品视频| 中文字幕在线亚洲| 香蕉久久夜色精品国产更新时间| 91热视频在线观看|