精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ChatGPT平替「小羊駝」Mac可跑!2行代碼單GPU,UC伯克利再發70億參數開源模型

人工智能 新聞
130億參數模型權重公布不久,UC伯克利LMSys org再次發布了70億參數「小羊駝」。同在今天,Hugging Face也發布了70億參數模型StackLLaMA。

自從Meta發布「開源版ChatGPT」LLaMA之后,學界可謂是一片狂歡。

先是斯坦福提出了70億參數Alpaca,緊接著又是UC伯克利聯手CMU、斯坦福、UCSD和MBZUAI發布的130億參數Vicuna,在超過90%的情況下實現了與ChatGPT和Bard相匹敵的能力。

今天,「卷王」UC伯克利LMSys org又發布了70億參數的Vicuna——

不僅體積小、效率高、能力強,而且只需兩行命令就能在M1/M2芯片的Mac上運行,還能開啟GPU加速!

圖片

項目地址:https://github.com/lm-sys/FastChat/#fine-tuning

恰在今天,Hugging Face的研究人員也發布了一個70億參數的模型——StackLLaMA。這是一個通過人類反饋強化學習在LLaMA-7B微調而來的模型。

Vicuna-7B:真·單GPU,Mac就能跑

距離模型的發布不到一周,UC伯克利LMSys org便公布了Vicuna-13B的權重。

其中,單GPU運行需要大約28GB的顯存,而在僅用CPU的情況下需要大約60GB的內存。

而這次發布的70億參數版本,則要小巧得多——需求直接砍半。

也就是說,用單個GPU運行Vicuna-7B,只需14GB+顯存;而純CPU運行的話,則只需30GB+內存。

不僅如此,我們還可以通過Metal后端,在配備了蘋果自研芯片或者AMD GPU的Mac上啟用GPU加速。

圖片

之前在13B模型發布時,有不少網友吐槽道:

我以為的單個GPU:4090

實際上的單個GPU:28GB顯存及以上

圖片

圖片

現在,這個問題也有了新的解決方案——利用8位壓縮直接減少一半左右的內存用量,只不過模型的質量會略有下降。

13B模型28GB顯存瞬間變14GB;7B模型14GB顯存瞬間變7GB,有沒有!(但由于activation的緣故,實際占用會比這個高)

對此,LMSys org的研究人員表示,如果遇到內存或顯存不夠用的情況,可以通過在上述命令中加入--load-8bit來啟用8位壓縮。

而且,無論是CPU、GPU還是Metal,是7B模型還是13B模型,通通適用。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --load-8bit

StackLLaMA:超全RLHF訓練教程

今天,Hugging Face研究人員發布了一篇博客StackLLaMA:用RLHF訓練LLaMA的實踐指南。

圖片

當前大型語言模型ChatGPT、GPT-4和Claude都使用了人類反饋強化學習(RLHF)來微調模型的行為,以產生更符合用戶意圖的響應。

在此,HF研究者通過以下方式組合使用,訓練了LlaMa模型使用RLHF回答Stack Exchange上的所有步驟:

· 監督微調 (SFT)

· 獎勵/偏好建模(RM)

· 人類反饋強化學習 (RLHF)

要注意了!

訓練StackLLaMA的主要目標是提供一個教程和指南,介紹如何使用RLHF來訓練模型,而不是主要關注模型的性能表現。

圖片

換句話說,該模型在生成答案方面非常滑稽,比如問它「我的花園里有一只駱駝,怎樣才能把它趕走?」

StackLLaMA最后給出的一個總括「如果以上方法都不奏效,就要召集增援了。如果有不止一個人想抓住這個奇特的小家伙,為什么不召集一個團隊呢?齊心協力,集中力量,這個問題應該很快就解決了」。

在進行RLHF時,最重要的是從一個強有力的模型開始。因為RLHF只是一個微調步驟,以便讓模型與我們期望的互動方式和響應方式相一致。

當前,Meta開源的LLaMA模型參數大小從7B到65B不等,并且在1T到1.4T的token上進行了訓練,是目前開源比較強大的模型。

因此,研究人員使用7B模型作為后續微調的基礎。

在數據集選用上,研究人員使用了StackExchange數據集,包括所有的問題和答案(還有StackOverflow和其他主題)。

選用該數據集的好處是,答案伴隨著點贊數和接受答案的標簽一起給出。

研究人員根據A General Language Assistant as a Laboratory for Alignment論文中描述的方法,給每個答案打分:

score = log2 (1 + upvotes) rounded to the nearest integer, plus 1 if the questioner accepted the answer (we assign a score of ?1 if the number of upvotes is negative).


對于獎勵模型,始終需要每個問題兩個答案來進行比較。

而有些問題有幾十個答案,導致可能存在許多的可選對。因此,研究者對每個問題最多采樣十個答案對,以限制每個問題的數據點數。

最后,通過將HTML轉換為Markdown來清除格式,使模型輸出更可讀。

訓練策略

即使訓練最小的LLaMA模型也需要大量的內存。通過計算7B 參數模型將使用(2+8)*7B=70GB 內存空間。當計算注意力分數等中間值時,可能需要更多。因此,即使在單個80GB的A100上也無法訓練該模型。

一種方法是使用更高效的優化器和半精度訓練,將更多信息壓縮到內存中,但內存仍舊不夠用。

另一種選擇是使用參數高效微調(PEFT)技術,例如PEFT庫,它可以在8位模型上執行低秩適應(LoRA)。

線性層的低秩適應: 在凍結層(藍色)旁邊添加額外參數(橙色),并將結果編碼的隱藏狀態與凍結層的隱藏狀態相加。

以8位加載模型大大減少了內存占用,因為每個參數只需要一個字節的權重。比如,7B LLaMA在內存中是7 GB。

LoRA不直接訓練原始權重,而是在一些特定的層 (通常是注意力層) 上添加小的適配器層,因此可訓練參數的數量大大減少。

在這種情況下,一個經驗法則是為每十億參數分配約1.2-1.4GB的內存(取決于批次大小和序列長度),以適應整個微調設置。

這可以以較低成本微調更大的模型(在NVIDIA A100 80GB上訓練高達50-60B規模的模型)。這些技術已經能夠在消費級設備,比如樹莓派、手機,和GoogleColab上對大型模型進行微調。

研究人員發現盡管現在可以把非常大的模型放入當個GPU中,但是訓練可能仍然非常緩慢。

在此,研究人員使用了數據并行策略:將相同的訓練設置復制到單個GPU中,并將不同的批次傳遞給每個GPU。

圖片

監督微調

在開始訓練獎勵模型并使用RL調整模型之前,若要模型在任何情況下遵循指令,便需要指令調優。

實現這一點最簡單的方法是,使用來自領域或任務的文本繼續訓練語言模型。

為了有效地使用數據,研究者使用一種稱為「packing」的技術:在文本之間使用一個EOS標記連接許多文本,并切割上下文大小的塊以填充批次,而無需任何填充。

通過這種方法,訓練效率更高,因為通過模型的每個token也進行了訓練。

獎勵建模和人類偏好

原則上,研究人員可以使用RLHF直接通過人工標注對模型進行微調。然而,這需要在每次優化迭代之后將一些樣本發送給人類進行評級。

由于需要大量的訓練樣本來實現收斂,人類閱讀和標注速度固有的延遲,不僅昂貴,還非常緩慢。

因此,研究人員在RL調整模型之前,在收集的人工標注上訓練一個獎勵模型。獎勵建模的目的是模仿人類對文本的評價,這一方法比直接反饋更有效。

在實踐中,最好的方法是預測兩個示例的排名,獎勵模型會根據提示X提供兩個候選項,并且必須預測哪一個會被人類標注員評價更高。

通過StackExchange 數據集,研究人員根據分數推斷出用戶更喜歡這兩個答案中的哪一個。有了這些信息和上面定義的損失,就可以修改transformers.Trainer 。通過添加一個自定義的損失函數進行訓練。

class RewardTrainer(Trainer):def compute_loss(self, model, inputs, return_outputs=False):
rewards_j = model(input_ids=inputs["input_ids_j"], attention_mask=inputs["attention_mask_j"])[0]
rewards_k = model(input_ids=inputs["input_ids_k"], attention_mask=inputs["attention_mask_k"])[0]
loss = -nn.functional.logsigmoid(rewards_j - rewards_k).mean()
if return_outputs:
return loss, {"rewards_j": rewards_j, "rewards_k": rewards_k}
return loss

研究人員利用100,000對候選子集,并在50,000對候選的支持集上進行評估。

訓練通過Weights & Biases進行記錄,在8-A100 GPU上花費了幾個小時,模型最終的準確率為67%。

雖然這聽起來分數不高,但是這個任務對于人類標注員來說也非常困難。

人類反饋強化學習

有了經過微調的語言模型和獎勵模型,現在可以運行RL循環,大致分為以下三個步驟:

· 根據提示生成響應

· 根據獎勵模型對回答進行評分

· 對評級進行強化學習策略優化

圖片

在對查詢和響應提示進行標記并傳遞給模型之前,模板如下。同樣的模版也適用于SFT,RM 和RLHF階段。

Question: <Query>
Answer: <Response>

使用RL訓練語言模型的一個常見問題是,模型可以通過生成完全胡言亂語來學習利用獎勵模型,從而導致獎勵模型得到不合實際的獎勵。

為了平衡這一點,研究人員在獎勵中增加了一個懲罰:保留一個沒有訓練的模型進行參考,并通過計算 KL散度將新模型的生成與參考模型的生成進行比較。

在訓練期間對每個步驟進行批次獎勵,模型的性能在大約1000個步驟后趨于穩定。

圖片


責任編輯:張燕妮 來源: 新智元
相關推薦

2023-04-04 13:17:00

GPUCMU開源

2023-03-31 13:55:00

模型智能

2023-04-07 09:28:31

模型訓練

2023-07-01 13:27:55

2024-12-02 08:20:00

2023-06-21 13:44:57

模型AI

2025-04-18 08:42:52

模型推理AI

2023-04-02 21:39:14

ChatGPT開源

2023-05-04 14:55:02

模型AI

2023-08-05 13:45:46

模型AI

2023-06-21 13:20:14

系統模型

2025-04-10 10:02:43

2025-01-22 15:21:00

2023-04-11 14:16:53

模型AI

2023-05-22 09:28:30

模型AI

2024-03-25 08:30:00

AI數據

2025-04-30 09:09:00

2025-02-11 16:17:42

2025-05-21 08:53:00

2024-11-26 13:40:00

點贊
收藏

51CTO技術棧公眾號

日本 国产 欧美色综合| 少妇精品导航| 亚洲成人动漫在线观看| 久久国产精品-国产精品| 欧美日韩在线视频播放| 99精品小视频| 日韩精品视频免费| 亚洲天堂2018av| 精精国产xxxx视频在线中文版| 99久久久久久| 91在线网站视频| 国产精品免费精品一区| 久久久久免费av| 日韩精品视频三区| 中文字幕亚洲日本| av免费在线一区| 亚洲成av人综合在线观看| 日本一区二区在线视频| 成人毛片在线精品国产| 丝袜脚交一区二区| 久久久久久九九九| 女性裸体视频网站| 天堂99x99es久久精品免费| 欧美人妖巨大在线| 激情六月丁香婷婷| 亚洲精品天堂| 国产精品国产三级国产普通话蜜臀| 国产精品国产一区二区| 一区二区视频播放| 新狼窝色av性久久久久久| 欧美日本精品在线| 欧美另类69xxxx| 九九免费精品视频在线观看| 欧美成人综合网站| 91小视频在线播放| 最新日韩一区| 一本色道a无线码一区v| 可以看毛片的网址| 欧美videossex另类| 综合久久久久久| 亚洲一卡二卡区| 国产系列电影在线播放网址| www.欧美色图| 国产精品免费一区二区三区| 一本久道久久综合无码中文| 日韩中文字幕区一区有砖一区| 97精品久久久| 91久久国产视频| 激情久久一区| 久久久久久久久网站| 国产十六处破外女视频| 在线精品小视频| 久久久久北条麻妃免费看| 91视频免费看片| 日韩精品久久| 国产一区二区三区高清在线观看| 亚洲国产欧美视频| 免费成人av| 亚洲欧美在线x视频| 亚洲一区二区三区综合| 欧美男人操女人视频| 欧美精品一区二区三区高清aⅴ| 天天爽夜夜爽视频| 久久av偷拍| 日韩三级中文字幕| 亚洲v在线观看| 巨人精品**| 亚洲精品中文字幕女同| 亚洲精品色午夜无码专区日韩| 国产精品一在线观看| 国产午夜精品一区二区三区| 日韩毛片无码永久免费看| 欧洲乱码伦视频免费| 色偷偷偷综合中文字幕;dd| 日韩av网站在线播放| 91精品国产成人观看| 九九热99久久久国产盗摄| 国产亚洲精久久久久久无码77777| 亚洲视频高清| 啪一啪鲁一鲁2019在线视频| 精品人妻一区二区三区潮喷在线| 日韩电影一区二区三区四区| 国产中文欧美精品| 免费观看黄一级视频| 91热门视频在线观看| 色99中文字幕| 91在线中文| 日韩欧美高清在线视频| 免费av不卡在线| 风间由美性色一区二区三区四区| 亚洲免费精彩视频| 精品人妻伦九区久久aaa片| 欧美午夜不卡| 国产精品国产亚洲伊人久久| www.天堂av.com| www一区二区| 一区二区在线不卡| 岛国av在线网站| 欧美日韩aaa| 国产伦精品一区二区三区妓女 | 久久青青色综合| 色综合久久久久综合体| 亚洲精品免费一区亚洲精品免费精品一区 | 91精品国产自产在线| 黄色片一区二区| 欧美国产精品一区二区| www.夜夜爱| 成人综合网站| 亚洲精品美女视频| 国产美女久久久久久| 亚洲免费在线| 97超级碰碰| 国产人成在线观看| 亚洲国产色一区| 污污网站免费看| 日韩伦理一区二区三区| 久久九九国产精品怡红院 | 欧美三级日本三级少妇99| 欧美午夜精品一区二区| 99久久精品费精品国产| 热久久免费视频精品| 成人av一区二区三区在线观看 | xxxx日本少妇| 日本不卡在线视频| 精品国产aⅴ麻豆| 国产二区三区在线| 欧美日韩精品欧美日韩精品| 国产精品一级黄片| 在线观看的日韩av| 亚洲综合av影视| 日本中文字幕在线观看| 一本大道久久a久久综合| 天堂www中文在线资源| 亚洲欧美网站在线观看| 国产欧美在线观看| 福利片在线观看| 一本大道综合伊人精品热热 | 国产精品无码免费播放| 中文字幕欧美激情| 成人羞羞国产免费网站| 亚洲va久久| 7777免费精品视频| 日韩一级中文字幕| 精品久久久国产| 国产熟女高潮一区二区三区| 黄色另类av| 国产精品对白刺激久久久| 91麻豆一二三四在线| 这里是久久伊人| 成人在线观看小视频| 精品在线你懂的| 黄色免费高清视频| 国产免费av国片精品草莓男男| 日韩午夜在线视频| 国产精品系列视频| 一卡二卡三卡日韩欧美| 亚洲黄色小说在线观看| 国产一区二区中文| 极品校花啪啪激情久久| 麻豆成全视频免费观看在线看| 精品卡一卡二卡三卡四在线| 久久久99精品| 97精品国产露脸对白| 日本精品一区在线观看| 亚洲精品中文字幕99999| 热门国产精品亚洲第一区在线| 韩国三级在线观看久| 欧美色视频在线| 手机av在线看| 成人国产精品视频| 无码人妻h动漫| 日韩欧美自拍| 99porn视频在线| 国产自产自拍视频在线观看| 亚洲男人天堂久| 中文字幕精品一区二| 最新热久久免费视频| 性高潮久久久久久| 免费日韩一区二区| 在线精品亚洲一区二区| 风间由美中文字幕在线看视频国产欧美 | 在线三级电影| 亚洲精品国产品国语在线| 国产一级片av| 亚洲女人小视频在线观看| av漫画在线观看| 日韩精品一二区| 久久99国产精品一区| 国产精品欧美大片| 国产精品美女久久久久久免费| 国精产品一区| 日韩大陆欧美高清视频区| 中文字幕你懂的| 亚洲图片自拍偷拍| 超碰人人人人人人人| 成人三级在线视频| 黄色成人免费看| 精品999成人| 一区二区高清视频| 久久97精品| 成人网在线免费看| 午夜欧美激情| 欧美成人一区二区三区电影| 欧美成人片在线| 日韩午夜中文字幕| 最近中文在线观看| 欧美日韩激情美女| 黄色片子在线观看| 国产日韩精品一区二区三区在线| 欧洲在线免费视频| 日韩电影在线免费观看| 蜜臀av无码一区二区三区| av在线不卡顿| 精品免费日产一区一区三区免费| 青青伊人久久| 琪琪亚洲精品午夜在线| 国产精品国精产品一二| 中文字幕日韩av| 久久久久久久影视| 亚洲精品福利在线观看| 国产wwwwwww| 欧美日韩在线一区二区| 国产三级av片| 亚洲.国产.中文慕字在线| 人妻久久一区二区| 一区二区中文字幕在线| 国产一级久久久久毛片精品| av不卡一区二区三区| 国产sm在线观看| 国产曰批免费观看久久久| 国产精品久久久毛片| 久久精品女人| 日本成年人网址| 日韩视频一区| 成人在线观看你懂的| 国产精品v亚洲精品v日韩精品 | 免费成人黄色| 在线亚洲午夜片av大片| 理论视频在线| 亚洲人成人99网站| 蜜芽tv福利在线视频| 日韩精品久久久久久久玫瑰园 | av在线播放一区二区三区| 在线观看欧美一区二区| 国产寡妇亲子伦一区二区| 日韩av片免费观看| 国模一区二区三区白浆| 手机在线国产视频| 激情久久五月天| www.51色.com| 国产高清不卡一区| 麻豆精品国产传媒| 成人激情免费网站| 亚洲av人人澡人人爽人人夜夜| 岛国一区二区三区| 国产情侣久久久久aⅴ免费| 成人福利在线看| 99久久人妻精品免费二区| 99在线视频精品| 黄色a一级视频| 国产亚洲婷婷免费| 国产探花在线视频| 亚洲男人的天堂在线观看| 久久久久久天堂| 欧美日韩亚洲高清| 日本熟女毛茸茸| 欧美色视频在线| 精品久久久无码中文字幕| 日韩精品一区二区三区swag| 殴美一级特黄aaaaaa| 亚洲精品自在久久| 又爽又大又黄a级毛片在线视频| 按摩亚洲人久久| 欧美xxxx做受欧美88bbw| 97视频在线观看亚洲| 亚洲成人看片| 91九色综合久久| 老牛国内精品亚洲成av人片| 欧美下载看逼逼| 天天射成人网| 国产九九九九九| 免费在线看一区| jjzz黄色片| 国产欧美日韩卡一| 欧产日产国产v| 日韩欧美国产网站| 一级片免费网站| 亚洲第一精品夜夜躁人人爽| 毛片在线播放网站| 九色精品免费永久在线| 范冰冰一级做a爰片久久毛片| 成人日韩av在线| 蜜臀av免费一区二区三区| 日本三日本三级少妇三级66| 国产亚洲精品久久久久婷婷瑜伽| 蜜臀av免费观看| 26uuu欧美| 国产精品 欧美激情| 在线视频国内一区二区| 亚洲AV无码精品色毛片浪潮| 亚洲色图17p| mm视频在线视频| 91九色精品视频| 成人中文视频| 久久久免费视频网站| 国产精品伊人色| 在线看片中文字幕| 狠狠躁夜夜躁人人爽超碰91| 国产精品久久婷婷| 国产一区二区三区在线看 | 亚洲乱妇老熟女爽到高潮的片| 台湾色综合娱乐中文网| 欧美亚洲综合在线| 91成人国产综合久久精品| 亚洲国产精品小视频| 国产剧情在线| 国产日产久久高清欧美一区| 天海翼亚洲一区二区三区| 免费看毛片的网址| 国产久卡久卡久卡久卡视频精品| 国产精品美女高潮无套| 天天色综合天天| 你懂的网站在线| 欧美成人在线免费| 久久影院一区二区三区| 色大师av一区二区三区| 午夜亚洲伦理| 国产xxxx视频| 亚洲精品免费看| 99久久久国产精品无码免费| 亚洲天堂男人的天堂| 偷拍自拍在线看| 国产精品国产亚洲精品看不卡15 | cao在线视频| 国产精品久久中文| 郴州新闻综合频道在线直播| 夜夜添无码一区二区三区| 国产成人免费视频网站高清观看视频| av电影在线不卡| 天天综合色天天| 天堂成人在线观看| 久久999免费视频| 日韩国产在线不卡视频| 亚洲人成网站在线播放2019| 亚洲精品专区| 制服丝袜av在线| 亚洲一区二区三区自拍| 亚洲国产精彩视频| 萌白酱国产一区二区| 精品国产亚洲一区二区三区| 亚洲欧洲久久| 午夜宅男久久久| 男人舔女人下部高潮全视频| 婷婷成人综合网| 青青草超碰在线| 韩剧1988在线观看免费完整版 | 久久国产一区| 国产精品亚洲综合久久| 少妇久久久久久久久久| 色综合久久中文字幕综合网| 久久99久久| 日韩美女视频免费看| 欧美禁忌电影网| 天天综合网久久| 日韩一区欧美小说| 性少妇videosexfreexxx片| 久久99视频免费| 日韩精品导航| 少妇高清精品毛片在线视频 | 在线精品视频小说1| 成人三级黄色免费网站| 国产精品日韩专区| 亚洲国产精品久久久久蝴蝶传媒| 亚洲xxx在线观看| 亚洲色图欧美在线| 天天射天天色天天干| 欧美一区二区.| 日韩欧美一区二区三区免费看| gai在线观看免费高清| 亚洲影院理伦片| 午夜视频在线播放| 国产精品久久久久久久久久久久久久| 成人在线免费观看91| 欧美激情国内自拍| 欧美日韩国产精品一区二区三区四区 | 青青青视频在线免费观看| 欧美日韩国产成人在线免费| 婷婷五月在线视频| 亚洲一区二区三区香蕉| 亚洲婷婷在线| 夜夜春很很躁夜夜躁| 欧美日韩极品在线观看一区| 男人添女人下部高潮视频在线观看| 精品999在线观看| 精久久久久久久久久久| 精品视频一区二区在线观看| 国产亚洲激情在线| 日韩中文字幕| 高潮一区二区三区| 午夜久久久久久|