精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama 2第二波劃重點:過于「謹慎」、代碼生成改進空間大

人工智能 新聞
上周,Meta 發(fā)布了免費可商用的開源大模型 Llama 2,來自 Huggingface 的機器學習科學家 Nathan Lambert 根據(jù)論文內容迅速寫了一篇分析文章來梳理 Llama 2 的技術要點,現(xiàn)在他又寫了一篇后續(xù)文章來補充內容,以下是文章原文。

有用 VS 無害

有人發(fā)現(xiàn),Llama-2-chat 在安全過濾器方面表現(xiàn)出一些過于敏感的行為。即使是詢問一些無害的事情,比如「如何制作辣椒蛋黃醬」或「如何終止一個進程」,結果會導致該模型瘋狂地表示它無法做到,如下圖所示:

對于這種現(xiàn)象,一種常見的理論解釋是使用 RLHF(Reinforcement Learning from Human Feedback)方法太久導致的,這也揭示了大型語言模型領域的趨勢。在 RLHF 中,訓練期間使用的主要性能指標是偏好模型(preference model)中獎勵的單調增加。這就存在兩個問題:a)訓練時使用的獎勵模型是不完整的。b)忽視了對中間訓練技巧的有效評估。

只要我們訓練的獎勵模型在驗證集上只能達到 65-75% 的準確率,模型就會因為過長時間的 RLHF 而出現(xiàn)這種情況。當模型對于獎勵模型采取過多優(yōu)化步驟時,它會過于偏向該獎勵模型喜歡的行為,如果對模型進行更全面的評估可能會得出不同的結論。

目前還沒有一個有效且全面的解決方案,但是本文作者的團隊正在嘗試在 RL 訓練的每個 epoch 中使用 MT Bench 和其他自動的 NLP 評估方法。目前,至少在對話模型領域,LLM 的訓練與用戶期望非常不匹配。

Meta 的評估顯示,對話模型可能有兩個潛在的致命弱點:

1、該模型據(jù)會拒絕回答高達 27%的邊緣問題,這與初創(chuàng)公司 Anthropic 的研究緊密相關。Anthropic 提出一種方案:首先開發(fā)出一個有用的語言模型,然后再讓這個語言模型無害,因為同時進行這兩項工作會導致模型出現(xiàn)「回避行為」。Meta 應該正在想辦法解決這個問題。

這種「有用性 VS 無害性」之間的權衡是開源社區(qū)面臨的根本問題。如下圖(右)所示,模型在「邊緣數(shù)據(jù)集」上拒絕回答的情況驟增。

圖片

2、獎勵模型集成方法還有一個重要問題 —— 在有些情況下會出現(xiàn)高度分歧 —— 例如,有用性很強、安全性很低時應該怎么做,反之亦然,如下圖所示:

圖片

顯然,這種集成方法雖然是一個很棒的技術創(chuàng)新,但還需要進一步改進。

如今,在人工智能領域,「公開(public)」這個概念被極度濫用,網絡上的信息和數(shù)據(jù)被視為公開的,但事實卻并非如此。Meta 無法明確地說明他們是否涉嫌侵犯了版權或服務條款,但毫無疑問的是,Meta 在訪問數(shù)據(jù)和文檔方面還有很大的改進空間。

推理與微調

現(xiàn)在有很多方法可以讓 7b 或 13b 的大模型在 GPU 上運行,并且將很快就可以在 iPhone 上運行。

但 70b 的更大模型要復雜一些。有研究表明 70b 的模型在加載 4 位量化的情況下會使用 36-38GB 的 VRAM。如果將量化增加到 8 位(float16),內存預計會相應地增加。而在任何單個 GPU 上使用完整的、非量化模型會非常困難。

在文本生成推理方面,HuggingFace 提供了如下 GPU 建議:

  • 對于 7B 模型,建議選擇 "GPU [medium] - 1x Nvidia A10G";
  • 對于 13B 模型,建議選擇 "GPU [xlarge] - 1x Nvidia A100";
  • 對于 70B 模型,建議選擇 "GPU [xxxlarge] - 8x Nvidia A100"。

HuggingFace 社區(qū)成員重新編寫了 HuggingFace Transformers 的部分代碼,使其對 Llama 模型更加節(jié)省內存、更快速,并支持使用 RoPE 方法擴展上下文長度。

具體來說,這種改進使 Llama 2 70B 模型在序列長度是 4096 時推理速度約為 10.5 tokens / 秒,并且沒有出現(xiàn)內存溢出的情況。同時,序列長度為 8192 時,推理速度為每秒 8 tokens / 秒,仍然沒有內存溢出。

在微調方面,使用 TRL 庫(Transformer Reinforcement Learning)就可以很容易地運行有監(jiān)督的微調,你可以在 T4 GPU 上訓練 Llama 2 7B 模型,甚至可以在單個 A100 GPU 上訓練 70B 模型。這說明這種技術是相當容易實現(xiàn)的,大多數(shù)消費級 GPU 都可以用于微調 7B 或 13B 的模型變體。值得注意的是,RLHF 方法需要在內存中存儲更多的梯度計算。

然而,Open LLM 排行榜的榜首仍然是從 LLaMA v1 微調出來的模型,為什么會這樣?

有些討論表明,這似乎是因為排行榜上缺乏足夠多的評估類型(即將進行更改),在評估集上或類似的數(shù)據(jù)集上微調模型很容易獲得更高的性能。隨著時間的推移,使用相同數(shù)據(jù)集微調 Llama 2 得到的模型幾乎肯定會性能更好。

此外,Llama 2 還有一些值得關注的方面,包括:

工具的應用:Llama 2-Chat 僅通過語義就能夠理解工具的應用和 API 參數(shù),盡管其從未接受過使用工具的訓練。將 LLM 用作工具具有極大的潛力。為了推動其發(fā)展,我們需要一些標準的評估環(huán)境。

Prompt 方面的問題:prompt 可能是導致回避行為的問題所在。Llama 2 的 prompt 是個需要持續(xù)關注的問題,因為根據(jù) LLaMA v1 的評估結果,prompt 是導致不一致結果的重要因素。

代碼生成:Llama 2 在代碼生成方面不夠好,很多人表示他們更愿意使用 ChatGPT。關于這一點,Yann Lecun 暗示 Meta 可能會再發(fā)布一個版本。

有趣的商業(yè)許可:Meta 的許可規(guī)定,在發(fā)布時擁有超過 7 億活躍用戶的公司不能商業(yè)化使用該模型。

Ghost 注意力

許多語言模型都存在一個問題:你在第一輪告訴它做某事(例如「用海盜的風格回答」,那么經過一兩輪對話后模型就會忘記這個要求。

Meta 在論文中解釋了這種多輪指令的要求:

在對話設置中,有些指令應該適用于所有對話輪次,例如簡潔地回答,或者「扮演」某個角色。

為了讓 Llama 2 有效地遵循多輪指令,Meta 提出了 Ghost Attention(GAtt),這是一種類似于上下文蒸餾的新方法。GAtt 并不是必須實現(xiàn)的步驟,但它確實能讓語言模型更好地遵循多輪指令。

RLHF 的一些細節(jié)

RS

訓練過程:Llama 2 使用的損失函數(shù)實際上并不是那么清楚。在 Meta 的論文中,他們說使用了迭代式訓練,因此實際結果與 PPO(Proximal Policy Optimization)并沒有太大的區(qū)別,但他們并未對損失函數(shù)進行詳細說明。這有點讓人難以理解,該研究幾乎肯定是在高獎勵樣本上使用了 LLM 的標準自回歸預測損失,而這對結果有很大影響。

研究團隊觀察到拒絕采樣(RS)重新訓練樣本會導致模型能力退化。為了解決這個問題,他們重新引入了過去版本中的高分樣本,改善了模型性能。這是 RLHF 方法中常見的對獎勵模型過擬合的一種形式。

所有較小的對話模型都是在大模型的數(shù)據(jù)上進行訓練的,ChatGPT 很可能也是這樣訓練的。這是因為科技公司希望充分利用其最大和最優(yōu)模型的出色推理能力,將其優(yōu)勢延續(xù)下去。

在采樣過程中,他們使用高溫度(high temperature)參數(shù)來獲得多樣化的輸出,并增加批量樣本的最大獎勵。

必須根據(jù)模型和批量大小(batch size)逐漸調整溫度參數(shù)。Llama 2 的論文中有很多關于溫度參數(shù)的內容,不太清楚有多少是針對特定情況的。

你可以參考如下項目的內容來更好地理解 Llama 2 模型:

項目地址:https://github.com/lvwerra/trl/blob/main/examples/notebooks/best_of_n.ipynb

PPO

在 Llama 2 中,PPO 的實現(xiàn)包含很多罕見的技巧,并繼續(xù)簡化了 RLHF 方法,包括:

  • 使用了 InstructGPT 中提出的 SFT 約束項,通過在損失函數(shù)中添加額外的項來比較人類注釋者編寫的文本與模型生成結果之間的距離,以保持模型分布接近人類書寫示例。
  • 使用來自偏好集合的安全 tag,將生成結果傳遞給安全性偏好模型。這種方法很可能在未來會應用到更多的模型中,也有可能 GPT-4 模型已經使用了該方法。
  • 對最后的線性層得分進行白化(whiten)處理以穩(wěn)定訓練。本質上講,Llama 2 的研究創(chuàng)建了一個不同的線性層,幫助梯度在獎勵模型中表現(xiàn)得更好。這是一個有趣的技巧。

以上就是 Nathan Lambert 關于 Llama 2 的第二篇分析文章的主要內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-22 13:24:36

分析模型

2024-05-11 07:57:47

因果推斷知識地圖算法

2023-07-20 14:28:23

實測AI

2022-05-27 10:59:22

LinuxSystemd

2015-08-12 11:41:39

Windows 10更新

2010-07-16 13:52:30

Ubuntu 10.1

2018-06-26 09:50:55

服務器企業(yè)運維

2019-01-04 09:12:01

系統(tǒng) 人工智能 數(shù)據(jù)

2024-11-27 14:30:00

模型訓練

2014-11-19 10:53:22

802.11ac路由

2016-03-18 11:29:04

工業(yè)4.0智造+峰會

2019-01-14 15:16:07

2020-04-28 08:55:11

MySQL數(shù)據(jù)庫

2015-06-12 09:47:04

云計算第二波公有云

2023-11-16 15:58:00

訓練數(shù)據(jù)

2009-07-21 08:41:52

Linux內核開源操作系統(tǒng)Intel

2020-12-23 10:44:21

網絡安全新基建漏洞
點贊
收藏

51CTO技術棧公眾號

国产主播一区二区三区| 欧美日韩性在线观看| 亚洲风情在线资源站| 国语精品免费视频| 无码人妻久久一区二区三区 | 91久久国产自产拍夜夜嗨| 久草免费在线视频观看| 亚洲精品456| 欧美人与禽zozo性伦| 男女日批视频在线观看| 国产黄色免费在线观看| 国产乱码精品一区二区三区av| 欧美激情手机在线视频| 四虎国产精品成人免费入口| 日韩护士脚交太爽了| 亚洲国产日韩一区二区| 无遮挡亚洲一区| 亚洲欧美高清视频| 日本美女一区二区三区视频| 欧美成人免费在线观看| 免费看黄色的视频| 玖玖玖视频精品| 色哟哟欧美精品| 国产91在线亚洲| 国产九九在线| 成人激情文学综合网| 国产区精品在线观看| 91看片在线播放| 婷婷成人基地| 夜夜躁日日躁狠狠久久88av| 欧美肉大捧一进一出免费视频| 黄色精品视频| 精品久久久久久亚洲国产300| 在线视频福利一区| 电影在线高清| 91亚洲午夜精品久久久久久| 91精品在线影院| 久久精品偷拍视频| 国产欧美大片| 久久久噜噜噜久久中文字免| 很污很黄的网站| 成人在线免费小视频| 日韩激情av在线播放| 色悠悠在线视频| 成人在线分类| 欧美日韩久久久一区| 日韩一级在线免费观看| 人在线成免费视频| 五月激情丁香一区二区三区| 久久久久久av无码免费网站下载| 免费高清在线观看| 国产精品不卡在线观看| 色999五月色| 可以在线观看的av| 91麻豆免费观看| 久久久久国产精品视频| 欧美视频久久久| 成人一区在线看| 高清日韩一区| 人妻一区二区三区| 成人av免费在线播放| 丁香五月网久久综合| 精品人妻一区二区三区蜜桃| 国产精品综合一区二区| av成人在线电影| 成人av无码一区二区三区| 国产乱子轮精品视频| 97在线中文字幕| 亚洲精品国产精品国| 国产成人av福利| 国产精品视频入口| 天堂影院在线| 国产婷婷色一区二区三区四区| 麻豆蜜桃91| 成年人在线看| 国产精品大尺度| 亚洲国产一二三精品无码| 污网站在线免费看| 亚洲www啪成人一区二区麻豆| 拔插拔插海外华人免费| 国产无遮挡裸体视频在线观看| 欧美日韩国产一区在线| 成人性做爰aaa片免费看不忠| 成人一区视频| 日韩一本二本av| 一级特黄a大片免费| 国产一区不卡| 欧美成人精品一区二区三区| 精品小视频在线观看| 噜噜爱69成人精品| 91久久国产婷婷一区二区| 免费观看毛片网站| 国产亚洲欧美一级| 久久国产精品免费观看| 欧美三级网站| 7777精品伊人久久久大香线蕉最新版 | 91久久精品一区二区三区| 国产成人黄色网址| 草莓视频一区二区三区| 国产亚洲成精品久久| 欧洲猛交xxxx乱大交3| 在线视频精品| 国产日本欧美一区| 头脑特工队2免费完整版在线观看| 国产欧美日韩在线观看| 久久福利一区二区| 日本欧美日韩| 欧美一区二区三区日韩视频| 一级国产黄色片| 欧美成人milf| 57pao精品| 99久久久无码国产精品免费| 久久一区二区三区四区| 欧美xxxx吸乳| 午夜av成人| 亚洲精品成人免费| 日韩一级片av| 久久国产生活片100| 久久大片网站| 尤物在线网址| 欧美电影影音先锋| 色噜噜日韩精品欧美一区二区| 欧美成人综合| 成人免费视频97| 久草视频视频在线播放| 亚洲成a人片综合在线| 久国产精品视频| 精品日本12videosex| 98精品在线视频| 国产精品一区二区三区在线免费观看 | 久久观看最新视频| 麻豆网站免费在线观看| 91精品一区二区三区久久久久久| 亚洲第一成人网站| 狠狠色综合网| 亚洲自拍偷拍视频| 色欧美激情视频在线| 色欧美乱欧美15图片| 双性尿奴穿贞c带憋尿| 黑丝一区二区三区| 91久久爱成人| 新版中文在线官网| 日韩免费性生活视频播放| 91n在线视频| 久久精品国产77777蜜臀| 色一情一乱一伦一区二区三区| 亚洲精品mv| 亚洲欧美一区二区精品久久久| 日韩欧美高清在线观看| av网站一区二区三区| 欧美一级片免费播放| 丁香五月缴情综合网| 欧美—级a级欧美特级ar全黄| 国产wwwxxx| 一区二区三区国产豹纹内裤在线| 三级黄色片免费观看| 91精品成人| 91高跟黑色丝袜呻吟在线观看| 菠萝菠萝蜜在线观看| 日韩欧美视频一区| 日产精品久久久久久久| av色综合久久天堂av综合| 成人在线免费观看av| 国产a久久精品一区二区三区| 国产成人精品电影久久久| 成人jjav| 在线播放91灌醉迷j高跟美女| 天天综合天天做| 国产成人免费网站| 久久综合色视频| 国产区精品区| 国产精品嫩草视频| 99在线视频观看| 精品91自产拍在线观看一区| 羞羞影院体验区| 国产欧美一区在线| 亚洲一二三av| 一本久道综合久久精品| 奇米888一区二区三区| 精品福利在线| 欧美激情一区二区三区高清视频| 午夜在线视频观看| 欧美日韩另类国产亚洲欧美一级| 免费视频一二三区| 91丝袜高跟美女视频| 欧美午夜aaaaaa免费视频| 欧美淫片网站| 久久一区二区三区欧美亚洲| 国产亚洲精彩久久| 久久久久久美女| av在线二区| 精品蜜桃在线看| 蜜臀尤物一区二区三区直播| 亚洲品质自拍视频网站| 少妇户外露出[11p]| 韩国视频一区二区| 黄色免费福利视频| 综合在线一区| 欧美重口乱码一区二区| 麻豆精品在线| 全球成人中文在线| 欧美性猛片xxxxx免费中国| 亚洲欧洲一区二区三区久久| 国产欧美久久久| 在线亚洲欧美专区二区| 久久久久亚洲AV| 中文字幕在线观看不卡视频| 日韩免费高清一区二区| 精品一区二区三区在线观看国产| 妞干网在线视频观看| 91精品国产乱码久久久久久久| 久久久久久久久久久久久久一区| 少妇高潮一区二区三区99| 欧美与欧洲交xxxx免费观看 | 国产精品18hdxxxⅹ在线| 国产精品视频男人的天堂| www欧美xxxx| 成人97在线观看视频| 东热在线免费视频| 日韩精品在线影院| 成人精品在线播放| 欧美精品乱人伦久久久久久| 久久精品视频7| 无码av中文一区二区三区桃花岛| 911国产在线| 中文字幕乱码一区二区免费| 久久久久久久无码| 成人免费的视频| av影片在线播放| 国内成人免费视频| 91丨九色丨蝌蚪| 日韩成人一区二区三区在线观看| 又粗又黑又大的吊av| 亚洲精品人人| 日韩a级黄色片| 欧美91精品| 五月天在线免费视频| 99精品网站| 在线视频不卡一区二区三区| 日韩啪啪电影网| 先锋影音亚洲资源| 日韩一区二区在线免费| 亚洲免费久久| 日韩免费高清| 一区二区三区四区久久| 水蜜桃精品av一区二区| 中文字幕久久综合| 偷偷www综合久久久久久久| 自拍视频一区二区三区| 97久久视频| 色哺乳xxxxhd奶水米仓惠香| 99久久精品网| 成人在线免费高清视频| 伊人成年综合电影网| 农民人伦一区二区三区| 9色精品在线| 六月丁香婷婷在线| 日韩电影在线观看一区| 中文字幕在线综合| 国产精品自拍毛片| 欧美一级片黄色| 国产亚洲成av人在线观看导航 | www.99视频| 精品久久久久久久人人人人传媒| 刘亦菲久久免费一区二区| 亚洲国产精品人久久电影| 天堂中文在线官网| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 国产成人免费精品| 成人福利网站在线观看| 亚洲日本va中文字幕| 韩国精品一区二区三区六区色诱| 亚州综合一区| 亚洲精品高清视频| 欧美激情视频一区二区三区免费| 大西瓜av在线| 三级不卡在线观看| 一级 黄 色 片一| 99久久婷婷国产精品综合| 亚洲成人黄色av| 亚洲男人电影天堂| 麻豆久久久久久久久久| 欧美日韩精品一区视频| 亚洲av无码一区二区乱子伦| 亚洲精品videossex少妇| 岛国在线视频免费看| 久久国产精品影片| 中文日产幕无线码一区二区| 国产欧美日韩免费| 黑色丝袜福利片av久久| 五月天亚洲综合情| 亚洲国产一区二区精品专区| 久久久精品麻豆| 成人午夜av电影| av免费播放网站| 香港成人在线视频| 91福利免费视频| 国产视频一区在线| 欧洲一区二区三区| 国产精品久在线观看| 国产精品22p| 异国色恋浪漫潭| 久久欧美肥婆一二区| 色综合久久久无码中文字幕波多| 久久久久久久性| 国产无遮挡又黄又爽在线观看| 欧美日韩一本到| 亚洲av成人无码久久精品老人 | 日韩午夜激情av| 大片免费播放在线视频| 欧美国产日韩二区| 欧美黄色a视频| 欧美理论一区二区| 影音先锋日韩资源| 午夜xxxxx| 国产精品久久久久一区二区三区共| 日韩欧美亚洲一区二区三区| 欧美一区三区二区| 日本高清视频在线观看| 日韩av第一页| 一本久久青青| 日本中文字幕网址| 成人免费毛片嘿嘿连载视频| 全网免费在线播放视频入口| 欧美性受xxxx黑人xyx性爽| 水中色av综合| 97人人模人人爽人人喊中文字| 日本超碰一区二区| 黄色一级片网址| 免费看精品久久片| 亚洲精品国产91| 色综合久久88色综合天天 | 成人黄色大片在线观看| 91视频综合网| 欧美精品第1页| 日本美女在线中文版| 国产欧美一区二区三区在线看| 精品国产一区二区三区av片| 欧美日韩亚洲第一| 91免费观看国产| 亚洲第一精品在线观看| 日韩av影视综合网| 精品三级久久| 久久亚洲国产精品日日av夜夜| 一区二区动漫| 一卡二卡三卡四卡| 色域天天综合网| 国产精品一区二区三区四区色| 国产精品v日韩精品| 欧美日韩在线播放视频| 手机看片福利日韩| 国产精品久久久久久久久免费樱桃| 中日韩在线观看视频| 中文字幕精品视频| 成人国产精品一区二区网站| 4444在线观看| 成人福利在线看| 亚洲高清毛片一区二区| 亚洲摸下面视频| 成人一级视频| 欧洲金发美女大战黑人| 国产传媒一区在线| 欧美福利视频一区二区| 亚洲欧美激情视频| 国产乱子精品一区二区在线观看| 中文字幕欧美人与畜| 国产大陆a不卡| 亚洲国产成人无码av在线| 这里只有精品视频| 日韩一区二区三区精品| 精品无码国产一区二区三区av| 97久久超碰精品国产| 中日韩av在线| 色综合视频一区中文字幕| 午夜先锋成人动漫在线| 麻豆三级在线观看| 夜夜精品视频一区二区| 日韩有码电影| 国产一区二区在线播放| 激情国产一区| 手机毛片在线观看| 欧美一级久久久久久久大片| 国产精品一二三产区| 日韩一区二区三区资源| 国产成人自拍网| 天干夜夜爽爽日日日日| xxx成人少妇69| 任我爽精品视频在线播放| 伊人国产在线视频| 亚洲成年人影院| 欧美日韩在线看片| 精品亚洲欧美日韩| 精品午夜久久福利影院| 国产中文字幕免费| 中文字幕日韩综合av| 欧美色图五月天| www.国产福利| 色综合久久综合中文综合网| 在线āv视频| 伊人久久大香线蕉av一区|