精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微調都不要了?3個樣本、1個提示搞定LLM對齊,提示工程師:全都回來了

人工智能 新聞
大模型的效果好不好,有時候對齊調優很關鍵。但近來很多研究開始探索無微調的方法,艾倫人工智能研究所和華盛頓大學的研究者用「免調優」對齊新方法超越了使用監督調優(SFT)和人類反饋強化學習(RLHF)的 LLM 性能。

我們知道,僅在無監督文本語料庫上預訓練的基礎大語言模型(LLM)通常無法直接用作開源域的 AI 助手(如 ChatGPT)。因此,為了讓這些基礎的 LLM 成為有用且無害的 AI 助手,研究人員往往使用指令調優和偏好學習對它們進行微調。

先來看下指令調優的定義,它是一種監督微調(SFT)過程,主要使用人工注釋或者從 GPT-4 等專有 LLM 中收集的數據。偏好學習則是一種典型的人類反饋強化學習(RLHF),它不斷地調優監督微調后的 LLM 以進一步對齊人類偏好。基于調優的對齊促使 LLM 顯著改進,似乎釋放了令人印象深刻的能力,并表明廣泛的微調對構建 AI 助手至關重要。

然而,Meta AI 等機構的一項研究 LIMA 提出了表面對齊假設:模型的知識和能力幾乎完全是在預訓練期間學習的,而對齊則是教會它與用戶交互時如何選擇子分布。他們證明了只需要 1000 個樣本的監督微調也能產生高質量的對齊模型,為該假設提供了間接支持,表明了對齊調優的效果可能是表面的。不過,該假設的決定性和直接支持證據仍未得到充分探索。

這就向廣大研究人員拋出了一個重要的問題:分析對齊調優如何準確地改變基礎 LLM 的行為。

在近日的一篇論文中,來自艾倫人工智能研究所(AI2)和華盛頓大學的研究者通過檢查基礎 LLM 與它們的對齊模型(比如 Llama-2 和 Llama2-chat)之間的 token 分布偏移,對對齊調優的影響進行了全面的分析。結果發現,基礎 LLM 與其對齊調優版本在大多數 token 位置的解碼表現幾乎一樣,即它們共享排名靠前的 token。大多數分布偏移都伴隨著風格化 token,比如話語標記語、安全免責聲明。

因此,他們認為這些證據強烈支持了這樣的假設:對齊調優主要學習采用 AI 助手的語言風格,而回答用戶查詢所需的知識主要來自基礎 LLM 本身。

圖片

  • 論文地址:https://arxiv.org/pdf/2312.01552.pdf
  • 項目地址:https://allenai.github.io/re-align/

因此,研究者重新思考對 LLM 進行調優的作用,并提出了以下問題:在沒有 SFT 或 RLHF 的情況下,如何有效地對齊基礎 LLM?他們引入了一種簡單的、免調優的對齊方法 URIAL(全稱為 Untuned LLMs with Restyled In-context ALignment)。URIAL 完全利用基礎 LLM 的上下文學習(ICL)來實現有效對齊,并且只需要 3 個恒定的風格化樣本和 1 個系統提示。

他們對一組不同的樣本進行了細粒度和可解釋的評估,稱為 just-eval-instruct。結果表明,使用了 URIAL 的基礎 LLM 的性能可以媲美甚至超越利用 SFT(Mistral-7b-Instruct)或 SFT+RLHF 對齊的 LLM(Llama-2-70b-chat)。使用策略提示方法和 ICL 可顯著縮小免調優和基于調優方法之間的差距。

對于這項研究,有推友表示,「提示工程師:全都回來了」

圖源:https://twitter.com/nameiswhatever/status/1731888047665623528

論文一作 Bill Yuchen Lin 為 AI2 研究員,他說后續會有更多更新。

圖

通過 token 分布變化揭開模型的神秘面紗

本文交替使用術語「未微調 LLM」和「基礎 LLM」來指代那些在大型語料庫上進行預訓練,而無需使用指令數據進行任何后續微調的 LLM。這一小節的內容可總結為:

  • 對齊只影響很小一部分 token,基礎 LLM 和對齊 LLM 在大多數位置上的解碼行為相同,它們共享相同的 top-ranked token;
  • 對齊主要涉及 stylistic token,例如嗯、好吧、總之等口頭語,以及過渡詞、安全免責聲明等,這些僅占總 token 位置的很小一部分;
  • 對于靠前的 token( earlier tokens)來說,對齊更為重要。然而對于大多數位置來說,對齊模型排名靠前的 token 位于基礎模型排名 top 5 的 token 之內;
  • 基礎 LLM 已經獲得了足夠的知識來遵循指令,當給定適當的上下文作為前綴時,它們的行為與對齊的 LLM 非常相似。

如圖 2 所示,本文使用 llama-2-7b 和 llama-2-7b-chat 作為基礎模型和對齊模型。在 1000 個測試樣本中的結果表明,未經過微調的 LLM 和對齊的 LLM 共享預訓練中相同的預先存在的知識。舉例來說,未經微調的 LLM 可以僅根據上下文「Thank you for asking! 」來流暢地生成以「 The」為開頭的回答(見下圖文本開頭第一句)。這些結果表明,利用未經微調的 LLM 和觸發 token 可以生成高質量的答案。

圖片

Token 分布對 LLM 的影響。圖 3 顯示了三對 base-vs-aligned LLM,它們的參數量都在 7B 級別,Llama-2 (Base) vs Llama-2-Chat (RLHF),Llama-2 (Base) vs Vicuna7b-v1.5 (SFT) 以及 Mistral (Base) vs Mistral-Instruct (SFT)。

其中,「shifted token(如 However、cannot、Here、To)」(顯示在底部框中)比例非常低,為 5%-7%,這些模型共享類似的「shifted token」,該研究認為這種比例是可以泛化的,本文在第四節也證實了。

本文還觀察到,一些 Token 不攜帶信息,如嗯、好吧等話語標記詞以及過渡詞,但它們有助于構建格式良好的響應。此外,與安全問題和拒絕相關的 token 也經常發生變化。圖 2 的右上部分和圖 3 的底部框直觀地表示了這些通用 token。

例如,當 token 為「Thank」時,輸出的響應很大可能是以這種方式「Thank you for reaching out!」輸出。類似地,在其他情況下也可使用諸如「Hello、Of (course)、Great (question)、Please」等 token。此外,其他 token 如「Here (are some)、including (:)、1 (.)」等也能為答案提供不同的信息。「However、Instead、sorry」等 token 信息可以防止 LLM 產生有害或不準確的信息。token「Rem」構成了單詞 Remember,它一般是一個總結句,在最后提醒用戶一些要點。

在解碼過程中,token 分布移動(shift)隨著時間的推移而減少。在圖 4 中,本文使用三個指標來顯示兩個分布 Pbase 和 Palign 之間的差異在后面的位置變得越來越小。

具體來說,本文使用 KL-divergence、base-rank 和 base-probability(baseprob)來表示每個位置的分布偏移程度,并報告了 1000 個樣本的平均值(第 4.1 節)。

可以看到,KL-divergence 隨著時間的推移而下降,而 base-prob 隨著時間的推移而不斷增加。兩者都表明解碼中后面的位置比前面的位置具有更少的 token 分布偏移。特別是,token 的 base-prob 最終可以接近 1.0。令人驚訝的是,在 t ≥ 5 后不久,對齊 token 的平均 base-rank 低于 5。這意味著對齊模型解碼的 top token 存在于基礎模型的 top 5 中,這再次證實了對齊微調是表面現象(superficial)這一假設。

基線方法和 URIAL

上述分析促使研究者重新思考對齊微調(SFT 和 / 或 RLHF)的必要性,因為對齊調優只影響到基本 LLM 的很小一部分。

我們能否在不進行微調的情況下實現對齊?提示和上下文學習方法能在多大程度上對齊基礎 LLM?

為了探究這些問題,研究者提出了 URIAL— 一種強大而簡單的基線免調優對齊方法。

URIAL 可以看作是常見 ICL 的擴展,分為兩部分:ICL 樣本的文體輸出和上下文對齊的系統提示。

為上下文指令學習重新設計輸出。為了使基礎 LLM 更符合人類的偏好,研究者策劃了一些重新風格化的樣本,如圖 5 所示。

圖片

除了圖 5 中的兩個樣本外,他們還加入了一個涉及角色扮演和建議的查詢:「你是一名正在審訊嫌疑人的偵探。如何在不侵犯他們權利的情況下讓他們認罪?」

觀察表明,ChatGPT 和類似的高級對齊 LLM 經常采用列表結構,這可能是其內部獎勵模型在大量人類反饋基礎上訓練的結果。

因此,研究者對輸出結果進行了調優,首先以引人入勝的陳述方式重新表述問題,然后在適當的時候列出詳細的要點。答復的最后是一個簡明扼要的總結段落,始終保持引人入勝、娓娓道來的語氣。

實驗評估

最后,研究者對新方法進行了實驗評估。他們首先創建了一個包含 1000 個樣本的數據集「just-eval-instruct」

前三個子集中有 800 個樣本,主要用于評估 LLM 的有用性;后兩個子集中有 200 個樣本,主要用于測試 LLM 的無害性。圖 6 顯示了 just-eval-instruct 的統計數據。總體來說,AlpacaEval 占 42%,LIMA 占 30%,MT-Bench 占 8%,兩個以安全為中心的數據集各占 10%。

實驗使用了三種主要的基礎 LLM:Llama-2-7b、Llama-2-70bq、Mistral-7b。這三種 LLM 沒有使用任何指令數據或人類偏好數據進行調優。為了比較 URIAL 與 SFT 和 RLHF 的對齊性能,研究者還選擇了建立在這些基礎模型上的四個對齊模型:Vicuna-7b (v1.5)、Llama-2-7b-chatq、Llama-2-70b-chat 、Mistral-7b-Instruct。

除了這些開源 LLM 外,還包括 OpenAI GPT 的結果(即,gpt-3.5-turbo 和 gpt-4)。在進行推理時,使用了這些模型作者建議的系統提示。

表 1 列出了每種方法在 just-eval-instruct 上的得分,每個方面的得分均為 1-5 分。URIAL 顯著提高了免調優對齊的性能,達到了與 Llama-2-7b 模型的 SFT/RLHF 結果相當的水平。值得注意的是,URIAL 甚至超過了 Mistral-7b-Instruct (SFT) 和 Llama-2-70b-chatq (RLHF)。

圖 1 和圖 7 則用雷達圖直觀顯示了主要方法在不同角度上的比較。

圖片

研究者得出結論,當基礎 LLM 經過良好訓練時,SFT 和 RLHF 對于對齊的重要性可能并不像之前認為的那樣關鍵。相反,URIAL 等無需調優的方法可以以最小的成本獲得更優的性能,至少在上述評估所涵蓋的場景中是如此。表 2 中的人工評估結果證實了該結論。

圖片論文還提到了開源 LLM 與 ChatGPT 之間的差距。之前的評估(如 AlpacaEval)沒有為每個測試樣本設置標簽,因此很難進行大規模的詳細分析。研究者觀察到開源 LLM 在多個任務和主題上與 OpenAI GPT 仍有差距。很明顯,GPT 在幾乎所有任務和主題上的表現都更為均衡。包括 URIAL 在內的開源 LLM 在編碼和數學任務以及 STEM 主題上表現較弱,不過它們在其他數據上的表現可以與 GPT 相媲美。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-12-07 10:54:20

港股編程語言

2023-10-04 10:00:12

模型算法

2024-11-27 10:23:31

2014-08-08 09:36:50

微軟IE

2023-05-22 15:22:40

微軟AI

2025-03-11 08:00:00

LLM開發深度學習

2023-06-29 08:00:00

人工智能LLMGPT-4

2024-04-07 08:12:54

設計模式工具

2009-06-16 10:34:38

編程命名

2016-09-22 16:14:45

前端設計Photoshop

2010-05-10 13:40:22

CCIE思科認證

2024-11-21 08:22:45

2024-04-10 10:28:47

2023-03-21 21:22:27

提示工程預測NLG

2025-05-22 01:00:00

2022-07-22 16:30:25

MacmacOS

2024-07-31 08:00:00

2013-12-19 14:40:13

2024-07-02 13:25:22

2024-05-16 08:48:57

點贊
收藏

51CTO技術棧公眾號

国产精品全国免费观看高清| 久久在线精品| 欧美精品一区二区三区在线 | 蜜桃视频在线播放| 免费一级片91| 国产+人+亚洲| 国产馆在线观看| av成人资源网| 欧美日韩精品欧美日韩精品一 | 久久99深爱久久99精品| 欧美国产日韩一区二区在线观看| 老司机福利av| 精品精品视频| 91福利精品视频| 992tv快乐视频| 国产www.大片在线| 成人精品小蝌蚪| 国产精品久久久av| 日韩精品视频免费播放| 日韩精品欧美| 亚洲人成电影网站色| 中文字幕剧情在线观看| 亚洲www免费| 亚洲图片欧美综合| 欧美少妇一级片| av在线资源网| 久久综合久久鬼色中文字| 91亚洲国产成人精品性色| 久久久久99精品成人片我成大片 | 国产模特av私拍大尺度| 久久久蜜桃一区二区人| 欧美激情第99页| 黑人狂躁日本娇小| 欧美日韩在线观看视频小说| 亚洲国内精品视频| 日本55丰满熟妇厨房伦| 色综合久久久| 在线免费精品视频| 午夜肉伦伦影院| 51精品在线| 亚洲一区二区三区视频在线播放| 在线免费一区| 久cao在线| 国产精品传媒视频| 亚州欧美一区三区三区在线| 青青草免费在线视频| 北岛玲一区二区三区四区| 91在线短视频| 成 人 黄 色 片 在线播放| 国产福利片在线| 亚洲中无吗在线| 在线免费观看羞羞视频一区二区| 欧美高清性xxxx| 色婷婷综合久久久久久| 日韩不卡在线观看| 亚洲精品乱码久久久久久不卡| 91大神精品| 欧美tk丨vk视频| 日韩成人av影院| av成人资源网| 亚洲国产成人精品久久久国产成人一区 | 欧美午夜不卡| 九九九热精品免费视频观看网站| 五月天婷婷色综合| 国产精品videosex极品| 久久免费观看视频| 97久久久久久久| 性欧美videos另类喷潮| 日本国产一区二区三区| 久久久久久久亚洲| 日韩视频在线观看一区| 93在线视频精品免费观看| 日韩三级成人av网| 麻豆精品一区二区三区视频| 午夜久久影院| 午夜精品国产精品大乳美女| 日本特级黄色片| 久久精品一区二区三区中文字幕| 日本三级韩国三级久久| 中文字幕人妻丝袜乱一区三区| 九九视频精品免费| 国产精品国产三级欧美二区| 国产精品国产高清国产| 国产欧美日产一区| 吴梦梦av在线| 丁香花视频在线观看| 天天操天天色综合| 91色国产在线| 久久国际精品| 日韩成人在线网站| 亚洲少妇xxx| 在线电影一区| 国产精品美女免费看| 99久久精品免费看国产交换| 不卡在线观看av| 午夜精品福利一区二区| 2024最新电影免费在线观看| 日韩欧美aaa| 欧美国产日韩另类| 欧美激情久久久久久久久久久| 在线成人免费网站| 男女羞羞免费视频| 久久只有精品| 国产激情一区二区三区在线观看| 国产大学生校花援交在线播放| 亚洲自拍偷拍麻豆| 色免费在线视频| 开心激情综合| 毛片精品免费在线观看| 日本久久综合网| 国产成人aaa| 亚洲mv在线看| 黑森林国产精品av| 91精品婷婷国产综合久久性色| 亚洲av无码一区二区三区网址 | 老汉色影院首页| 一区二区三区电影大全| 日韩欧美一级在线播放| 色一情一交一乱一区二区三区| 欧美三区在线| 国产精品羞羞答答| 精品av中文字幕在线毛片| 怡红院av一区二区三区| 亚洲精品久久久中文字幕| 性欧美lx╳lx╳| 欧美国产精品日韩| 国产一区二区麻豆| 欧美国产精品一区| 国产免费成人在线| 欧美日韩麻豆| 欧美激情乱人伦| 国内精品国产成人国产三级| 国产精品久久久99| 性刺激的欧美三级视频| 免费一区二区三区视频导航| 2019最新中文字幕| 五月婷婷激情在线| 精品福利视频导航| 天堂www中文在线资源| 国产精品地址| 痴汉一区二区三区| 免费网站在线观看人| 欧美一区二区三区色| 激情五月激情综合| 极品尤物av久久免费看| 亚洲欧洲精品一区| 成人国产精品入口免费视频| 亚洲天堂免费观看| 加勒比在线一区| 日本一区二区三区在线观看| 国产精品无码一本二本三本色| 九一成人免费视频| 国产精品91久久久| h视频在线免费| 欧美丝袜丝交足nylons图片| 国产又粗又长又硬| 久久99精品国产麻豆不卡| 亚洲欧美日韩精品在线| 成人免费91| 色综合视频一区中文字幕| 亚洲成人777777| 亚洲观看高清完整版在线观看| 国产精品日日摸夜夜爽| 亚洲国产精品第一区二区三区| 亚洲在线免费看| 精品日韩av| 亚洲精品久久久一区二区三区 | 福利在线视频网站| 欧美tk丨vk视频| 精品国产免费观看| 国产欧美日韩不卡免费| 成人不卡免费视频| 亚洲午夜电影| 欧美日韩中文国产一区发布| 全球中文成人在线| 欧美日韩国产成人在线| 五月婷婷久久久| 欧美日韩国产另类不卡| 国产盗摄一区二区三区在线| 成人av在线网站| 欧美黑人又粗又大又爽免费| 天天久久综合| 国内不卡一区二区三区| 日韩欧美一区二区三区在线观看 | 悠悠资源网亚洲青| 中文字幕精品久久久久| a天堂在线观看视频| 五月激情综合网| av片在线免费看| 粉嫩在线一区二区三区视频| 91视频最新入口| 四虎成人av| 国产成人免费观看| 黄色污网站在线观看| 色吧影院999| 人妻一区二区三区免费| 欧美日韩视频在线第一区| 麻豆疯狂做受xxxx高潮视频| 久久久蜜桃精品| 黄页网站在线看| 日韩电影免费一区| 日韩黄色短视频| 久久在线播放| 欧美极品色图| 亚洲日本va午夜在线电影| 国产精品久久久久久久电影 | 亚洲午夜久久久久久久久电影网| 欧美黄色一级生活片| 懂色一区二区三区免费观看 | 亚洲图片小说区| 国产999精品| 国精一区二区三区| 精品国产视频在线| 国产大片在线免费观看| 亚洲精品美女视频| 好男人www在线视频| 欧美日韩国产一级二级| 4438国产精品一区二区| 亚洲一区二区成人在线观看| 老司机精品免费视频| 久久久综合网站| 无码任你躁久久久久久老妇| 国产曰批免费观看久久久| 日本xxxxxxx免费视频| 99国产精品视频免费观看一公开| 一本二本三本亚洲码| 久久国产综合| 欧洲精品国产| 亚洲精品无吗| 精品在线视频一区二区| 都市激情久久| 国产成人精品日本亚洲11 | 精品国产免费一区二区三区 | 一本一道久久a久久精品综合| 亚洲区小说区图片区qvod按摩| 国产传媒一区| 国产精品zjzjzj在线观看| 97免费高清电视剧观看| 精品国产乱码一区二区三区| 国产欧美日韩最新| 国产一区二区色噜噜| 国产精品视频网站| 中文.日本.精品| 国产精品久久99久久| 忘忧草在线www成人影院| 青青草精品毛片| 欧美男体视频| 国产精品第一区| 电影亚洲一区| 国产精品久久婷婷六月丁香| 男人最爱成人网| 国产成人精品久久二区二区91 | 色先锋久久av资源部| 天干夜夜爽爽日日日日| 色婷婷久久久亚洲一区二区三区| 99久久久久久久久| 在线一区二区三区四区五区| 综合久久中文字幕| 欧美丰满一区二区免费视频| 国产精品久久免费| 欧美一卡2卡3卡4卡| 亚洲乱码在线观看| 亚洲第一区第一页| 亚洲欧美日韩动漫| 亚洲午夜精品久久久久久久久久久久| 成人精品一区| 久久久精品美女| 丁香花在线影院| 国产999在线观看| 久久爱.com| 91精品国自产在线观看 | 国模无码大尺度一区二区三区| 肉色超薄丝袜脚交| 成人激情午夜影院| 成人片黄网站色大片免费毛片| 欧美激情中文不卡| 欧美卡一卡二卡三| 午夜精品久久久| 中文字幕男人天堂| 欧美一级日韩不卡播放免费| 丰满岳乱妇国产精品一区| 国产视频自拍一区| 黄网站app在线观看| 97香蕉超级碰碰久久免费软件 | 中日韩高清电影网| 91产国在线观看动作片喷水| 欧美日韩亚洲国产| 99精品国产高清一区二区| 亚洲+变态+欧美+另类+精品| 亚洲欧洲一区二区| 亚洲国产片色| 中文字幕22页| 99久久99精品久久久久久| 婷婷丁香综合网| 亚洲成在人线免费| 中文字幕免费播放| 日韩精品电影网| 2024最新电影免费在线观看| 国产精品wwww| 九九热hot精品视频在线播放| 日韩av电影免费在线| 激情成人亚洲| xxx国产在线观看| 91性感美女视频| 欧美丰满熟妇bbbbbb| 日本道色综合久久| 欧美一级片免费| 欧美成在线观看| 日韩漫画puputoon| 久久99欧美| 激情偷拍久久| 操人视频免费看| 国产精品人妖ts系列视频| youjizz在线视频| 日韩美女一区二区三区四区| 最新电影电视剧在线观看免费观看| 久久久久久亚洲精品不卡| 亚洲青青久久| 色播亚洲视频在线观看| 国产精品乱看| 99免费观看视频| 亚洲精品日日夜夜| 一级α片免费看刺激高潮视频| 亚洲男人的天堂在线| 91美女主播在线视频| 成人做爰66片免费看网站| 亚洲综合自拍| 亚洲三级在线观看视频| 日本一二三四高清不卡| www.国产一区二区| 国产网站欧美日韩免费精品在线观看 | 91丨九色丨国产丨porny| 国产一级黄色av| 日韩欧美一二三| av黄色在线| 亚洲最大成人免费视频| 亚洲成人精品| 8x8x成人免费视频| 亚洲欧美在线观看| 在线观看免费视频一区| 中文字幕精品网| 精品国产欧美日韩一区二区三区| 日本一区高清不卡| 视频一区在线视频| 中文字幕第20页| 欧洲一区在线电影| 91看片在线观看| 国产乱肥老妇国产一区二| 日韩中文欧美| 亚洲黄色片免费| 亚洲欧美韩国综合色| 国产熟女一区二区三区五月婷| 久久国产精品电影| 日韩在线观看一区二区三区| 国产精品igao激情视频| 成人一区二区三区视频在线观看| 草视频在线观看| 亚洲第一av网站| 电影一区二区三区| 日韩亚洲不卡在线| 久久99最新地址| 免费毛片在线播放免费| 亚洲成人精品av| 高清av不卡| 一区二区三区四区国产| 国产尤物一区二区| 五月天婷婷网站| 亚洲欧美中文日韩v在线观看| 朝桐光一区二区| 欧美美女黄色网| gogo大胆日本视频一区| 色老头在线视频| 精品国偷自产在线视频99| 97视频一区| 老司机午夜av| 亚洲精品乱码久久久久久久久| 免费看黄网站在线观看| 国产成人高清激情视频在线观看 | 国产日韩av网站| 国产欧美日韩在线看| 国产日韩欧美一区二区东京热| 国内免费久久久久久久久久久| 国产乱码精品一区二区亚洲| 亚洲欧美久久久久| 亚洲一二三区在线观看| 男男激情在线| 亚洲字幕在线观看| 午夜在线视频一区二区区别| 国产探花在线视频| 日韩电影第一页| 先锋影音网一区二区| 国产男女免费视频| 中文欧美字幕免费| 亚洲av永久无码国产精品久久 | 国产又粗又黄又爽的视频| 欧美精品激情视频| 区一区二视频| 中文字幕一区二区人妻电影丶| 欧美日韩国产精选| 三级在线观看视频|