大模型訓練流程及 SFT、RLHF 作用簡述
一、大模型訓練流程:從預訓練到對齊的三階閉環
1.1 預訓練階段
基于海量無標注數據(如互聯網文本、多模態數據)進行自監督學習,通過語言建模(LM)、對比學習等任務建立通用表征能力。典型參數規模為千億至萬億級別,需千卡級 GPU 集群訓練數月。
1.2 監督微調(SFT)階段
使用標注數據(如領域問答、指令遵循)調整模型參數,使其適配下游任務。SFT 階段僅需 0.1%-1% 的預訓練數據量即可顯著提升特定任務性能。
1.3 強化學習對齊(RLHF)階段
通過人類偏好數據訓練獎勵模型(Reward Model),指導大模型生成符合倫理和安全規范的內容。此階段可將有害輸出率降低 54%-78%。
二、SFT 與 RLHF 的核心作用
2.1 監督微調(SFT)的雙向價值
- 任務適配:通過領域數據訓練,使模型從 “通用知識理解” 轉向 “特定任務執行”。例如在醫療問答中,SFT 可將模型準確率從通用場景的 75% 提升至專業領域的 88%。
- 效率優化:僅需少量標注數據(預訓練數據量的 0.1%-1%)即可實現性能提升,避免從頭訓練的海量資源消耗。
2.2 強化學習對齊(RLHF)的三層優化
- 倫理控制:通過人類偏好數據訓練獎勵模型,將有害輸出率降低 54%-78%,確保模型輸出符合社會規范3。
- 偏好對齊:解決 SFT 的 “目標 mismatch” 問題 ——SFT 僅學習 “正確回答” 的概率分布,而 RLHF 能讓模型理解 “人類偏好的回答”(如口語化表達 vs 學術化表達)。
- 動態進化:通過持續收集用戶反饋,RLHF 可迭代優化模型策略,例如在客服場景中,模型可根據用戶滿意度反饋自動調整回答風格。
三、關鍵技術對比
環節 | 核心目標 | 技術特點 | 面試高頻考點 |
預訓練 | 構建通用語義表征 | 自監督學習、萬億級數據訓練 | 分布式訓練架構、數據清洗策略 |
SFT | 適配具體任務 | 小樣本高效微調、領域知識注入 | LoRA 等參數高效微調技術 |
RLHF | 對齊人類價值觀 | 獎勵模型訓練、PPO 等強化算法 | 偏好數據收集方法、KL 正則項作用 |
問題:“SFT 為何不能替代 RLHF?”
SFT 是 token 級學習,無法解決 “價值觀對齊” 和 “用戶隱性偏好捕捉” 問題,而 RLHF 通過人類反饋機制填補了這一空白。
本文轉載自???????鴻煊的學習筆記???????,作者:乘風破浪jxj
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















