精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

統一視角下的HPT:動態融合SFT與RL,釋放LLM后訓練新潛能

人工智能
清華團隊提出HPT算法,基于統一理論框架,讓模型自適應融合SFT與RL,效果全面超越SOTA,小模型也能受益,工程師必備新利器。

大家好,我是肆〇柒。今天探索一篇來自清華大學、上海AI實驗室與微信AI團隊的前沿研究。這篇論文提出了一種名為HPT的創新算法,它像一位“智能教練”,能根據模型的實時表現,動態決定是該用監督學習“補基礎”,還是用強化學習“練推理”,從而解決后訓練中SFT與RL難以調和的矛盾,讓模型性能實現質的飛躍。

后訓練(Post-Training)是決定模型最終戰斗力的關鍵戰役。然而,這場戰役往往讓一線算法工程師們深陷泥潭:是選擇高效但死板的監督微調(SFT, Supervised Fine-Tuning),還是選擇潛力巨大但極不穩定的強化學習(RL, Reinforcement Learning)?是咬牙上成本高昂的"SFT→RL"兩階段流水線,還是冒險嘗試效果飄忽不定的混合策略?

調參的噩夢、效果的瓶頸、資源的浪費,構成了后訓練領域揮之不去的痛點。現在,這種名為"混合后訓練"(Hybrid Post-Training, HPT)的新算法,正以其簡潔、強大和自適應的特性,為這個領域帶來一場創新思考。它不再將SFT與RL視為水火不容的對手,而是基于一個深刻的統一理論框架,讓兩者協同工作,動態互補,最終實現"1+1>2"的效果。

你是否也受困于LLM后訓練?

后訓練的困境,源于SFT與RL兩種范式天然的矛盾與互補。直接對基礎模型應用RL(即"Zero RL"),就如同讓一個剛學會走路的孩子去參加馬拉松——模型缺乏基本能力,采樣出的軌跡(Trajectory)質量低下,無法獲得有效獎勵信號,訓練極易崩潰。在Qwen2.5-Math-1.5B上的實驗表明,純GRPO訓練50輪后,仍有近30%的問題產生連續滾動錯誤(如下圖所示),這意味著工程師每天要面對數百條"模型已崩潰"的報警,不得不反復重啟訓練。

 GRPO training dynamics of SFT→GRPO on Qwen2.5-Math-1.5B across 50 training epochs. GRPO訓練動態示意圖

反之,純SFT雖然能讓模型快速掌握特定領域的知識,卻像給學生喂"標準答案",模型只會死記硬背,一旦遇到訓練數據分布之外(Out-of-Distribution)的問題,便束手無策,泛化能力堪憂。更令人頭疼的是,SFT→RL的兩階段流水線雖然看似完美,實則代價高昂:它需要兩套獨立的訓練流程,在8*A800 GPU上額外消耗200+ GPU小時(約$1,200成本),且兩個階段的銜接往往成為新的瓶頸——第一階段SFT的過擬合,可能會在第二階段RL中扼殺模型寶貴的探索能力。

更進一步的解決方案,如LUFFY等混合策略,嘗試在單個訓練階段內同時使用SFT和RL的損失。但這類方法通常依賴一個預設的、固定的混合比例,如同給所有學生用同一套教育方式,無法適應模型在訓練過程中能力的動態變化,效果自然不穩定。下圖直觀展示了這種困境:在SFT→GRPO中,模型在Level 5難題上的表現始終難以突破,而HPT卻能持續進步。

Performance difference(HPT v.s. SFT→GRPO) on Qwen2.5-Math-1.5B across 50 training epochs. HPT與SFT→GRPO性能差異對比

核心問題由此浮現:如何設計一個算法,既能像SFT一樣高效地"學得會",吸收高質量演示數據中的知識,又能像RL一樣自由地"想得通",通過在線探索不斷提升泛化和推理能力?HPT算法,正是為解決這一核心矛盾而生。其背后的理論基石,是將SFT和RL統一到一個名為"統一策略梯度估計器"(Unified Policy Gradient Estimator, UPGE)的框架下。

理論基石:共同目標下的梯度統一

HPT的突破性在于,它揭示了SFT與RL并非水火不容,而是優化同一個目標函數的不同路徑。論文提出了一個共同優化目標:

統一策略梯度估計器示意圖

如上圖所示,這個統一公式可拆解為四個可替換的組件:

  • 穩定掩碼(Stabilization Mask):決定哪些梯度更新應被保留或屏蔽
  • 參考策略分母(Reference Policy):提供重加權系數,通常為逆概率形式
  • 優勢估計(Advantage Estimate):衡量當前響應序列的質量
  • 似然梯度(Likelihood Gradient):將梯度信息從動作映射到模型參數

下表將SFT、PPO、GRPO、LUFFY、SRFT等主流后訓練算法的梯度計算,全部映射到這四個組件上。這揭示了一個事實:SFT和GRPO在數學上只差兩個開關設置。這意味著工程師不必再糾結"該用SFT還是RL"——就像不必爭論"該用鏟子還是鋤頭",因為HPT自動為你選擇最適合當前問題的工具。

各種后訓練算法的理論統一視圖

上表展示了不同算法的統一表示,它證明所有后訓練算法本質是同一框架的變體。看SFT行:當"參考策略"設為πθ、"優勢估計"設為1時,就是傳統SFT;看GRPO行:當"參考策略"設為πθold、"優勢估計"設為組歸一化獎勵時,就是當前最火的GRPO。這意味著——SFT和RL不是對立選擇,而是同一枚硬幣的兩面。HPT的突破在于:它不再強迫工程師"二選一",而是讓模型根據當前能力,自動選擇最優學習模式。

純RL的局限性:為什么我們需要SFT

為了更直觀地理解SFT的必要性,論文通過上圖展示了SFT→GRPO在Qwen2.5-Math-1.5B上的訓練動態。研究者選取了85道Level 3(較易)和85道Level 5(最難)的問題進行50輪訓練,跟蹤每個問題的采樣準確率。圖中密集的白色區域(甚至連續的白線)表明RL方法在輸出中頻繁出現滾動錯誤,這正是純RL方法的核心局限:當所有輸出都頻繁出錯時,模型難以有效學習。

下圖則進一步揭示了HPT如何解決這一問題。該圖展示了HPT與SFT→GRPO的性能差異,紅色表示HPT表現更好,藍色表示SFT→GRPO更優。雖然SFT→GRPO前期因已包含SFT階段而具有優勢(藍色區域),但在訓練后期,HPT逐漸超越并最終占據主導(紅色區域),特別是在Level 5難題上優勢更為明顯。這表明HPT通過基于問題級滾動表現的反饋,特別有利于學習更具挑戰性的問題。

混合后訓練(HPT)算法

UPGE框架的創新意義,不僅在于它統一了數學形式,更在于它揭示了不同算法的本質是在不同數據分布和穩定性假設下對同一目標的梯度估計。既然SFT和RL的梯度都是對"真實梯度"的一種有偏或無偏估計,那么最優的訓練策略就不是固定使用某一種估計器,而是應該根據當前模型的狀態,動態選擇方差最小、偏差最低的那個估計器

HPT的核心思想可以濃縮為一句話:"會的題用RL練推理,不會的題用SFT學答案"。但這一表述背后,蘊含著深刻的動態反饋機制,遠非簡單的靜態分類。

HPT工作流程

HPT的工作流程(如算法偽代碼下圖所示)是一個閉環的動態反饋系統。

這個算法關鍵在于基于模型當前表現的實時決策 

這里的關鍵是,HPT的決策是實時的、基于模型當前策略的。它不是預先知道哪些題"難",而是通過讓模型對同一個問題進行多次采樣,根據其當前表現來決定教學方法。這意味著:

動態門限的科學選擇 

訓練過程中動態離線數據比例變化

上圖清晰地展示了這一過程:訓練初期,弱模型(1.5B)的SFT比例高達80%,這是在"補基礎";隨著能力提升,比例穩步下降至20%左右,轉向"練推理"。而強模型(7B)的下降速度更快,體現了"因材施教"的智能。值得注意的是,較弱的1.5B模型在SFT主導階段停留的時間比7B模型更長,這與"因材施教"的理論完全吻合。

不同門限設置下的訓練獎勵和離線數據比例對比

上圖進一步證實了這一點:雖然的設置在初期SFT比例最低,但其訓練獎勵的上升速度最快,最終收斂到最高水平。這證明了"少即是多"——對于強模型,過早或過多地介入SFT,反而會打斷其寶貴的自主探索過程,將其拉回"死記硬背"的模式。讓強模型在探索中犯錯,比強行灌輸標準答案更能激發其潛力。

HPT到底有多強?

理論的優美,最終需要實踐的檢驗。HPT在多個維度的實測中,都交出了一份令人信服的答卷,其優勢不僅體現在最終分數上,更體現在模型能力的本質提升上。

精確的性能對比

在Qwen2.5-Math-7B上,HPT展現了"橫掃千軍"的統治力。如下表所示,它不僅大幅超越了單一的SFT和GRPO基線,更以顯著優勢碾壓了當前主流的先進方法。在AIME 2024基準上,HPT以33.0分的成績,領先其最強基線SFT→GRPO(25.7分)7.3個百分點;相較于混合策略LUFFY(26.1分)和SRFT(18.4分),HPT的優勢同樣明顯。這一結果有力地證明了,動態融合的策略遠勝于靜態的、手工調優的方案。

HPT的強大并非大模型的專屬。在參數規模更小、能力相對較弱的Qwen2.5-Math-1.5B和LLaMA3.1-8B模型上,HPT同樣帶來了顯著且穩定的性能增益(見表3)。這表明HPT具有強大的普適性,能夠有效提升不同規模、不同架構模型的后訓練效果,為資源有限的團隊提供了極具性價比的解決方案。

Pass@k與獨有解的發現

HPT的強大,不僅體現在最終分數上,更體現在它對模型"能力天花板"的突破。

HPT與基線的Pass@k性能對比

上圖是一個極具說服力的證據。圖中,純RL方法(GRPO)的Pass@1024曲線最低,這印證了業界的普遍認知:RL擅長優化已知路徑,但難以擴展能力邊界。而純SFT的曲線雖高,卻犧牲了推理的靈活性。HPT的曲線則"后來居上",在高采樣數下反超所有基線,穩居第一。

這顛覆了業界認知:HPT不僅Pass@1領先,其Pass@1024(衡量模型極限能力)也全面碾壓基線。這意味著——HPT訓練的模型在大量嘗試中找到正確答案的能力更強。具體看AIME24:當采樣1024次時,HPT解題率比GRPO高15%,相當于'原本100道題只能解30道,現在能解45道'。更驚人的是,HPT的曲線始終在最上方,證明它既學到了SFT的知識注入,又保留了RL的探索能力——這才是真正的能力上限突破。

這種能力在攻克難題時表現得淋漓盡致。

MATH-500上獨有解的雙向分析

上表的'+27/-8'是HPT的'殺手锏':它多解出27道Level 5奧數難題,僅"遺忘"8道已會題目。這意味著——HPT在攻堅最難問題時,幾乎不損失已有能力。對工程師而言,這解決了后訓練的終極矛盾:既要探索新能力,又不能忘記舊知識。當你的模型需要同時處理100種復雜任務時,HPT就是那個'不忘本'的智能體。

更令人振奮的是,HPT不僅提升了模型的"做題"能力(Pass@1),更大幅拓展了其"思考"的邊界。通過分析模型在大量采樣下的表現(Pass@k),研究發現,HPT訓練的模型在Pass@1024指標上取得了最高分(見下圖)。


HPT與基線的Pass@k性能對比

這一發現極具反直覺性:雖然直觀上認為HPT(混合方法)的Pass@k應介于純SFT和純GRPO之間,但上圖顯示,HPT的曲線始終在最上方。這意味著HPT在利用SFT為模型注入新知識的同時,最大程度地保護并增強了模型自主探索、發現新解法的能力,真正提升了模型的能力上限,而非簡單的過擬合。這一發現直接回應了業界關于"RL是否能擴展模型能力邊界"的討論,證明了HPT在探索能力上的卓越表現。

驗證性能與訓練動態

為了進一步驗證HPT的穩定性和泛化能力,研究者在Qwen2.5-Math-1.5B上進行了詳細的驗證性能測試。

Qwen2.5-Math-1.5B在多個基準測試上的驗證性能對比

上圖展示了HPT在AIME24、AMC和MATH-500等多個基準測試上的驗證性能。HPT不僅在訓練集上表現優異,在驗證集上也持續優于基線方法,且表現穩定。這一結果證實了HPT避免了過擬合風險,能夠有效泛化到新問題。

此外,研究者還評估了不同訓練范式對Off-policy RL的影響,結果如下表所示:

Name

AIME 24

AIME 25

AMC

MATH-500

Minerva

Olympiad

Avg

OFF/ON

16.6

11.8

47.3

76.2

35.3

41.6

38.1

Mix/ON

16.7

17.2

46.9

79.4

37.5

43.9

40.3

SFT/ON

16.6

17.8

51.0

81.0

37.5

47.3

41.9

實驗表明,SFT/ON(即HPT)取得了最佳平均性能(41.9分),優于Mix/ON(40.3分)和OFF/ON(38.1分)。這說明對于HPT而言,Off-policy RL可能并非必需,因為SFT已經有效地作為學習離線數據的訓練方法。這一發現簡化了HPT的實現,避免了復雜的Off-policy RL機制。

如何用好HPT?

對于希望將HPT落地的工程師而言,其配置出人意料地簡潔,核心在于理解其動態本質并遵循實驗得出的最佳實踐。

超參設置:動態平衡的藝術

訓練動態可視化:洞悉模型"心路歷程"

離線數據比例動態變化

訓練過程中動態離線數據比例變化

上圖清晰地展示了HPT的"自適應學習"過程:訓練初期,弱模型(1.5B)的SFT比例高達80%,這是在"補基礎";隨著能力提升,比例穩步下降至20%左右,轉向"練推理"。而強模型(7B)的下降速度更快,體現了"因材施教"的智能。這一動態變化過程是健康且符合預期的。值得注意的是,較弱的1.5B模型在SFT主導階段停留的時間比7B模型更長,這與"因材施教"的理論完全吻合。

訓練熵與響應長度

對于一線工程師而言,監控訓練過程中的**熵(Entropy)響應長度(Response Length)**是判斷模型是否"學歪了"的關鍵。

不同方法的訓練動態對比

上圖顯示,HPT能維持比純RL更高的輸出熵。在實踐中,這意味著模型的回答更加多樣化,沒有陷入"只會輸出某一種固定模板"的模式崩潰。更關鍵的是響應長度:HPT模型的響應長度在早期快速攀升后,在RL階段并未回退。這表明模型已將長推理模式"內化"為自身策略的一部分,而非簡單地"背答案"。如果在你的訓練中發現響應長度在RL階段急劇縮短,那很可能意味著RL正在"抹除"SFT階段學到的復雜推理模式,這是一個危險的信號。

與LUFFY的核心區別

LUFFY等方法是"固定菜譜",在一個批次內按固定比例混合SFT和RL數據。而HPT是"智能點餐",它根據模型對每個具體問題的實時表現,動態決定是"學標準答案"還是"練推理過程"。這種細粒度的、基于性能反饋的自適應機制,是HPT效果更優、更穩定的根源。下圖直觀地展示了不同值下,SFT比例的動態變化過程,越大,SFT介入越頻繁。

在Qwen2.5-Math-1.5B上,不同門控設置下的訓練獎勵(左)與離線數據比例(右)對比。

上圖顯示了HPT的因材施教智慧:對Qwen強模型(γ=0),它幾乎全程用RL訓練(離線數據比例<20%),因為強模型需要更多探索;對LLaMA弱模型(γ=2),它前期大量用SFT打基礎(離線數據比例>60%)。Table 6的消融實驗更證明:對Qwen2.5-Math-1.5B,γ=0的效果(41.9分)比γ=2(39.0分)高2.9分——盲目增加SFT比例反而會損害性能。這就像教學生:對學霸,讓他多做難題;對學渣,先夯實基礎。HPT的智能正在于此。

總結:HPT—后訓練的"自動駕駛"模式

HPT 成功地將工程師從繁瑣的手動階段劃分、痛苦的比例調優中解放出來,用一個簡潔、自適應的算法,無縫融合了SFT的高效與RL的探索潛力。

從實踐角度看,HPT效果更強、更穩定、更省心。它在多個模型和基準測試上均取得了頂尖或接近頂尖的結果,無論是大模型還是小模型,都能從中受益。對于一線工程師而言,這意味著更低的試錯成本和更高的產出效率。

從方法論上看,HPT的成功是"第一性原理"思維的勝利。它沒有在工程技巧的層面修修補補,而是回歸到"我們究竟想優化什么?"這個根本問題,從統一的理論框架出發,推導出最優的算法設計。當我們將SFT和RL視為優化同一目標的不同梯度估計器時,一個基于簡單性能反饋的門控機制,就能激發出遠超復雜手工設計的威力。

HPT的真正價值,是為未來的LLM后訓練研究提供了一個強大的范式:當面臨看似矛盾的技術路線時,應回到它們共同的優化目標,尋找統一的理論解釋,再據此設計自適應的融合算法。HPT不僅是工程實踐的勝利,更是統一理論框架指導下算法設計的典范。

告別繁瑣的手動階段劃分和比例調整,HPT讓一個算法自適應地融合SFT和RL的優勢。它不再需要工程師在"SFT"與"RL"之間做非此即彼的選擇,而是讓模型根據自身能力動態選擇最優的學習路徑。效果更強、更穩定、更省心,在多個模型和基準測試上均取得SOTA或接近SOTA的結果。

HPT,理應成為每一位LLM后訓練工程師工具箱中的新標配。它不僅是一個算法,更是一種"自動駕駛"式的后訓練新范式,讓模型能夠根據自身狀態智能地選擇最優的學習路徑,從而實現能力的最大化提升。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-06-06 04:10:00

LLM人工標注RL

2025-10-10 02:15:00

2025-07-28 09:12:00

2025-09-22 10:44:20

2025-08-04 08:49:00

2025-10-11 04:00:00

2020-04-17 14:28:51

新基建5G技術

2025-07-22 08:50:00

AI模型框架

2012-10-19 10:09:51

歐洲云計算

2019-12-13 17:28:05

物聯網機器學習人工智能

2025-09-10 09:10:00

2025-07-23 05:00:00

2012-09-13 16:59:06

InformaticaHadoop大數據

2025-06-05 03:00:00

AutoRefineRAGLLM

2010-07-30 18:21:19

企業數據中心

2021-02-24 14:00:42

LinuxChromebook谷歌

2011-10-20 14:02:11

虛擬化基礎架構服務器

2025-03-28 10:16:15

2023-08-01 08:47:54

索引數據庫MongoDB
點贊
收藏

51CTO技術棧公眾號

中文字幕无码不卡免费视频| 久久久爽爽爽美女图片| 国产第一页视频| 三区四区在线视频| 国产成人在线视频免费播放| 91国内免费在线视频| 亚洲午夜精品久久久久久高潮| 粉嫩一区二区三区在线观看| 欧美三级免费观看| 一本一道久久a久久综合精品| 亚洲黄色在线播放| 蜜芽一区二区三区| 国产+成+人+亚洲欧洲| 欧美人与禽zoz0善交| 97久久亚洲| 欧美日韩国产免费| 日韩av黄色网址| 羞羞污视频在线观看| 国产欧美一区视频| 国产综合 伊人色| 91av国产精品| 另类av一区二区| 久久久久久国产精品| 网爆门在线观看| 天海翼亚洲一区二区三区| 91精品婷婷国产综合久久性色 | 欧洲不卡av| 91免费看片在线观看| 99在线观看视频网站| 亚洲一区二区视频在线播放| 香蕉国产精品偷在线观看不卡| 九九久久精品一区| 欧日韩不卡视频| 国产一区二区亚洲| 亚洲成人网在线观看| 欧美精品色视频| 欧洲亚洲精品久久久久| 欧美伊人精品成人久久综合97| av黄色在线网站| heyzo中文字幕在线| 亚洲欧美国产毛片在线| 青青草原国产免费| 日本三级视频在线播放| 亚洲国产高清不卡| 日产精品一线二线三线芒果| 青青草免费观看免费视频在线| aa级大片欧美| 激情一区二区三区| 成人av一区二区三区在线观看| 国产美女视频91| 成人夜晚看av| 国产精品国产一区二区三区四区| 久久电影网站中文字幕| 国产精品永久在线| 中文字幕欧美人妻精品| 人人狠狠综合久久亚洲| 国产精品久久久一区| 最近中文字幕在线免费观看| 日韩成人dvd| 国产精品一区二区久久| 夜夜嗨av禁果av粉嫩avhd| 精品中文av资源站在线观看| 成人av资源在线播放| 国产精品视频第一页| 国产一区二区网址| www 成人av com| 欧美一级视频免费| 91色在线porny| 日韩三级电影免费观看| 1024国产在线| 一区二区视频免费在线观看| www.日本少妇| 日韩三区在线| 91精品国产一区二区人妖| 亚洲精品鲁一鲁一区二区三区| 国产乱论精品| 亚洲天堂av在线免费观看| 精品伦精品一区二区三区视频密桃 | 三级精品在线观看| 国产日韩在线播放| 亚洲第一页在线观看| 99久久综合99久久综合网站| 日本午夜一区二区三区| 求av网址在线观看| 亚洲五月六月丁香激情| 日韩av资源在线| 色综合视频一区二区三区44| 精品成人一区二区| 九九热免费在线| 禁久久精品乱码| 国产高清视频一区三区| 国产丝袜在线视频| 91网站在线播放| 在线天堂一区av电影| 国产极品人妖在线观看| 在线免费观看日本一区| 亚洲精品久久久久久| 久久av资源| 欧美日本高清一区| 精人妻无码一区二区三区| 国产在线观看免费一区| 欧美第一黄网| 亚洲奶水xxxx哺乳期| 91久久精品一区二区二区| 26uuu国产| 大色综合视频网站在线播放| 国产69精品久久久| 夜夜躁很很躁日日躁麻豆| 白白色 亚洲乱淫| 永久免费精品视频网站| 天堂网在线最新版www中文网| 678五月天丁香亚洲综合网| 动漫精品一区二区三区| 欧美片第1页综合| 国产精品夜间视频香蕉| 色视频免费在线观看| 亚洲女厕所小便bbb| 青青青在线播放| 国产成人澳门| 欧美另类交人妖| 亚洲熟妇av乱码在线观看| 91免费观看视频在线| 日本wwwcom| 日本一区二区三区电影免费观看| 国产亚洲精品va在线观看| 男人的天堂一区二区| 国产麻豆精品在线| 亚洲欧美一区二区原创| 欧洲一区二区三区精品| 日韩不卡在线观看| 国产亚洲精品av| 国产精品综合在线视频| 伊人久久av导航| 国产资源一区| 伊人久久男人天堂| 无码人妻丰满熟妇区五十路| 91在线观看高清| 毛片在线播放视频| 91夜夜蜜桃臀一区二区三区| 欧美黑人性视频| 亚洲av永久纯肉无码精品动漫| 亚洲欧洲日产国产综合网| 向日葵污视频在线观看| 日韩在线综合| 成人黄色影片在线| 理论片午午伦夜理片在线播放| 欧美三级视频在线| 2019男人天堂| 美国十次了思思久久精品导航| 日本一区免费观看| 裤袜国产欧美精品一区| 亚洲欧美国产一本综合首页| 免费视频久久久| 久久精品网站免费观看| 日本熟妇人妻中出| 成人久久综合| 91精品一区二区| 在线观看操人| 精品国产乱码久久久久久免费 | 日本成人中文字幕在线视频| 日韩精品最新在线观看| 国产激情久久| 久久精品视频va| 国产手机视频在线| 亚洲国产成人va在线观看天堂| av电影在线播放| 亚洲专区一区| 亚洲欧美成人一区| 精品欧美视频| 91精品国产免费久久久久久 | 精品视频无码一区二区三区| 成人亚洲一区| 91精品国产91久久久久青草| 91色在线看| 亚洲欧美精品中文字幕在线| 亚洲自拍偷拍另类| 亚洲一区二区三区四区在线 | 国产97在线视频| 四虎久久免费| 精品久久久久久久久久久久久久久| 国产在线精品观看| 国产欧美一区二区精品性| 在线黄色免费看| 国产主播一区| 欧美一级爱爱| 欧美视频二区欧美影视| 欧美亚洲免费电影| 国产在线一区二区视频| 亚洲国产成人精品久久久国产成人一区 | 国产精品美女久久久久av福利| 欧美少妇网站| 久久亚洲私人国产精品va| 神马午夜一区二区| 欧美日韩免费不卡视频一区二区三区 | 免费黄视频在线观看| 亚洲一区日本| 欧美一级中文字幕| 精品国产欧美日韩| 精品国一区二区三区| 国产精品成人网站| 久久久久久电影| 天堂av手机在线| 亚洲永久网站| 精品嫩模一区二区三区| 亚洲va久久久噜噜噜久久| 成人av在线网址| 妺妺窝人体色www看人体| 免费成人av| 91手机在线视频| 日本精品裸体写真集在线观看| 欧美激情第1页| 男人资源在线播放| 亚洲美女在线观看| 亚洲精品18p| 欧美日韩aaa| 亚洲乱码国产乱码精品| 亚洲二区视频在线| 91久久久久久久久久久久久久| 91影院在线免费观看| 日韩欧美中文视频| 丝袜亚洲另类丝袜在线| 久久久久久国产精品美女| 91激情在线观看| 欧美性xxxxxx| 久草视频中文在线| 国产精品卡一卡二| 性欧美丰满熟妇xxxx性仙踪林| 国产精品综合视频| 91蝌蚪视频在线观看| 在线观看日韩av电影| 99精品一级欧美片免费播放| 国产最新精品| 久久免费看av| 九九热hot精品视频在线播放| 成人激情视频小说免费下载| 日本黄色一区| 国产91色在线| 精品国产免费人成网站| 91精品国产91久久久久福利| 欧美一卡二卡| 欧美wwwxxxx| 超碰caoporn久久| 日韩视频免费观看| 亚洲xxxxxx| 日韩中文视频免费在线观看| 成人影院免费观看| 在线播放国产一区中文字幕剧情欧美| 三区在线视频| 精品亚洲一区二区| 日本国产在线| 亚洲毛片在线免费观看| 香港三日本三级少妇66| 日韩av网站在线| 手机亚洲第一页| 亚洲网站在线播放| jizz日韩| 波霸ol色综合久久| 黄色免费在线看| 久久高清视频免费| 男女免费观看在线爽爽爽视频| 久久免费视频观看| 在线观看网站免费入口在线观看国内| 97精品一区二区视频在线观看| 美女扒开腿让男人桶爽久久软| 欧美在线视频播放| 日韩毛片在线| 91老司机精品视频| www国产精品| 久久香蕉综合色| 欧美日韩伦理| 精品国产三级a∨在线| 欧美久久99| av观看免费在线| 久久er99精品| av漫画在线观看| 久久久.com| 免费国产羞羞网站美图| 午夜欧美2019年伦理| 无码人妻黑人中文字幕| 777色狠狠一区二区三区| 亚洲奶汁xxxx哺乳期| 亚洲精品一区中文| 免费在线看a| 91精品国产亚洲| 黄色精品视频网站| 成人激情av| 国产中文精品久高清在线不| 四虎精品欧美一区二区免费| 亚洲精品社区| 亚洲精品www.| 99久久精品一区| 五月天婷婷色综合| 欧美三级免费观看| 精品二区在线观看| 亚洲网址你懂得| 黄色美女视频在线观看| 国产成人精品一区二区三区| 日本综合精品一区| 日韩一区二区三区高清| 亚洲午夜伦理| 在线免费观看视频黄| 成av人片一区二区| 免费黄色激情视频| 日韩欧美国产中文字幕| 精品人妻伦一区二区三区久久| 亚洲深夜福利在线| 久久99亚洲网美利坚合众国| 国产精品久久久久久久久久久久 | 高清国产一区| 欧美精品一二| 成人毛片一区二区| 国产乱理伦片在线观看夜一区| 亚洲av无码一区二区三区人| 亚洲综合清纯丝袜自拍| 91九色蝌蚪91por成人| 亚洲久久久久久久久久| 丁香花电影在线观看完整版| 91久久国产综合久久91精品网站 | 国产精品中文| 午夜精品福利一区二区| 国产精品免费看| 91超薄肉色丝袜交足高跟凉鞋| 日韩毛片视频在线看| 国产精品成人久久久| 亚洲欧美成人网| japanese色国产在线看视频| 亚洲自拍偷拍一区| 国产电影一区二区在线观看| 天天插天天操天天射| 久久久亚洲精品一区二区三区| 黄色激情视频在线观看| 欧美变态凌虐bdsm| 男女视频在线| 国产精品久久亚洲7777| 亚洲婷婷在线| www.男人天堂| 午夜久久久久久电影| 成人毛片视频免费看| 欧美大片欧美激情性色a∨久久| 欧美二区观看| av动漫在线播放| 国产高清在线精品| 久草视频在线资源| 精品免费国产二区三区| 青草在线视频在线观看| av日韩免费电影| 国产精品av久久久久久麻豆网| 能看毛片的网站| 一区二区三区国产精品| 国内精品久久久久久久久久久| 欧美xxxx18性欧美| 91麻豆精品国产91久久久久推荐资源| 国产资源第一页| 国产成人免费视频网站高清观看视频| 全程偷拍露脸中年夫妇| 欧美一级片在线观看| 在线视频国产区| 痴汉一区二区三区| 在线观看一区视频| 欧美无人区码suv| 在线观看成人小视频| 五月香视频在线观看| 成人夜晚看av| 欧美午夜在线视频| 成年人在线观看av| 欧美亚洲一区三区| h片在线免费| 狠狠干一区二区| 日本sm残虐另类| 欧美黑吊大战白妞| 亚洲国产欧美一区| 福利一区视频| 日本福利视频网站| 久久综合九色综合97婷婷| 无码久久精品国产亚洲av影片| 精品国产一区二区三区久久久狼 | 一区二区日本| 国产成人综合在线观看| 五月婷婷亚洲综合| 最新国产精品亚洲| 8848成人影院| 99视频在线视频| 樱花草国产18久久久久| 亚州av在线播放| 成人福利在线视频| 999在线观看精品免费不卡网站| 免费成人深夜天涯网站| 精品嫩草影院久久| 粉嫩91精品久久久久久久99蜜桃 | 日本大片在线播放| 久久综合九九| 国产精品1区2区3区在线观看| 91午夜视频在线观看| 日韩中文字幕视频在线观看| 成人性生交大片免费看中文视频 | 大桥未久一区二区三区| 91小视频免费观看| 国产视频手机在线观看| 国产www精品| 在线不卡欧美|