精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型推理學(xué)習(xí)新范式!ExGRPO框架:從盲目刷題到聰明復(fù)盤

人工智能
實驗結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗證獎勵的強化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

大模型在強化學(xué)習(xí)過程中,終于知道什么經(jīng)驗更寶貴了!

來自上海人工智能實驗室、澳門大學(xué)、南京大學(xué)和香港中文大學(xué)的研究團隊,最近提出了一套經(jīng)驗管理和學(xué)習(xí)框架ExGRPO——

通過科學(xué)地識別、存儲、篩選和學(xué)習(xí)有價值的經(jīng)驗,讓大模型在優(yōu)化推理能力的道路上,走得更穩(wěn)、更快、更遠(yuǎn)。

圖片

實驗結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗證獎勵的強化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

而且該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。

不過在展開之前,我們先來回答一個核心問題——

大模型推理的下一步,為什么我們需要“經(jīng)驗驅(qū)動”的訓(xùn)練方法?

2025年初以來,賦能大模型推理能力的技術(shù)路線以基于可驗證獎勵的強化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards)為主導(dǎo)。

簡單來說,就是讓模型像個學(xué)生一樣,不斷地“刷題”(生成推理步驟),然后由“判卷老師”(獎勵模型)來打分,模型根據(jù)分?jǐn)?shù)高低調(diào)整自己的“解題思路”。

但RLVR存在一個天然缺陷:經(jīng)驗浪費

在標(biāo)準(zhǔn)的RLVR訓(xùn)練中,模型生成的推理軌跡(Rollouts)只會被使用一次,之后就被丟棄。這意味著模型從來不會回頭復(fù)盤,甚至不記得自己是如何答對或答錯的。

以現(xiàn)實世界作比,它們像一個只做新題、從不復(fù)習(xí)的學(xué)生。每當(dāng)模型做完一道題,無論這道題的解法多么精妙、多么有啟發(fā)性,都可能都會在一次參數(shù)更新后,把這次寶貴的“解題經(jīng)驗”忘得一干二凈。

這種“學(xué)完就忘”的模式,由于Rollout代價昂貴不僅導(dǎo)致了計算資源浪費,也讓訓(xùn)練過程變得非常不穩(wěn)定。

因此,學(xué)會“溫故而知新”,讓模型根據(jù)“錯題本”,把每一次寶貴的成功經(jīng)驗都內(nèi)化為自己的能力對訓(xùn)練效率和能力提升都至關(guān)重要。

值得注意的是,強化學(xué)習(xí)著名學(xué)者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:

人類數(shù)據(jù)正在用盡,經(jīng)驗將是下一個超級數(shù)據(jù)源,是能夠為AI帶來能力提升的下一個突破口。

但是,一個看似簡單卻被忽視的問題是:

既然經(jīng)驗這么重要,那么什么樣的經(jīng)驗才值得反復(fù)學(xué)習(xí)?在大模型全面鋪開應(yīng)用的當(dāng)下,面對經(jīng)驗這個超級數(shù)據(jù)源的增長,其量級和高復(fù)雜性之高是我們不得不考慮的因素。

針對這一挑戰(zhàn),ExGRPO框架應(yīng)運而生。

圖片圖1. 主流人工智能范式的簡要時間軸示意圖。縱軸表示該領(lǐng)域總投入和計算資源中專注于強化學(xué)習(xí)(RL)的比例。截取自David Silver, Richard S. Sutton. Welcome to the Era of Experience.

什么樣的“經(jīng)驗”才是好經(jīng)驗?

在設(shè)計一個“復(fù)習(xí)”系統(tǒng)前,我們首先要搞清楚一個根本問題:

對一個正在學(xué)習(xí)推理的模型來說,什么樣的“解題經(jīng)驗”才是最有價值的?是不是所有做對的題目都值得反復(fù)回味?

為了找到答案,該工作進行了一系列有趣的探索性實驗(見圖2),并發(fā)現(xiàn),一份“高質(zhì)量”的經(jīng)驗,其價值體現(xiàn)在兩個關(guān)鍵維度上:問題的難度解題路徑的質(zhì)量

問題的甜蜜點:中等難度的問題

作者把模型在訓(xùn)練中遇到的問題,根據(jù)它當(dāng)下的“正確率”動態(tài)地分成了三類:簡單題(正確率>75%)、中等題(25%-75%)和難題(<25%)。

然后,分別只用這三類問題來進行On-Policy RLVR訓(xùn)練模型。

結(jié)果一目了然:只刷“中等難度”問題的模型,最終性能提升最大

這也符合一般直覺,簡單題模型通常已經(jīng)掌握了,反復(fù)練習(xí)邊際效益遞減,容易“學(xué)廢”;對于難題,遠(yuǎn)超模型當(dāng)前能力,強行學(xué)習(xí)容易讓模型“受挫”,產(chǎn)生胡亂猜測的壞習(xí)慣。

而中等難度的題恰好處于模型的最近發(fā)展區(qū),既有挑戰(zhàn)性,又能通過努力解決,是學(xué)習(xí)效率最高的甜蜜點。

解題路徑的“自信度”:低熵軌跡

另一方面,同樣是做對一道題,解題過程(下文也稱為軌跡)的質(zhì)量也千差萬別。

有的解法思路清晰、一步到位;有的則繞來繞去、充滿了不確定性,甚至可能是蒙對的。如何量化這種解題思路的質(zhì)量呢?

外部的強模型也許是一個選擇,但是在訓(xùn)練中使用代價過高并且會拖慢速度。

為了找到可靠的在線代理指標(biāo),作者以較強能力的Qwen3-32B模型作為參考:評價推理過程的對錯,并看看有沒有內(nèi)源性的在線指標(biāo)能夠和外部Judge的判斷正相關(guān)。

在此,作者發(fā)現(xiàn)推理軌跡的Token平均熵是一個優(yōu)秀的指標(biāo),在所有做對的題目中,那些推理過程邏輯更正確的解法,其對應(yīng)的熵值顯著更低。

進一步地,高熵軌跡很多時候只是幸運的瞎猜,反復(fù)學(xué)習(xí)這些軌跡不僅沒有幫助,反而可能污染模型的邏輯能力。

圖片圖2:模型經(jīng)驗=問題+對應(yīng)推理過程。什么才是“好問題”和“好推理過程”? (a) 使用中等難度問題訓(xùn)練的模型性能最佳。(b) 邏輯正確的推理過程通常表現(xiàn)出更低的熵值。 (c) 中等難度推理正確的熵值也更密集于低熵值區(qū)域。

這樣符合我們的認(rèn)知直覺:在人類學(xué)習(xí)中,難度適中的題目、邏輯清晰的解法,往往是最高效的學(xué)習(xí)材料。太簡單的題目讓人停滯不前,太難的題目則令人無從下手。

ExGRPO框架: 為模型打造的“高價值錯題本+溫習(xí)系統(tǒng)”

基于上述洞見,作者設(shè)計了ExGRPO框架,包含了兩個核心部件:經(jīng)驗管理和混合經(jīng)驗優(yōu)化。

圖片△圖3:ExGRPO框架概覽:經(jīng)驗管理 + 策略優(yōu)化

經(jīng)驗管理:精挑細(xì)選,分類歸檔

作者將模型經(jīng)驗定義為問題+對應(yīng)推理過程,分兩個層級進行經(jīng)驗的管理和挑選,具體它分為三步:

1、經(jīng)驗收集:ExGRPO會建立一個“經(jīng)驗回放池”,像一個巨大的“錯題本”,專門收集模型在訓(xùn)練過程中所有成功的推理案例。這也是傳統(tǒng)強化學(xué)習(xí)和先前相關(guān)工作中均擁有的基礎(chǔ)機制。

2、經(jīng)驗劃分與存儲:根據(jù)每個問題最新的“在線正確率”,將經(jīng)驗池中的問題動態(tài)地劃分到不同的“難度分區(qū)”里。這就像給錯題本按章節(jié)和難度進行分類。這樣,所有經(jīng)驗都被貼上了“簡單”、“中等”、“困難”的標(biāo)簽,管理起來一目了然。

同時,為了防止模型在簡單問題上“刷分”而產(chǎn)生過擬合,ExGRPO還擁有一個“退休機制”(Retired Set),將模型已經(jīng)完全掌握(例如連續(xù)多次全部成功解答)的問題移出學(xué)習(xí)隊列,讓模型始終聚焦于更具挑戰(zhàn)性的任務(wù)。

3、經(jīng)驗篩選:按照之前分析實驗得到的啟示和洞見,ExGRPO從兩個層次挑選經(jīng)驗:

  • 問題篩選:利用高斯分布概率模型,有偏地優(yōu)先從中等難度的分組中抽取問題。這樣能確保模型總是在學(xué)習(xí)效率最高的甜蜜點上。
  • 軌跡篩選:對于選出的問題,如果它歷史上有多個成功解法,只挑選出當(dāng)前模型看來熵最低的那一個,也就是最篤定清晰的那個解法。

通過這套精細(xì)化管理,確保了每次復(fù)習(xí)的都是最高質(zhì)量的黃金經(jīng)驗。

混合策略優(yōu)化目標(biāo):溫故而知新

選好了復(fù)習(xí)材料,接下來就是如何復(fù)習(xí)經(jīng)驗了。

ExGRPO采用了一種混合策略的優(yōu)化目標(biāo),除了對重要性采樣進行修正外,在每一次訓(xùn)練迭代中,Mini-Batch中一部分計算資源用于讓模型探索全新的問題(On-policy),另一部分則用于學(xué)習(xí)從經(jīng)驗池中精心篩選出的經(jīng)驗(Off-policy)。

巧妙地平衡了探索新知(On-Policy Exploration)和復(fù)習(xí)舊識(Experience Exploitation)。

圖片圖4:ExGRPO混合策略優(yōu)化目標(biāo)。ρ代表經(jīng)驗在Mini-Batch優(yōu)化中的混合比例。

這種“一半時間學(xué)新,一半時間復(fù)習(xí)”的模式,讓模型既能不斷拓展認(rèn)知邊界,又能持續(xù)鞏固和內(nèi)化已有的成功經(jīng)驗,從而在保證訓(xùn)練穩(wěn)定性的同時,極大地提升了學(xué)習(xí)效率。

此外,作者還引入了策略塑形(Policy Shaping)機制,確保模型在復(fù)習(xí)過往成功經(jīng)驗時,不會變得過于僵化,喪失探索創(chuàng)新的能力。

ExGRPO實驗結(jié)果和分析:更強、更穩(wěn)、更高效

作者在6個不同規(guī)模(1.5B到8B)和架構(gòu)(Qwen、Llama)的模型(Base、Instruct)上,對ExGRPO進行了全面的測試,涵蓋了從AIME、MATH等數(shù)學(xué)推理的 benchmark,到GPQA、MMLU-Pro等通用推理benchmark。

與傳統(tǒng)的在線策略RLVR方法相比,平均所有模型和測試集,ExGRPO相對于On-Policy方法(Dr. GRPO),分別帶來了+3.5和+7.6個點的分布內(nèi)、分布外性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

圖片△表1:ExGRPO在多個數(shù)學(xué)與通用推理基準(zhǔn)上的性能表現(xiàn)

圖片△圖5:ExGRPO在不同模型架構(gòu)和尺寸上的泛化能力

  • 賦能強模型

即使是在已經(jīng)很強的模型(如經(jīng)過外部R1軌跡數(shù)據(jù)作為RLVR引導(dǎo)的LUFFY)上進行持續(xù)學(xué)習(xí),ExGRPO依然能帶來穩(wěn)定的性能增益,而標(biāo)準(zhǔn)的在線RL方法反而會導(dǎo)致性能下降。

  • “救活”弱模型

此外,作者發(fā)現(xiàn)對于像Llama-3.1 8B Base基模,由于其初始推理能力較弱,標(biāo)準(zhǔn)的On-Policy強化學(xué)習(xí)方法根本無法進行有效訓(xùn)練,很快就會訓(xùn)練崩潰。

而ExGRPO憑借其經(jīng)驗回放機制,能夠捕捉到早期偶然的lucky hits,并將其作為寶貴的學(xué)習(xí)信號反復(fù)利用,最終成功地將模型“救活”并穩(wěn)定地提升其性能。

圖片圖6:在Llama-3.1 8B訓(xùn)練過程中On-Policy與ExGRPO的學(xué)習(xí)動態(tài)對比。ExGRPO能夠穩(wěn)定訓(xùn)練并獲得更高的獎勵,而On-Policy則容易出現(xiàn)訓(xùn)練崩潰。

此外,該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。高熵的經(jīng)驗中,經(jīng)常包含著一些看似正確但邏輯上有瑕疵的步驟(比如在數(shù)學(xué)題里濫用代碼塊來黑箱計算)。

如果讓模型反復(fù)學(xué)習(xí)這些經(jīng)驗,就會像滾雪球一樣,讓錯誤的推理習(xí)慣根深蒂固。ExGRPO的經(jīng)驗篩選機制,切斷了這種錯誤學(xué)習(xí)的路徑。

迎接“經(jīng)驗即媒介”的AI新時代

正如強化學(xué)習(xí)領(lǐng)域的先驅(qū)David Silver和Richard Sutton所言:

我們正處于一個新時期的風(fēng)口浪尖,在這個時期,經(jīng)驗將成為能力提升的主要媒介。

團隊表示,ExGRPO的核心貢獻,是為模型推理能力的提升,提供了一套系統(tǒng)性的、基于經(jīng)驗的學(xué)習(xí)框架。有理由相信, Principled Experience Management(有原則的經(jīng)驗管理)將成為未來構(gòu)建更強大、更高效的AI模型訓(xùn)練生態(tài)中的關(guān)鍵一環(huán)。

它不再讓寶貴的成功經(jīng)驗付諸東流,而是通過智能地識別、管理和重放高價值經(jīng)驗,像錯題本一般,讓模型真正擁有了“溫故而知新”的能力。

這不僅顯著提升了訓(xùn)練的效率和穩(wěn)定性,也為我們打開了通往更強大、更通用的人工智能的一扇新窗。

論文:https://arxiv.org/pdf/2510.02245
Code:https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO
模型:https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-06-09 09:32:35

2025-06-26 09:06:59

2025-07-16 10:42:32

2011-07-05 17:45:07

PHP框架

2025-05-30 02:00:00

獎勵模型RRMAI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2025-10-21 09:06:00

2025-10-28 08:46:00

2025-11-04 01:43:00

循環(huán)語言模型架構(gòu)

2025-04-30 16:48:07

2025-10-11 09:23:28

RLPT強化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-05-16 08:44:01

2023-06-09 07:29:03

模型文本document

2022-05-25 10:28:35

模型AI

2024-09-04 18:22:11

2022-11-03 14:13:52

強化學(xué)習(xí)方法

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-06-10 03:30:00

2020-10-30 10:23:14

機器學(xué)習(xí)趨勢范式
點贊
收藏

51CTO技術(shù)棧公眾號

国产香蕉久久精品综合网| 一区二区三区精品视频在线观看| 欧美裸体一区二区三区| 国产一级大片免费看| 内射无码专区久久亚洲| 日韩成人一级大片| 欧美疯狂做受xxxx高潮| 日韩 中文字幕| 日韩电影精品| 黄色成人在线播放| 日韩精品一区二区三区色偷偷| 99re这里只有精品在线| 羞羞答答成人影院www| 亚洲激情视频在线| 五月花丁香婷婷| 日产福利视频在线观看| 自拍偷拍亚洲激情| 日本电影一区二区三区| 黄色av免费观看| 久久国产成人午夜av影院| 性欧美长视频免费观看不卡| 久久成人小视频| 亚洲三级精品| 欧美mv和日韩mv的网站| 九色porny自拍| 性欧美xxx69hd高清| 伊人色综合久久天天人手人婷| 欧美日韩国产不卡在线看| www.日本在线观看| 美腿丝袜亚洲三区| 日韩av电影手机在线观看| 玖玖爱免费视频| 围产精品久久久久久久| 国产亚洲视频在线| 国产精品九九九九九| 97视频一区| 欧美一区二区私人影院日本| 91激情视频在线| 悠悠资源网亚洲青| 亚洲成人精品一区| 亚洲精品天堂成人片av在线播放| 成人在线免费公开观看视频| 成人短视频下载| 999日本视频| 国产三级第一页| 美女在线一区二区| 国产精品久久久久久久久久ktv| 久久夜靖品2区| 亚洲久色影视| 国内精品在线一区| 国产一级片免费| 欧美日本一区二区视频在线观看 | 青草青草久热精品视频在线观看| 久久综合亚洲色hezyo国产| 久久精品久久久| 久久精品免费电影| 午夜精品福利在线视频| 外国成人激情视频| 欧美另类99xxxxx| 久久黄色免费网站| 亚洲国产日韩在线| 国内精品小视频在线观看| 日本一级淫片色费放| 亚洲国产日本| 人体精品一二三区| 成人a v视频| 日韩av高清在线观看| 国产精品国语对白| 中文字幕欧美色图| 久久66热re国产| 99热最新在线| 人妻无码一区二区三区久久99| 成人黄页在线观看| 久久本道综合色狠狠五月| 亚洲人妻一区二区| 国产亚洲美州欧州综合国| 亚洲精品久久久久久一区二区| 91精品国产91久久久久游泳池 | 国产精品自拍视频一区| 9色国产精品| 国产激情999| 国产又粗又黄又爽的视频| 国产精品一区在线| 精品国产aⅴ麻豆| 国产高清视频在线观看| 亚洲特黄一级片| 国产xxxx振车| 色老太综合网| 91精品久久久久久久99蜜桃| 国产精品久久久久野外| 日韩av网站在线免费观看| 国产亚洲欧美一区| 久久久久久久久久网站| 亚洲一区激情| 成人在线中文字幕| 天天综合永久入口| 国产精品久久久久久久久久久免费看| 久久亚洲精品一区二区| 青青草原在线免费观看| 免费日韩av片| 91在线高清免费观看| 天天操天天干天天舔| 国产精品天天摸av网| 国产爆乳无码一区二区麻豆| 日韩欧美精品电影| 日韩欧美区一区二| 久久亚洲AV无码专区成人国产| 亚洲国产精品91| 欧美自拍大量在线观看| 国产又黄又爽视频| 91啪九色porn原创视频在线观看| 在线观看亚洲视频啊啊啊啊| 狠狠操一区二区三区| 欧美人狂配大交3d怪物一区| 中国极品少妇videossexhd| 日韩免费高清| 人妖精品videosex性欧美| 亚洲AV无码一区二区三区少妇| 欧美国产1区2区| 人妻少妇精品无码专区二区| 国产区一区二| 中国china体内裑精亚洲片| 日韩美女黄色片| 国产精品一区二区x88av| 一区二区三区视频| 欧洲一级精品| 亚洲欧美999| 五月婷婷激情网| 国产成人免费视频网站| 曰韩不卡视频| 91p九色成人| 亚洲免费视频在线观看| 日韩免费黄色片| 成人视屏免费看| 国产精品第157页| 51精品国产| 欧美久久精品午夜青青大伊人| 最新国产中文字幕| 国产欧美一区二区在线| 日韩av一二三四| 蜜桃a∨噜噜一区二区三区| 91精品国产色综合| 熟妇人妻系列aⅴ无码专区友真希| 一区二区在线观看免费| 美女被艹视频网站| 亚洲乱码精品| 91亚洲精品丁香在线观看| 羞羞网站在线看| 日韩午夜激情电影| 久久久精品人妻一区二区三区四| 国产精品影视天天线| 国产精品自拍合集| 大奶一区二区三区| 午夜精品久久久久久久男人的天堂 | 中文幕无线码中文字蜜桃| 亚洲影视在线| 日韩尤物视频| 日本电影久久久| 久久福利视频导航| 亚洲精品久久久久久久久久 | 91丨porny丨探花| 国内精品国产成人国产三级粉色| 国内免费久久久久久久久久久 | 成人午夜电影网站| 免费看又黄又无码的网站| 思热99re视热频这里只精品| 日本久久久久久| 丁香婷婷在线| 欧美精品在线视频| 久久人人爽人人爽人人| 99国内精品久久| 黄色一级免费大片| 午夜激情久久| 高清国产一区| a一区二区三区| 色av中文字幕一区| 国产成人av免费看| 精品福利在线看| 国产黄色录像视频| 国产精品一级在线| 99热久久这里只有精品| 自拍偷拍欧美一区| 成人av在线亚洲| 91福利在线尤物| 亚洲性线免费观看视频成熟| 国产精品乱码一区二区| 亚洲成人av在线电影| 午夜理伦三级做爰电影| 国内精品免费**视频| 免费国产黄色网址| 98精品久久久久久久| 国产一区二区三区av在线| 国产一区高清| 7777精品久久久久久| 乱人伦中文视频在线| 亚洲国内精品在线| 一二区在线观看| 天天操天天综合网| 免费国产羞羞网站美图| 91免费视频网| 黄色片子免费看| 日韩电影免费一区| 欧美精品久久久久久久自慰 | 成人动漫一区二区三区| 日本中文字幕精品—区二区| 极品少妇一区二区三区| 亚洲欧美电影在线观看| 日韩精品福利一区二区三区| 免费观看久久久4p| 国产风韵犹存在线视精品| 在线无限看免费粉色视频| 国产亚洲精品美女久久| 国产精品综合网站| 中文字幕在线直播| 欧美激情欧美激情在线五月| 成人18在线| 日韩精品小视频| 精品国自产在线观看| 欧美三区在线视频| 日日噜噜噜噜人人爽亚洲精品| 亚洲精品乱码久久久久久日本蜜臀| 国产sm调教视频| 91免费看片在线观看| 国产污在线观看| 国产精品一品二品| 中文字幕在线视频精品| 免费在线观看成人| 国产精品无码av无码| 国产精品永久| 国产无限制自拍| 好看的日韩av电影| 日韩精品第1页| 午夜影院欧美| mm131午夜| 亚洲a一区二区三区| 一本色道久久综合亚洲二区三区| 国产精品欧美日韩一区| 免费成人av网站| 美女亚洲一区| 日本婷婷久久久久久久久一区二区| 亲子伦视频一区二区三区| 好吊妞www.84com只有这里才有精品 | 国产精品看片资源| jizz亚洲女人高潮大叫| 国产精品久久久久久久久久久久久久 | 一区二区高清在线| 日韩成人毛片视频| 亚洲精品亚洲人成人网在线播放| 亚洲国产精品一区二区久久hs| 中文字幕免费不卡| a级黄色免费视频| 国产精品久久久久一区| 99久久精品久久亚洲精品| 国产精品国产三级国产普通话蜜臀 | 国产人妻精品一区二区三区| 欧美一区二区久久| 亚洲国产剧情在线观看| 精品久久久久久久久久久久久久久 | 国产一级二级av| 成人免费视频一区| 国产精品九九九九九| 国产女主播一区| 久久久久麻豆v国产| 亚洲精品网站在线观看| 久久精品这里只有精品| 亚洲国产成人av网| 久久国产精品免费看| 色偷偷久久人人79超碰人人澡| 无码免费一区二区三区| 欧美男同性恋视频网站| 国产手机av在线| 亚洲成年人在线| 你懂的在线播放| 中文字幕在线成人| 羞羞污视频在线观看| 4438全国成人免费| 福利一区二区三区视频在线观看 | 精品少妇无遮挡毛片| 久久黄色级2电影| 亚洲av午夜精品一区二区三区| av在线播放不卡| 四虎成人免费影院| 亚洲日本在线视频观看| 日韩女优在线观看| 欧美日韩一区二区三区高清| 精品国产黄色片| 日韩毛片在线观看| 欧美成年黄网站色视频| 欧美激情啊啊啊| 第四色男人最爱上成人网| 亚洲一区二区中文| 亚洲国产国产| 亚洲国产精品女人| 先锋亚洲精品| 91网址在线观看精品| 91浏览器在线视频| 亚洲欧美精品久久| 欧美日韩国产综合视频在线观看中文| 在线观看亚洲黄色| 亚洲第一男人av| 麻豆网站视频在线观看| 97视频免费在线观看| avtt久久| 日韩精品一区二区三区四区五区| 国产综合婷婷| 在线不卡一区二区三区| 91污在线观看| 久久精品视频9| 欧美疯狂做受xxxx富婆| 国产小视频在线播放| 国模精品系列视频| 亚洲日日夜夜| 日韩一区免费观看| 免费一级欧美片在线播放| 黄色性视频网站| 一区二区免费看| 国产又大又黄又爽| 伊人青青综合网站| 亚洲精品mv| 国产原创精品| 欧美精品99| 99九九99九九九99九他书对| 久久久久久久一区| 日韩免费av片| 亚洲成人亚洲激情| 国产在线高清理伦片a| 国产精品久久久久久av下载红粉| 欧美天堂影院| 国产高清av在线播放| 国产99久久久精品| 在线免费观看亚洲视频| 欧美日本精品一区二区三区| 国产天堂在线| 日韩暖暖在线视频| 亚洲女娇小黑人粗硬| 欧美色图另类小说| av亚洲精华国产精华| 黄色小说在线观看视频| 精品日韩成人av| 欧美xxxx性xxxxx高清| 99re国产视频| 亚洲午夜电影| 性色av蜜臀av浪潮av老女人| 亚洲国产综合色| 欧美一区二区三区成人片在线| 色综合色综合网色综合| 日韩有吗在线观看| 女人被男人躁得好爽免费视频| 国产一区二区精品久久| frxxee中国xxx麻豆hd| 51午夜精品国产| 一色桃子av在线| 操一操视频一区| 亚洲国产高清视频| 在线观看av中文字幕| 欧美性xxxx在线播放| 黄色软件在线| 国产精品网址在线| 66国产精品| 久久无码专区国产精品s| 亚洲国产aⅴ天堂久久| 五月激情丁香婷婷| 国产精品 欧美在线| 久久视频在线| 国模大尺度视频| 精品成人av一区| 国产69精品久久app免费版| 国产免费一区二区三区香蕉精| 亚洲成人国产| 性活交片大全免费看| 欧美日韩免费在线观看| 国产爆初菊在线观看免费视频网站| 国产噜噜噜噜噜久久久久久久久| 中文无码久久精品| japanese在线观看| 色欧美日韩亚洲| 麻豆免费在线观看| 国产一区国产精品| 久久综合影音| 美女的奶胸大爽爽大片| 日韩大片免费观看视频播放| 成人黄页网站视频| 成人午夜免费在线视频| 久久精品一区二区三区不卡牛牛| 91影院在线播放| 性欧美办公室18xxxxhd| 日韩国产专区| 亚洲激情 欧美| 欧美色电影在线| segui88久久综合9999| 天天综合狠狠精品| 成人精品视频一区二区三区尤物| 日本黄色中文字幕| 欧美福利视频在线观看| 国产免费av一区二区三区| 日本特黄在线观看| 一本大道久久a久久综合| 91极品在线| 亚洲国产日韩欧美| 99re热这里只有精品免费视频|