精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

總成本降低30倍,告別昂貴后訓練,在線策略蒸餾敲開大模型后訓練的未來

人工智能 新聞
通過利用來自學生的在線策略采樣和來自教師的密集監(jiān)督,在線策略蒸餾配方以一小部分成本,達到了過去需要高昂計算成本的強化學習才能達到的能力。

一家明星公司 Thinking Machines,發(fā)了一篇論文,提出一種LLM后訓練方法——在線策略蒸餾,讓小模型更懂專業(yè)領域。

Thinking Machines成立于2024年,由前OpenAI首席技術官Mira Murati聯(lián)合創(chuàng)立。專注于開發(fā)新一代人工智能基礎設施和模型,目標是構建安全、可靠且可擴展的 AI 系統(tǒng)。團隊還包括多位來自 OpenAI、Google 和 Meta 的資深工程師與研究人員。

在線策略蒸餾用十分之一的成本,達到了比強化學習更高的模型性能。

大型語言模型展現(xiàn)出的專家級能力,并非單一技術的產物,而是輸入感知、知識檢索、計劃選擇和可靠執(zhí)行等多種能力的復雜疊加。

要鑄就這些能力,一套完整的訓練方法必不可不可少。這個過程通常被劃分為三個宏觀階段。

  • 預訓練(pre-training)是第一步,它通過海量的無監(jiān)督文本,教授模型語言使用、廣泛推理和世界知識等通用能力。
  • 中期訓練(mid-training)是第二步,它向模型灌輸特定領域的知識,比如代碼、醫(yī)療數(shù)據庫或一家公司的內部文檔。
  • 后訓練(post-training)是最后一步,也是至關重要的一步,它負責引導模型產生目標行為,例如遵循指令、進行數(shù)學推理或展開對話。

Thinking Machines Lab的Kevin Lu及其合作者發(fā)表的這篇研究,就將焦點精準地對準了后訓練階段。

他們提出了一種名為在線策略蒸餾(On-policy distillation)的新方法,巧妙地將在線策略訓練的相關性與蒸餾的密集獎勵信號結合起來。

這種方法在保持甚至超越現(xiàn)有模型性能的同時,戲劇性地降低了訓練成本,為大型語言模型的高效后訓練開辟了一條全新的道路。

LLM后訓練面臨一個根本性的兩難選擇

大型語言模型訓練方法的演進,是一部從簡單到復雜的歷史。

早期的語言模型幾乎完全依賴預訓練。但隨著模型規(guī)模的爆炸式增長和應用需求的日益多樣化,人們很快發(fā)現(xiàn),僅靠預訓練已無法滿足特定任務的高性能要求。中期訓練和后訓練階段應運而生。

后訓練的方法,主要可以歸為兩大流派:在線策略訓練(on-policy training)和離策略訓練(off-policy training)。

  • 在線策略訓練,顧名思義,是從學生模型自身生成的軌跡(或稱經驗)中采樣,并為其分配獎勵。學生在自己走過的路上學習。
  • 離策略訓練,則依賴于一個外部來源提供的目標輸出。學生模型需要學習的,是模仿這些現(xiàn)成的、高質量的輸出。

強化學習是典型的在線策略訓練方法。它通過獎勵信號,像馴獸師一樣引導模型學習正確的行為。但強化學習有一個致命的弱點:反饋極其稀疏。

無論模型生成了多少個token,在一個訓練周期內,它能學到的信息量是固定的。

以解答一道數(shù)學題為例。

如果學生模型最終給出了錯誤答案,強化學習的獎勵機制只能告訴它你錯了。這個反饋是序列級別的,它無法指出錯誤究竟發(fā)生在哪一個具體的推理步驟。學生模型就像一個考砸了卻拿不到批改試卷的孩子,只知結果,不知所以然。

離策略訓練則試圖解決這個問題。它通常采用監(jiān)督微調(Supervised Fine-Tuning, SFT)的形式,在一個經過精心策劃和標記的任務示例集上進行訓練。

這些高質量的標記示例,往往來自于一個在任務上表現(xiàn)出色的教師模型。蒸餾(distillation)就是一種常用的離策略訓練機制,它訓練學生模型去匹配教師模型的輸出分布,學習教師的思考過程。

傳統(tǒng)蒸餾方法提供了密集的獎勵信號,看似解決了強化學習的痛點。但它引入了一個新的、同樣棘手的問題:學生模型學習的上下文,是教師模型經常遇到的上下文,而不是它自己會遇到的。

這會導致一種被稱為復合錯誤(compounding error)的現(xiàn)象。

想象一下,學生模型在解題的早期步驟犯了一個小錯誤,一個教師模型絕不會犯的錯誤。這個錯誤會立刻將它帶入一個未知領域,一個在教師提供的訓練數(shù)據中從未出現(xiàn)過的狀態(tài)。由于缺乏應對這種陌生局面的經驗,學生模型很可能會一步錯、步步錯,最終離正確答案越來越遠。

這就是后訓練面臨的兩難困境:在線的強化學習反饋稀疏,學習效率低下;離策略的蒸餾存在分布不匹配問題,可能導致復合錯誤。人們似乎必須在學得慢和學不準之間做出抉擇。

在線策略蒸餾找到了最優(yōu)解

在線策略蒸餾的核心思想非常直觀:從學生模型自己采樣的軌跡中學習,同時使用一個高性能的教師模型,對這條軌跡中的每一個詞元進行評分。

它像一位經驗豐富的導師,看著學生親手完成作業(yè),并在每一個步驟旁邊給出即時反饋。

這種方法完美結合了在線策略訓練的相關性(學生在自己遇到的狀態(tài)下學習)和蒸餾的密集獎勵信號(每個步驟都有反饋),實現(xiàn)了魚與熊掌兼得的效果。

回到數(shù)學解題的例子。在線策略蒸餾會對學生解答過程的每一步進行評分。它不僅會懲罰那些最終導致錯誤答案的步驟,還會強化那些被正確執(zhí)行的步驟。

這提供了一個比傳統(tǒng)強化學習密集得多的反饋信號,同時又完美規(guī)避了離策略學習的分布不匹配問題。

為了評估學生模型的軌跡,在線策略蒸餾可以采用多種損失函數(shù)。研究人員為了簡化問題,選擇了一種高效且強大的度量方式:每詞元反向KL散度(reverse KL)。

它衡量的是,在給定相同歷史軌跡的條件下,學生模型(π_θ)的預測分布與教師模型(π_teacher)的預測分布之間的差異。

獎勵函數(shù)的目標就是最小化這個反向KL散度。這會推動學生模型,在它自己所處的每一個狀態(tài)下,都盡可能地模仿教師模型的行為。

當學生模型的行為與教師模型完全一致時,反向KL散度為零。為了簡化計算,研究者使用了零折扣因子,這意味著在任何給定的時間步,學生模型只關心如何優(yōu)化緊接著的下一個詞元,而不去考慮更遙遠的未來。

反向KL散度與強化學習有著天然的親和力,因為強化學習本質上也是在優(yōu)化某種由獎勵模型定義的序列級反向KL。

但與大多數(shù)獎勵模型不同,反向KL是不可破解的。一個低的KL值總是對應著從教師模型角度看的高概率期望行為,不存在被學生模型利用以獲得高獎勵卻產生無用輸出的漏洞。

反向KL還有另外兩個非常實用的特性。

它是模式尋求的。這意味著它會引導學生學習一種特定的、高質量的行為(教師模型的行為),而不是將概率分散在幾個次優(yōu)的選項上,讓學習目標更加明確。

它還能有效減少暴露偏差(exposure bias)。暴露偏差指的是模型在訓練時看到的是真實數(shù)據,但在推理時看到的是自己生成的數(shù)據,這種差異導致的性能下降。在線策略蒸餾通過讓學生在自己生成的數(shù)據上學習,天然地緩解了這個問題。

實現(xiàn)這套方法的過程也相對簡單,可以基于現(xiàn)有的強化學習腳本進行構建。Thinking Machines Lab利用其Tinker訓練API,主要通過以下幾個步驟實現(xiàn):

  1. 初始化教師客戶端。Tinker API使得為不同模型創(chuàng)建客戶端變得輕而易舉,無需擔心底層模型引擎的資源利用率。這里使用采樣客戶端,因為只需要教師模型進行前向傳播計算概率,而不需要反向傳播梯度。
  2. 采樣軌跡。像在標準強化學習中一樣,從學生模型采樣軌跡。在采樣過程中,學生的對數(shù)概率已經被計算出來,這是后續(xù)重要性采樣損失計算的一部分。
  3. 計算獎勵。使用compute_logprobs函數(shù)查詢教師客戶端,獲取教師模型對學生采樣出的那些詞元的對數(shù)概率。然后,利用這個值計算出每一步的反向KL散度。
  4. 使用強化學習進行訓練。將每詞元的優(yōu)勢函數(shù)(advantage)設置為負的反向KL散度,然后調用強化學習的重要性采樣損失函數(shù),對學生模型執(zhí)行一次訓練更新。

這個流程帶來了顯著的計算效率提升。

由于計算獎勵的過程非常快,不必等待整個長軌跡采樣完成,可以使用較短或部分的軌跡就開始訓練,大大加快了迭代速度。

查詢教師模型的對數(shù)概率,也僅僅需要一次從較大模型的前向傳播,而生成軌跡的任務則由更小、更便宜的學生模型來完成。

更重要的是,這種方法不需要一個獨立的獎勵模型或標記模型。教師模型本身就扮演了獎勵模型的角色,高明且廉價。未來一個有趣的研究方向,可能是將這種基于蒸餾的每詞元獎勵與傳統(tǒng)的序列級環(huán)境獎勵結合起來。

驚人的效率提升是其最直接的優(yōu)勢

理論上的優(yōu)雅必須通過實踐來檢驗。研究者使用在線策略蒸餾進行后訓練,并將其與傳統(tǒng)方法進行了直接比較,以此來展示其作為訓練專家模型最后關鍵階段的威力。

實驗場景設定在數(shù)學推理能力的訓練上。

研究者選擇Qwen3-8B-Base模型作為學生,Qwen3-32B作為教師,目標是提升學生模型的數(shù)學推理能力。這兩個模型都是Tinker平臺目前支持的模型,使得實驗可以被輕松復現(xiàn)。

所有實驗都從一個共同的起點開始:一種離策略蒸餾形式的中期訓練。

具體來說,就是在一個由教師模型生成的數(shù)據集上,對學生模型進行監(jiān)督微調。這個數(shù)據集名為OpenThoughts-3,它是由一個類似Qwen3-32B的推理模型QwQ-32B生成的推理提示和響應集合。

在40萬個提示上進行完全微調后,學生模型Qwen3-8B-Base在AIME'24(一個數(shù)學問題基準測試)上達到了60%的分數(shù)。研究者也嘗試了LoRA(低秩適應)進行訓練,但在這種高容量數(shù)據集上,LoRA的效果不如完全微調。

所有情況下的性能增長都呈現(xiàn)出一種對數(shù)線性關系——初期的性能提升成本低廉,但越往后,每提升一個百分點所需的成本就越高。

現(xiàn)在,這個經過40萬提示微調、AIME'24分數(shù)達到60%的模型,成為了比較不同后訓練方法效果的檢查點。目標是:將AIME'24分數(shù)從60%提高到70%,看看哪種方法最省力。

默認的方法是繼續(xù)進行監(jiān)督微調,也就是延續(xù)離策略蒸餾的過程。根據之前觀察到的對數(shù)線性趨勢進行外推,研究者估計,模型大約需要在200萬個提示上進行訓練,才能在AIME'24上達到70%的分數(shù)。

這個外推的前提是縮放定律(scaling law)持續(xù)有效而不會停滯,這本身就是一個不小的挑戰(zhàn)。盡管如此,確實存在通過大規(guī)模離策略蒸餾將8B模型性能提升到70%以上的先例。

Qwen3在一個類似的SFT初始化的基礎上,通過強化學習,花費了17920個GPU小時,在AIME'24基準測試上達到了67.6%的性能。

直接比較這個成本與蒸餾的成本很困難,但根據對SFT訓練堆棧的一些合理假設,這大致相當于訓練200萬個離策略蒸餾提示的成本。

真正引人注目的是,Qwen團隊報告稱,他們使用在線策略蒸餾,僅用了強化學習十分之一的成本(1800 GPU小時),就在AIME'24上達到了更高的74.4%的分數(shù)。這正是啟發(fā)這項研究工作的關鍵發(fā)現(xiàn)。

研究者在自己的基礎設置中嘗試復現(xiàn)這一驚人的結果。

從60%分數(shù)的SFT檢查點開始,在線策略蒸餾僅用了大約150個訓練步驟,就將AIME'24的分數(shù)提升到了70%。

比較不同方法的計算成本是一件復雜的事情,因為訓練、采樣和對數(shù)概率計算的成本比例因具體實現(xiàn)而異。

為了得到一個更公平的比較,研究者以浮點運算次數(shù)(FLOPs)來計算成本。這種度量方式會懲罰那些可以在GPU上高效并行化的操作,因此它實際上高估了計算對數(shù)概率的真實成本。

結果是驚人的。

當SFT數(shù)據集是現(xiàn)成的(比如OpenThoughts-3),或者其生成成本可以在多次訓練中分攤時,在線策略蒸餾的基線成本降低了9倍。

在這種情況下,不計入離策略訓練的教師FLOPs成本,但必須計入在線策略的,因為教師模型需要實時運行以計算學生軌跡的對數(shù)概率。

考慮到這種計算可以在GPU上廉價地并行化,換算成GPU小時的成本降低幅度更接近18倍。

在更現(xiàn)實的場景中,常希望在沒有現(xiàn)成離策略蒸餾數(shù)據集的新任務上訓練模型。如果將離策略蒸餾中生成數(shù)據的教師模型成本也完全計算在內,那么總成本的降低幅度達到了約30倍。

密集監(jiān)督帶來的效率提升是顯著的。強化學習和在線策略蒸餾都通過反向KL進行學習,本質都是在修剪基礎策略中存在的動作空間。它們的根本區(qū)別在于獎勵的密度。

一篇名為LoRA Without Regret的研究提出了一個信息論的視角:強化學習每個周期只教授O(1)比特的信息。相比之下,蒸餾每個周期能教授O(N)比特的信息,其中N是序列中的詞元數(shù)量。

為了量化這種密集獎勵帶來的訓練效率提升,研究者進行了一項直接對比實驗:

  1. 從Qwen3-8B-Base模型開始,不進行任何額外的SFT。
  2. 在DeepMath數(shù)據集上運行強化學習,得到的模型作為蒸餾的教師。
  3. 使用在線策略蒸餾,將從強化學習訓練出的模型的知識,蒸餾回基礎模型。

結果顯示,在線策略蒸餾達到教師性能水平的速度,比強化學習快了約7-10倍。反向KL散度迅速降至接近零,AIME分數(shù)在不到10個梯度步內就恢復了,而強化學習則需要70步才能達到同樣的水平。

累計來看,所需的總計算量減少了約50-100倍。

這其中的原因有兩點。強化學習通常需要在接近評估上下文長度的序列上進行訓練,以便策略能夠學習到上下文的限制。

而蒸餾在較短的上下文長度下也能合理學習,因為獎勵是密集的,不會因為軌跡是否完成而出現(xiàn)急劇的懸崖。

當SFT初始化較強時,在線策略蒸餾可以有效地使用更小的批量大小,因為它每個周期提供的信息比特更多,從而降低了梯度噪聲。

這些結果有力地表明,過程監(jiān)督和密集獎勵有潛力將學習效率提高一個數(shù)量級。

它為持續(xù)學習和個性化打開了新大門

除了在通用任務上訓練高性能小模型,蒸餾的另一個重要用例是個性化。

例子包括讓模型在對話中遵循特定的語調和輸出格式,或者實現(xiàn)工具使用和成本預算等特定功能。通常希望將這種定制化的行為與新的領域知識一起訓練到模型中。

同時訓練知識和行為通常非常困難。

輕量級的微調往往不足以實現(xiàn)目標,需要進行更大規(guī)模的中期訓練。而在新知識的基礎上學習后訓練行為,則需要一套復雜的后訓練堆棧,通常依賴于專有數(shù)據和獎勵模型。這種方法對于頂尖實驗室來說是可行的,但對于大多數(shù)從業(yè)者而言,成本過高且難以復制。

在線策略蒸餾在這里展現(xiàn)了其作為一種高效后訓練工具的價值。

這種方法同樣適用于持續(xù)學習或測試時訓練:在模型部署后,不斷用新數(shù)據更新它,同時不損害其基礎性能。

研究者用一個在內部公司文檔上進行中期訓練的模型作為例子。

定制模型的一個常見目標是讓它扮演一個助手角色:既在某個領域擁有專業(yè)知識,又具備可靠的助手行為。這兩個目標可能需要分開訓練,特別是當專業(yè)領域知識無法僅從預訓練數(shù)據中學到,或者學習新知識的過程會干擾原有行為時。

實驗中的內部公司助手有兩個期望:

  1. 模型了解公司文檔。預訓練模型沒有見過這些內部文檔,因此只能猜測。研究者使用內部知識問答評估(內部QA)來衡量這一點。
  2. 模型表現(xiàn)出強大的后訓練行為,即指令跟隨能力。研究者使用常用的IF-eval基準來衡量這一點。

這次,研究者從Qwen3-8B開始,這是一個已經經過指令跟隨和推理強化學習后訓練的模型。

先前的研究表明,這種強化學習可能只訓練了原始模型的一小部分子網絡,因此當網絡在大量新數(shù)據上進一步訓練時,這些習得的能力可能非常脆弱。

研究者首先探究了災難性遺忘發(fā)生的程度。

為了減少災難性遺忘,中期訓練的一個常見做法是混合來自原始模型預訓練分布的背景數(shù)據。

但研究者無法訪問Qwen3的預訓練分布。因此,他們采用了一個更強但更昂貴的基線:使用Tulu3提示(一個廣泛的聊天和指令跟隨數(shù)據集),并用Qwen3-8B重新采樣,作為聊天背景數(shù)據。

這種由Qwen3-8B采樣的在線策略背景數(shù)據,充當了一個前向KL正則化器,在整個中期訓練過程中強化模型的原始行為。

然后,研究者在內部文檔和聊天數(shù)據的不同混合比例上微調Qwen3-8B。

結果顯示,增加文檔數(shù)據的比例直接提高了模型的知識水平。但同時,雖然混合至少30%的聊天數(shù)據有助于保留大部分指令跟隨能力,但沒有任何一個混合權重能夠保持IF-eval上的原始性能不下降。

對于任何給定的混合比例,研究者都觀察到IF-eval性能在微調期間持續(xù)下降。這嚴重損害了使用更長時間的訓練來進一步專業(yè)化模型的能力。

接下來,研究者試圖在內部文檔微調之后,恢復模型的指令跟隨行為。

這種行為最初是用昂貴且脆弱的強化學習訓練出來的。這一次,他們選擇在Tulu3提示上運行在線策略蒸餾,并巧妙地使用模型的早期版本——即原始的Qwen3-8B——作為教師。

這個訓練階段與內部文檔數(shù)據完全無關,其唯一目的就是恢復被遺忘的指令跟隨能力。

使用模型的一個早期版本作為教師,來重新激活在微調過程中丟失的能力,這使得在線策略蒸餾在持續(xù)學習方面非常有前景。

可以設想一種訓練模式:在新數(shù)據上進行微調階段,然后進入恢復行為的蒸餾階段,兩者交替進行。這使得模型能夠隨著時間的推移不斷學習新知識,同時保持核心能力不退化。

結果非常理想。

在一個70%內部文檔和30%聊天數(shù)據的混合微調之后,在線策略蒸餾幾乎完全恢復了模型在IF-eval上的性能,并且沒有丟失任何新學到的知識。研究者甚至觀察到聊天能力和模型在內部QA評估上的知識性能之間存在一些正向遷移。

本質上,在線策略蒸餾將語言模型本身視為一個獎勵模型,高概率的行為會得到獎勵。

這與逆強化學習(Inverse Reinforcement Learning)有異曲同工之妙。

任何經過指令調優(yōu)的開源模型,只要能訪問其計算對數(shù)概率的函數(shù),就可以在這種意義上被用作獎勵模型。

蒸餾作為整合行為和知識的工具,其潛力遠不止于此。在線學習可以是增強類似模型合并設置的關鍵工具。

更有趣的是,在線策略蒸餾還能極大地提高數(shù)據效率。

對于許多從業(yè)者來說,收集大規(guī)模的訓練提示數(shù)據集既困難又耗時。因此,在訓練中多次重復使用提示就顯得尤為重要。

使用強化學習時,在同一個提示上訓練多個周期,通常會導致模型簡單地記住最終答案,而不是學會推理過程,特別是對于大模型。

相比之下,在線策略蒸餾通過最小化反向KL散度,學習的是近似教師的完整分布,而不僅僅是記憶單個答案。這允許在同一個提示上訓練多個樣本而不導致過擬合。

研究者重復了在數(shù)學上訓練Qwen3-8B-Base的實驗,但這次只使用數(shù)據集中隨機選擇的一個提示。

他們在這個唯一的提示上連續(xù)訓練了20步,總共生成并評分了5120個序列。盡管這種方式計算效率較低,但結果令人驚訝:僅靠這一個訓練提示,學生模型就成功匹配了教師模型的AIME'24性能。

在線策略蒸餾的成功,讓人們重新思考強化學習的本質。

或許我們應該將強化學習看作是在一個語義策略空間中進行探索。

它的大部分計算并非花費在梯度更新上,而是花費在搜索上——推出不同的策略并為其分配信用。

它不是在參數(shù)空間中艱難跋涉,而是在已有的能力集合中進行隨機組合,偶然發(fā)現(xiàn)新的有效策略。

一旦找到了好的策略,蒸餾就成了學習它的捷徑。

在線策略蒸餾不需要建模強化學習課程中所有中間的、不成熟的策略,它直奔終點,只建模那個最終學到的、最優(yōu)的策略。

這就像科學研究。我們花費大量時間和資源去探索、試錯,最終找到答案。一旦結果被發(fā)現(xiàn),用自然語言把它教給別人,就變得相對簡單。

與之相對的是直覺性的身體技能,比如運動。這些技能更難教授,因為知識存在于一種內在的語言——肌肉記憶中。運動只能通過反復練習來學習。強化學習更像后者,而在線策略蒸餾則像前者中的教學環(huán)節(jié)。

在線策略蒸餾始終保持在線策略,并且由于教師是固定的,學生會穩(wěn)定地收斂于教師的理想行為,而不會像自蒸餾的SFT那樣性能退化。

這使其成為持續(xù)學習的一個極具前景的強大工具。

這項研究探索了在線策略蒸餾在數(shù)學推理和持續(xù)學習等應用中的巨大潛力。

通過利用來自學生的在線策略采樣和來自教師的密集監(jiān)督,在線策略蒸餾配方以一小部分成本,達到了過去需要高昂計算成本的強化學習才能達到的能力。

后訓練是通往最前沿模型能力的關鍵一環(huán),而在線策略蒸餾,無疑是這條路上最高效、最經濟的路徑之一。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關推薦

2020-12-15 11:01:37

混合云公共云云遷移

2022-04-08 14:40:59

框架訓練模型

2010-10-08 09:42:26

PUE數(shù)據中心總成本能源

2015-12-16 14:02:04

云存儲成本

2022-11-09 13:53:45

AI圖像

2025-04-16 02:30:00

2023-01-05 21:25:06

毫末

2023-02-08 11:29:55

數(shù)據中心服務器

2024-09-26 00:11:01

2025-10-28 09:09:51

2022-10-19 14:03:45

開源AI

2025-10-28 08:50:00

AI模型訓練

2025-10-16 09:00:00

2013-10-15 09:23:44

微軟Azure云服務

2009-09-04 11:26:00

英特爾虛擬化

2013-08-30 14:10:51

大數(shù)據

2014-04-22 10:57:25

統(tǒng)一通信云服務

2020-07-29 12:16:12

預訓練自訓練神經網絡

2022-09-13 21:32:09

毫末

2025-03-13 12:39:22

點贊
收藏

51CTO技術棧公眾號

亚洲欧美日韩一级| 国产91九色视频| 久久久九九九热| 暖暖在线中文免费日本| 99国产精品久久久久| 日本精品中文字幕| 尤物在线免费视频| 国产成人一二片| 一本色道**综合亚洲精品蜜桃冫| 亚洲一区二区高清视频| 亚洲精品喷潮一区二区三区| 丝袜诱惑亚洲看片| 另类色图亚洲色图| 亚洲一级中文字幕| 美国十次综合久久| 日韩欧美大尺度| 蜜臀在线免费观看| 欧美成人综合在线| 国产一区欧美二区| 日本伊人精品一区二区三区介绍| 来吧亚洲综合网| 欧洲vs亚洲vs国产| 884aa四虎影成人精品一区| 欧美 日韩 亚洲 一区| 欧美jizz18性欧美| 久久久久久免费毛片精品| 91在线无精精品一区二区| 精品一区二区无码| 亚洲精品精选| 久久在线视频在线| youjizz亚洲女人| 日韩av午夜| 日韩免费电影网站| 特黄视频免费观看| 国产精品亚洲一区二区三区在线观看 | 97视频免费在线观看| 国产3级在线观看| 香蕉一区二区| 亚洲成人网在线| 波多野结衣免费观看| 国产极品一区| 日本道在线观看一区二区| 久久久性生活视频| 日本三级在线观看网站| 成人免费在线视频观看| 日韩av影视| 免费在线看v| 97久久精品人人做人人爽| 国产精品久久久久久久久久直播| 国产精品女人久久久| 免费在线观看视频一区| 国产精品99久久久久久白浆小说| 天天做天天爱夜夜爽| 亚洲精品1区| 国内精品久久影院| 国产一级片免费观看| 欧美国产91| 欧美另类极品videosbest最新版本| 国产精品夜夜夜爽阿娇| 久久久久久久久国产一区| 日韩亚洲精品电影| 亚洲区一区二区三| 亚洲欧美色图| 欧美疯狂性受xxxxx另类| 久久高清内射无套| 欧美人成网站| 高清欧美性猛交| 国产欧美日韩另类| 久久三级福利| 国产精品久久久久久久久久| 中文字幕人妻一区二区在线视频 | 亚洲第一成年人网站| 国产精品白丝av| 7777奇米亚洲综合久久| 亚洲国产精品欧美久久| 波多野结衣中文字幕一区| 国产一区在线观| 毛片网站在线| 国产精品不卡视频| 麻豆传媒网站在线观看| 国产精品69xx| 欧美日韩综合视频| 午夜国产一区二区三区| 国产日韩中文在线中文字幕| 日韩精品一区二| 久久久久国产精品区片区无码| 免费成人网www| 中文字幕不卡av| 婷婷在线精品视频| 一区二区三区成人精品| 国产99在线|中文| 国产成人精品av在线观| www..com久久爱| 亚洲高清精品中出| 91高清在线观看视频| 黄色一区二区三区| 蜜桃免费在线视频| a看欧美黄色女同性恋| 亚洲女同精品视频| 国产suv精品一区二区68| 激情综合亚洲| 国产精品免费一区| 亚洲精品一区二区三区四区| 久久久久高清精品| 91免费版看片| 日韩和的一区二在线| 欧美成人免费网站| av女人的天堂| 国内精品福利| 国产精品免费观看在线| 日批免费在线观看| 中文字幕中文字幕一区| 欧美激情 国产精品| 日韩一区二区三免费高清在线观看| 精品捆绑美女sm三区| 亚洲最大成人综合网| 狠狠色综合网| 成人免费福利视频| 嫩草研究院在线观看| 夜夜精品浪潮av一区二区三区| 国产女女做受ⅹxx高潮| 日本精品国产| 在线日韩第一页| 久久精品一二区| 国产高清不卡二三区| 西游记1978| 成人av三级| 亚洲国产精品高清久久久| 日本精品在线免费观看| 日韩中文字幕亚洲一区二区va在线| 99国精产品一二二线| 婷婷成人激情| 欧洲视频一区二区| 北岛玲一区二区| 欧美三级黄美女| 亚洲japanese制服美女| 国产精品四虎| 一本大道av伊人久久综合| 久久精品aⅴ无码中文字字幕重口| 久久中文字幕二区| 国产精品久久久久久久久久久不卡 | 久久久久久久麻豆| 日韩电影免费在线| 欧美极品一区| 亚洲同志男男gay1069网站| 精品国产乱码91久久久久久网站| 一区二区视频免费看| 久色婷婷小香蕉久久| 亚洲欧美精品| 456成人影院在线观看| 亚洲欧洲av一区二区| 精品不卡一区二区| 久久日韩精品一区二区五区| www.com毛片| 日韩精品免费一区二区夜夜嗨| 狼人精品一区二区三区在线| 91免费在线视频观看| 日韩精品在线视频免费观看| 日韩区欧美区| 九九热视频这里只有精品| h片在线免费看| 伊人婷婷欧美激情| 国产精品91av| 最新成人av网站| 久久久久久久久一区二区| 亚洲人成午夜免电影费观看| 亚洲欧美国产视频| 特级西西444www大胆免费看| 国产精品盗摄一区二区三区| 五月天丁香花婷婷| 韩日在线一区| 久久久人人爽| 成人亚洲综合| 蜜臀久久99精品久久久久久宅男 | 国产日韩欧美一区二区三区四区| 丁香花在线电影| 亚洲毛片在线免费观看| 欧美激情一区二区三区免费观看| 国产精品理伦片| www.午夜av| aa级大片欧美三级| 色涩成人影视在线播放| 国产亚洲久久| 欧亚精品在线观看| 欧美精品电影| 亚洲第一网站免费视频| 国产伦精品一区二区三区视频我| 国产精品你懂的| 一区二区在线免费观看视频| 国产美女一区| 中文字幕在线亚洲三区| www国产精品| 国产97在线播放| www视频在线看| 日韩国产精品视频| 中文字幕乱码视频| 香蕉影视欧美成人| 日本免费网站视频| 99精品视频在线观看免费| 亚洲不卡视频在线| 激情久久一区| 夜夜爽99久久国产综合精品女不卡 | 成人高清在线观看视频| 亚洲中字黄色| 国产盗摄视频在线观看| 亚洲欧美成人vr| 亚洲一区制服诱惑| 日韩久久一区二区三区| 欧美激情va永久在线播放| 国自产拍在线网站网址视频| 欧美一二区视频| 精人妻无码一区二区三区| 亚洲激情欧美激情| 蜜桃av乱码一区二区三区| 盗摄精品av一区二区三区| 日韩精品一区二区三区不卡 | 2021国产精品久久精品| 天堂av2020| 日日夜夜一区二区| 国产a级片网站| 亚洲精品888| 亚洲 日韩 国产第一区| 欧美网色网址| 国产成人免费电影| 精品午夜av| 国产男人精品视频| 欧美日韩大片| 68精品久久久久久欧美| 欧美四级在线| 精品少妇v888av| 精品麻豆一区二区三区| 国产一区二区三区丝袜| 青青草视频在线免费观看| 精品国产欧美一区二区| 国产美女无遮挡永久免费| 欧美综合亚洲图片综合区| 国产精品自拍99| 欧美日韩国产麻豆| www.youjizz.com亚洲| 亚洲女同ⅹxx女同tv| 最新日韩免费视频| 国产精品视频在线看| 亚洲区免费视频| 91免费视频网址| 第四色在线视频| gogo大胆日本视频一区| 黄色av网址在线观看| 成人国产视频在线观看| 亚洲av午夜精品一区二区三区| 国产精品资源网站| 无码人妻一区二区三区在线视频| 久久精品国产一区二区三| 男人添女人下面免费视频| 免费在线看成人av| 日韩成人精品视频在线观看| 久久99久久99小草精品免视看| 成人日韩在线视频| 精品在线一区二区三区| 欧美一级特黄aaa| 国产精品99久久久久久似苏梦涵| 国产大片一区二区三区| 国产精品中文字幕日韩精品| 97精品人人妻人人| 成人毛片视频在线观看| 国产xxxxxxxxx| 久久久午夜精品| 永久免费毛片在线观看| 亚洲欧洲成人精品av97| 欧美色图一区二区| 亚洲18女电影在线观看| 中文字幕免费高清网站| 欧美精品v日韩精品v韩国精品v| 国产熟女一区二区丰满| 精品播放一区二区| 日本大片在线观看| 伊人一区二区三区久久精品| 麻豆视频在线免费观看| 欧美激情亚洲视频| 超碰一区二区| 国产主播精品在线| h视频久久久| 欧美凹凸一区二区三区视频| 日韩电影免费网址| 国产911在线观看| 国产精品日韩| 五月激情五月婷婷| 成人v精品蜜桃久久一区| 日韩av在线看免费观看| 最近日韩中文字幕| 日本一级黄色录像| 欧美在线观看视频在线| 国产富婆一级全黄大片| 亚洲男人天堂视频| 天天色天天射天天综合网| 欧美在线视频观看免费网站| 日日夜夜精品| 国产一区二区中文字幕免费看| 成人久久久久| 妞干网在线视频观看| 蜜桃久久av一区| 国产一级伦理片| 国产精品九色蝌蚪自拍| 国产视频91在线| 欧美精品久久99| 欧美日韩国产中文字幕在线| 久久天天躁狠狠躁夜夜爽蜜月| 日韩精品av| 亚洲影院在线看| 波多野结衣在线观看一区二区| 免费看欧美黑人毛片| 秋霞影院一区二区| 国产精品成人无码专区| 亚洲欧洲99久久| 国产一区二区视频免费| 亚洲国产福利在线| 免费av毛片在线看| 国产ts一区二区| 国产精品视频3p| 黄色网zhan| 麻豆免费看一区二区三区| 少妇精品一区二区三区| 亚洲主播在线播放| 国产绿帽刺激高潮对白| 中文字幕久久久av一区| 成人免费短视频| 国内不卡一区二区三区| 欧美视频久久| 91亚洲一区二区| 国产精品三级视频| 日韩综合在线观看| 日韩精品免费在线观看| 超碰在线最新网址| 91视频婷婷| 中文字幕一区二区三三 | 韩国精品主播一区二区在线观看| 国产一区二区无遮挡| 激情综合在线| 稀缺呦国内精品呦| 一区二区三区在线影院| 国产毛片毛片毛片毛片| 自拍亚洲一区欧美另类| 国产一区二区主播在线| 日韩在线第一区| 日本系列欧美系列| 欧美丰满老妇熟乱xxxxyyy| 在线亚洲一区观看| 国产区视频在线播放| 国产mv免费观看入口亚洲| 国产亚洲电影| 无码少妇一区二区三区芒果| 久久久亚洲高清| 在线视频精品免费| 色老头一区二区三区在线观看| 成人一区视频| 最新中文字幕久久| 国产精品一区二区在线看| 黄色一级片中国| 欧美成人一区二区三区在线观看| 日本在线视频网址| 91视频网页| 99riav1国产精品视频| 国产亚洲色婷婷久久99精品91| 图片区小说区区亚洲影院| 神马精品久久| 国产精品久久久999| 91精品啪在线观看国产18| 精产国品一二三区| 亚洲国产精品久久一线不卡| 熟妇人妻av无码一区二区三区| 欧美在线视频免费播放| 成人羞羞网站入口免费| 亚洲午夜激情影院| 亚洲综合图片区| 香蕉视频免费在线看| 国产精品99久久久久久久久| 久久久久久久久丰满| 亚洲美女高潮久久久| 欧美日韩国产精品一区二区三区四区 | 91av久久| 日韩精品福利视频| 久久66热re国产| 国产午夜激情视频| 亚洲日本中文字幕免费在线不卡| 国产伊人久久| 欧洲精品在线播放| 国产婷婷一区二区| aaa国产视频| 欧美专区在线播放| 久久久久亚洲| 99久久国产精| 欧美精品在线视频| аⅴ资源天堂资源库在线| 天堂av一区二区| 成人免费视频视频在线观看免费 | 91麻豆精品国产91久久久使用方法| 欧洲中文在线| 亚洲制服中文| 99久久精品免费| 91午夜交换视频| 青青草99啪国产免费|