精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小模型用推理反而性能下降15%!1.6M配對樣本揭示推理能力真相

人工智能
推理熱潮之下,我們是否高估了它的普適價值?這項基于 1.6M 配對樣本的受控研究揭示:推理并非萬能,其有效性高度依賴任務類型與模型規模。

大家好,我是肆〇柒。在大語言模型領域,推理能力(reasoning)已成為備受推崇的技術亮點。從OpenAI的o1推理系列到開源社區的Qwen和Mistral模型,業界紛紛推出推理專用模型,思維鏈(Chain-of-Thought)更是成為標配。然而,一個關鍵問題卻被普遍忽視:推理在什么任務、什么模型規模下才真正有效?其額外計算成本是否值得?

今天我們一起閱讀一項新發布的受控研究,它首次系統的回答了這一問題。這項研究是由 Diabolocom、Artefact Research Center、Equall、ISIA Lab(蒙斯大學)與 MICS(巴黎薩克雷大學) 聯合完成。該研究通過1.6M配對樣本和70k H100 GPU小時的計算資源,構建了一個"唯一變量是監督格式"的純凈實驗環境,為模型研發提供了精準的決策依據。在模型訓練成本日益高昂的今天,這項研究幫助開發者避免盲目投入推理訓練,實現資源的精準配置。

為什么需要"受控研究"?

當前研究大多報告"推理模型更強",但這些研究往往混雜了數據、規模、訓練方式等多種變量,難以確定性能提升的真正來源。正如論文指出的:"前沿研究強調了推理模型的性能,但通常沒有厘清改進的真正來源,這是由于數據混合不透明以及監督方案不斷變化所致。"

為了解決這一問題,此研究構建了一個合成數據蒸餾框架(synthetic data distillation framework),用同一教師模型(Qwen3-235B-A22B)生成配對的IFT(指令微調)與推理答案。這種方法確保"只有監督格式(IFT與推理)發生變化,而數據和模型容量保持不變",從而實現了一個純凈的受控實驗。

研究使用160萬對配對樣本,覆蓋通用與數學領域,通過70k H100 GPU小時的計算資源,系統評估了推理對模型性能的貢獻。關鍵在于,對于每一個輸入,研究同時生成了IFT和推理兩種答案,確保了對同一提示生成配對的答案。這種設計消除了數據混雜因素,使研究能夠精確歸因性能變化的真正原因。

評估任務被明確劃分為四大類:

  • 通用-MC:如mmlu-misc、winogrande、openbookqa(多項選擇題)
  • 通用-OE:如squad、coqa、ifeval(開放式問答)
  • 數學-MC:如mmlu-math、mmlu-pro-math、aqua-rat(數學多項選擇題)
  • 數學-OE:如gsm8k、math-500、aime(開放式數學問題)

這種任務分類方法揭示了推理能力在不同任務類型上的差異化表現,為后續分析奠定了基礎。

實驗設計:如何構建純凈的受控實驗

研究的實驗設計精妙之處在于其嚴格的控制變量法。教師模型Qwen3-235B-A23B具備開關推理模式的能力,能夠對同一輸入生成配對的IFT和推理答案。學生模型則選用與教師模型家族不同的Qwen2.5系列(0.5B–14B),以減少預訓練偏差。

研究采用兩種訓練策略:

  • Sequential訓練:先進行通用領域訓練再進行數學領域訓練
  • Mixed訓練:混合通用和數學領域數據進行訓練

在sequential訓練中,研究測試了四種組合:

1. General-IFT + Math-IFT

2. General-IFT + Math-Reasoning

3. General-Reasoning + Math-IFT

4. General-Reasoning + Math-Reasoning

推理比例對下游性能的影響

上圖展示了推理比例對下游性能的影響。橫軸表示推理比例(0%-100%),縱軸表示準確率,不同顏色線條代表不同規模的學生模型(0.5B–14B)。該圖表揭示了一個關鍵現象:推理效果在不同任務類型上存在顯著差異。

在數學-OE任務上,推理比例增加帶來持續且顯著的性能提升;而在通用-MC任務上,當推理比例超過50%時,性能提升趨于平緩,小模型(0.5B)在推理比例達到25%時就已出現性能下降。這種設計使研究能夠精確評估推理比例與性能之間的關系,為實際應用提供了量化指導。

核心發現一:推理效果高度依賴任務類型

研究數據清晰表明,推理對模型性能的影響存在顯著的任務差異性。

任務對推理的敏感度

上圖直觀展示了"推理幫助最大的是開放式和數學任務;在通用多項選擇題任務上收益有限或不一致"這一核心發現。

在數學-OE任務上,推理效果最為顯著。以gsm8k任務為例,14B推理模型達到85%的準確率,比同等規模的IFT模型高出約18個百分點;在aime任務上,14B推理模型達到58%的準確率,比IFT模型高出約15個百分點。這表明對于需要多步推導的開放式數學問題,推理能力確實能帶來質的飛躍。

數學-MC任務也有明顯收益。在mmlu-math任務上,14B推理模型達到78%的準確率,比IFT模型高出約4個百分點;在aqua-rat任務上,14B推理模型達到68%的準確率,比IFT模型高出約3個百分點。雖然多項選擇題不需要生成完整推理過程,但推理訓練似乎幫助模型更好地理解問題本質。

通用-OE任務上,推理效果中等。在squad任務上,14B推理模型達到75%的準確率,僅比IFT模型高出約2個百分點;在coqa任務上,14B推理模型達到72%的準確率,比IFT模型高出約3個百分點。這表明對于開放式通用問題,推理能力有一定幫助,但收益不如數學任務顯著。

在通用-MC任務上,推理收益有限。在winogrande任務上,14B推理模型準確率為72%,與IFT模型基本持平;在openbookqa任務上,14B推理模型準確率為85%,比IFT模型僅高出約1個百分點。對于選擇題等封閉式任務,推理訓練的收益非常有限。

最具沖擊力的發現:小模型(<1.5B)在通用-MC任務上使用推理反而不如IFT。數據顯示,在General-MC任務上,0.5B推理模型的準確率比IFT模型低約15個百分點,1.5B推理模型的準確率也比IFT模型低約5個百分點。這表明推理訓練對小模型可能產生負面影響,而不是簡單地"沒有收益"。

任務級推理比例影響

上圖進一步驗證了這一現象:在數學-OE任務(gsm8k、math-500、aime)上,所有規模模型的準確率都隨推理比例增加而顯著提升;而在通用-MC任務(winogrande、openbookqa、mmlu-misc)上,小模型(0.5B、1.5B)的準確率隨推理比例增加而下降。

研究明確指出:"與先前的數據一致(推理比例為25%和75%時),在僅通過IFT就能獲得高性能的情況下,增加推理比例并不能帶來提升。"這表明推理的價值主要集中在開放式和多步推理密集型任務上,而不是所有類型的任務。對于選擇題等封閉式任務,推理訓練的收益是有限的,甚至可能會產生負面影響。

核心發現二:模型規模是推理有效性的關鍵門檻

研究發現模型規模是推理有效性的關鍵門檻。最具反直覺的發現:小模型(0.5B–1.5B參數)難以從推理數據中獲益,甚至出現"災難性遺忘"。

數據顯示,在General-OE任務上,0.5B推理模型的準確率僅為35%,比IFT模型低約10個百分點;1.5B推理模型的準確率為45%,僅比IFT模型高約2個百分點。研究指出:"在順序訓練場景下,0.5B學生模型表現不佳,甚至出現了全局性能下降的情況。"

7B是通用任務的分水嶺:7B以上模型在推理訓練下可突破IFT性能瓶頸。

訓練FLOPs與任務準確率

上圖清晰展示了訓練FLOPs與任務準確率的關系。在數學任務(mmlu-math、mmlu-pro-math、aqua-rat、gsm8k、math-500、aime)上,推理模型(100%推理比例)的準確率明顯高于IFT模型(0%推理比例),且隨著模型規模增大,這種差距進一步擴大。而在通用任務(mmlu-misc、winogrande、openbookqa、squad、coqa、ifeval)上,7B以下模型的推理訓練效果不明顯,7B以上模型才開始顯現優勢。

具體數據表明,3B推理模型在General-OE任務上達到約75%的準確率,與14B IFT模型的性能(約76%)基本持平;14B推理模型在General-OE任務上達到約82%的準確率,遠超14B IFT模型的性能。這意味著推理訓練使較小模型能夠匹配更大規模IFT模型的性能,實現"以小博大"。

數學領域門檻更低:1.5B+模型即可從推理中獲益,表明數學任務對推理更敏感。在Math-OE任務上,1.5B推理模型的性能已超過3B IFT模型,達到約65%的準確率,而3B IFT模型僅為約58%;3B推理模型達到約72%的準確率,比14B IFT模型高出約5個百分點。

研究指出:"在順序訓練場景下,1.5B及以上規模的模型則能夠保持非特定的推理能力,展現出改進的領域內結果和穩健的通用能力平衡。"這表明推理能力的吸收需要足夠的模型容量,小模型難以處理復雜的推理軌跡。

核心發現三:訓練策略的選擇同樣關鍵

在訓練策略方面,研究對比了sequential和mixed兩種方法。數據顯示,General-Reasoning + Math-Reasoning組合表現最佳,General-IFT + Math-Reasoning也能獲得良好效果。

最具警示性的發現:在推理模型的基礎上進行IFT對齊并不能帶來任何收益。對推理模型進行IFT適應是沒有益處的。

具體數據表明,在General-Reasoning模型基礎上進行Math-IFT訓練,其在數學任務上的性能比General-Reasoning + Math-Reasoning組合低約5-8個百分點;而在General-IFT模型基礎上進行Math-Reasoning訓練,其在數學任務上的性能接近General-Reasoning + Math-Reasoning組合,僅低約1-2個百分點。

推理比例對下游性能的影響

上圖揭示了推理比例與性能的關系:在General-MC任務上,當推理比例超過50%時,性能提升趨于平緩,而小模型(0.5B)在推理比例達到25%時就已出現性能下降。在Math-OE任務上,即使對于0.5B模型,推理比例達到50%時也能獲得最佳性能。

研究特別指出,在順序訓練中,推理和IFT不是簡單的疊加關系。對已經經過通用推理訓練的模型進行IFT對齊,其性能最多只能達到兩階段IFT的水平,而在小模型上,這種對齊往往會使性能變得更差。這表明推理和IFT之間存在復雜的相互作用,順序和組合方式至關重要。

在aime任務上,General-Reasoning + Math-Reasoning組合的準確率達到58%,而General-Reasoning + Math-IFT組合的準確率僅為50%,差距達8個百分點。這表明推理訓練在數學任務上具有不可替代的優勢。

成本權衡:推理的訓練與推理開銷

在成本權衡方面,研究發現IFT始終是Pareto最優選擇,訓練成本更低。純推理訓練(100%推理比例)效率較低,而25%–75%混合比例可在性能與成本間取得最佳平衡。

推理效率方面,推理輸出顯著長于IFT。

回答長度分析

上圖展示了回答長度分析。在General-OE任務上,推理模型的回答長度平均約為8000-12000 tokens,遠高于IFT模式。在squad任務上,推理模型的平均回答長度為10500 tokens,而IFT模型僅為2500 tokens;在coqa任務上,推理模型的平均回答長度為11200 tokens,而IFT模型僅為2800 tokens。

最具反直覺的發現:錯誤答案往往比正確答案更長。圖8還顯示出,在General-OE任務上,成功案例的回答長度通常短于失敗案例。在squad任務上,正確答案的平均長度為8500 tokens,而錯誤答案的平均長度為11500 tokens;在coqa任務上,正確答案的平均長度為9200 tokens,而錯誤答案的平均長度為12200 tokens。

這一發現挑戰了"更長回答=更好性能"的常見假設,對推理模型的部署具有重要指導意義。簡單的早停策略可能會失敗,因為有些任務需要更多的token才能產生正確的答案。

隨著模型規模增大,推理與IFT的計算開銷差異愈發明顯。

IFT和推理式訓練的學生模型規模與推理FLOPs的關系。圖中的點表示每個任務類別的平均推理FLOPs,而曲線則展示了相應的對數線性擴展趨勢

上圖清晰展示了這一現象:推理模型的推理FLOPs隨模型規模增長的斜率明顯高于IFT模型( vs. )。這意味著大規模推理模型的計算開銷增長更為陡峭,對資源有限的部署環境構成挑戰。

推理FLOPs與任務準確率

上圖同時揭示了一個重要趨勢:隨著模型規模增加,所有推理模型都逐漸接近Pareto前沿,而IFT模型往往更早達到性能瓶頸,這解釋了為何推理在更大規模下變得Pareto最優。

關鍵發現:生成長度與任務特性的關系

研究還揭示了生成長度與任務特性的復雜關系。如前所述,錯誤答案往往比正確答案更長,但某些任務確實需要更長的生成長度才能獲得正確答案。

最大生成長度影響

上圖顯示,將最大生成長度從16,384增加到32,768 tokens可提升mmlu-math、math-500和aime等任務的性能。在mmlu-math任務上,14B推理模型的準確率從78%提升到82%;在math-500任務上,從68%提升到73%;在aime任務上,從52%提升到58%。

這揭示了為什么簡單的早停策略可能會失敗,因為有些任務需要更多的tokens才能產生正確的答案。這也表明推理模型能夠很好地超出它們訓練時的長度進行外推。

推理模型具有外推能力,能夠很好地處理超出訓練長度的生成需求。研究測試了基于預算的解碼中止機制,發現雖然減少了推理FLOPs,但顯著降低了準確性,使性能偏離Pareto前沿。例如,在aime任務上,將最大生成長度限制為16,384 tokens時,14B推理模型的準確率為52%;而將最大生成長度增加到32,768 tokens時,準確率提升到58%。

這一發現對于部署推理模型時如何設置生成長度上限具有極其重要的指導意義。簡單的早停策略可能會失敗,因為有些任務需要更多的tokens才能產生正確的答案。

上圖已經清晰展示了這一現象:在mmlu-math、math-500和aime任務上,隨著模型規模增大,增加最大生成長度帶來的性能提升更加顯著。例如,在aime任務上,14B模型從16k到32k tokens的準確率提升達到6個百分點,而0.5B模型僅提升2個百分點。

何時該用推理?

基于研究結果,我們可以構建一個清晰的決策框架,幫助開發者在實際應用中做出明智選擇:

任務類型判斷

首先判斷任務類型是開放式(OE)還是多項選擇題(MC):

  • 開放式任務(OE):包括開放式問答、數學問題等需要生成完整答案的任務
  • 多項選擇題任務(MC):包括選擇題、填空題等有明確選項的任務

研究數據顯示,推理訓練在開放式任務上普遍有益,而在多項選擇題任務上收益有限。特別地,數學任務(無論是OE還是MC)都比通用任務更能從推理訓練中獲益。

模型規??剂?/h4>

其次考慮模型規模:

  • <1.5B參數:小模型難以從推理訓練中獲益,甚至可能導致性能下降
  • 1.5B–7B參數:在數學任務上可從推理訓練中獲益,在通用任務上收益有限
  • ≥7B參數:在開放式任務上顯著受益于推理訓練

在論文中明確指出,在通用任務上,7B是推理有效性的關鍵門檻;在數學任務上,1.5B模型即可從推理中獲益。這表明不同任務類型對模型規模的要求不同。

訓練策略選擇

在訓練策略方面,研究提供了明確指導:

  • Sequential訓練:General-Reasoning + Math-Reasoning組合表現最佳
  • 避免:在推理模型基礎上進行IFT對齊,這種做法是不可取的,因為對推理模型進行IFT適應是沒有任何益處的。
  • 混合比例:25%–75%推理比例可在性能與成本間取得最佳平衡

生成長度設置

對于推理模型的部署,生成長度設置至關重要:

  • 不要盲目增加生成長度:錯誤答案往往更長,合理設置長度閾值可避免資源浪費
  • 數學任務:適當增加生成長度上限(如從16,384提升至32,768 tokens)可進一步提升性能
  • 監控實際性能:實施長度限制前,應評估對特定任務準確率的影響

何時該用推理?決策框架

基于研究結果,我們可以構建一個清晰的決策框架:

強烈推薦引入推理訓練的場景

  • 任務類型:開放式、數學/代碼類(特別是OE格式)
  • 模型規模:≥7B(通用任務)或≥1.5B(數學任務)
  • 資源條件:追求性能上限而非極致效率

優先擴大IFT模型規模的場景

  • 任務類型:選擇題/事實問答(MC格式)
  • 資源條件:資源受限或對推理延遲敏感
  • 模型規模:<1.5B

性價比折中方案

  • 混合訓練:采用25%-75%推理比例的混合訓練
  • 訓練策略:在推理模型上避免額外進行IFT對齊
  • 部署設置:為數學任務適當增加生成長度上限

總結:超越"推理萬能論"

推理并非萬能的“銀彈”,而是與任務類型、模型規模和計算成本緊密相關的工具。這項研究提供了一個可復現且可歸因的評估范式,為理性看待當前的“推理熱潮”提供了科學依據。

在計算資源日益寶貴的當下,這項研究為模型開發者提供了一個清晰的決策框架。研究發現,推理能力的價值取決于具體的應用場景。對于開放式任務和數學密集型任務,推理訓練能夠顯著提升模型性能;然而,對于選擇題和事實問答等任務,擴大IFT模型規模通常是更優的選擇。這一發現有助于避免資源浪費,實現模型能力與任務需求的精準匹配。

研究最終得出結論:雖然“推理能夠可靠地突破IFT性能的瓶頸”,但這種突破需要在額外的訓練成本和推理成本之間進行權衡。在適合的任務類型和模型規模條件下,推理訓練確實能夠帶來顯著的收益;而在其他情況下,堅持使用IFT可能是更為明智的選擇。推理信號并非冗余的監督信號,而是一種隨著模型規模增長而價值遞增的互補資源。這表明,將推理能力與IFT的簡潔性相結合的混合方法可能是未來的發展方向。

這項研究不僅為當前的模型研發提供了實用的指導,也為未來的研究指明了方向。未來的研究可以探索推理與IFT的更優組合方式,開發針對小模型的推理適應技術,并在更多特定領域(如代碼、法律推理等)驗證這些發現。通過這種精細化的資源配置,AI社區可以更高效地推進大語言模型的發展,避免盲目追求“推理專用模型”而忽視實際任務需求和資源約束。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-06-04 13:56:06

英偉達訓練模型

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-05-29 03:00:00

混合推理模型LHRMAI

2024-06-17 13:34:54

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-02-01 12:43:00

模型訓練

2023-05-30 14:17:00

模型推理

2023-05-05 13:29:04

模型推理

2025-02-06 14:28:16

2025-04-10 08:23:11

2025-03-12 09:48:19

2025-07-10 09:14:11

2023-05-15 15:38:59

AI模型

2025-02-18 15:02:13

2025-11-13 08:00:00

大推理模型AI人工智能

2025-06-10 03:30:00

2024-08-27 09:35:47

2024-04-11 11:35:03

大語言模型LLMs

2025-10-28 09:16:38

2023-12-03 08:49:38

微軟開源
點贊
收藏

51CTO技術棧公眾號

中文字幕中文字幕精品| 色吧亚洲日本| 国产成人在线免费| 97视频在线观看视频免费视频 | 日韩中文字幕不卡视频| 91精品国产91久久| 亚洲av无码一区二区三区观看| 超碰97免费在线| 91污片在线观看| 中文字幕亚洲一区在线观看| 一本之道在线视频| 精精国产xxxx视频在线野外| 国产精品久久毛片av大全日韩| 自拍亚洲一区欧美另类| 久久99精品久久久久久国产越南| 一本久道久久综合中文字幕| 亚洲图片小说在线| 国产999久久久| 亚洲中字黄色| 欧美日韩一级片网站| 91精品国产吴梦梦| 可以在线观看的黄色| 国产精品香蕉一区二区三区| 国产精品久久不能| 久久香蕉精品视频| 国产精品传媒精东影业在线| 日韩精品在线影院| 青青草精品视频在线| 国产三级在线| 99国产精品久久久久久久久久久| 国产中文日韩欧美| 日本中文字幕久久| 亚洲三级毛片| 欧美日韩福利在线观看| 极品尤物一区二区| 亚洲黄页在线观看| 精品国产乱码91久久久久久网站| 日本高清久久久| 美女18一级毛片一品久道久久综合| 一区二区三区精品| 欧美h视频在线观看| 国产在线网站| 久久久精品2019中文字幕之3| 国产98在线|日韩| 国产日本精品视频| 久久99久久精品| 国产欧美在线视频| 中国一区二区视频| 欧美顶级大胆免费视频| 欧美人成免费网站| 农村妇女精品一二区| 多野结衣av一区| 亚洲图片欧美色图| 99热亚洲精品| 91美女精品| 亚洲国产一区视频| 国产伦精品一区二区三区四区视频_| 国产精品va在线观看视色| 中文字幕亚洲精品在线观看 | 浓精h攵女乱爱av| 欧美成人性网| 欧美中文字幕一区| 超碰在线公开97| 日本免费成人| 欧美精品电影在线播放| 欧洲美女亚洲激情| 麻豆一区在线| 亚洲午夜三级在线| 黄色三级中文字幕| 成年人国产在线观看| 亚洲不卡一区二区三区| 六月丁香激情网| 欧洲亚洲两性| 欧美区在线观看| 成年人性生活视频| 亚洲综合在线电影| 欧美日韩一区国产| 亚洲国产日韩在线一区| a级日韩大片| 精品呦交小u女在线| 欧美激情 一区| 亚洲精品国产偷自在线观看| 久久琪琪电影院| 一二三区免费视频| 精品一区二区在线播放| 国产精品久久一区二区三区| 视频一区二区三区在线看免费看| 久久99九九99精品| av蓝导航精品导航| 国产精品福利电影| 国产91在线|亚洲| 免费久久久一本精品久久区| av天在线观看| 亚洲成人午夜电影| 最近中文字幕一区二区| 在线一区二区三区视频| 亚洲欧美一区二区三区四区 | 无码精品人妻一区二区| 中文字幕久久午夜不卡| 丁香色欲久久久久久综合网| 欧美电影网址| 日韩欧美一区电影| av网站免费在线看| 欧美破处大片在线视频| 国产成人欧美在线观看| 99久久精品国产成人一区二区 | 性久久久久久| 91香蕉亚洲精品| 青青草视频在线观看| 日韩美女精品在线| 男女视频一区二区三区| 北条麻妃一区二区三区在线| 自拍偷拍亚洲区| 日韩精品一区二区亚洲av| 国产精品18久久久久久久网站| 欧美精品亚洲精品| 动漫一区二区| 欧美一区二区精品在线| 在线观看免费小视频| 亚洲日本国产| 999视频在线免费观看| av天在线观看| 91福利区一区二区三区| a天堂视频在线观看| 伊人久久大香线| 国产免费亚洲高清| 国产精品99999| 色综合天天在线| 久久丫精品国产亚洲av不卡| 红桃视频国产一区| 97伦理在线四区| 二区三区在线观看| 欧美高清视频一二三区| 亚洲天堂最新地址| 日韩有码一区二区三区| 国产a∨精品一区二区三区不卡| 亚洲AV无码乱码国产精品牛牛 | 国产99久久久国产精品| 在线日韩av永久免费观看| 成人免费av电影| 亚洲性夜色噜噜噜7777| 男人日女人网站| 久久综合国产精品| 日日摸日日碰夜夜爽av| 亚洲成a人片77777在线播放 | 草草草视频在线观看| 亚洲伦理一区二区| www.日韩av.com| 国产麻豆91视频| 亚洲天堂成人在线观看| 福利在线一区二区| 在线精品视频一区| 国内精品久久影院| 天天综合在线视频| 欧美日韩美女视频| 色婷婷一区二区三区av免费看| 国产探花在线精品一区二区| 日本精品va在线观看| 日本啊v在线| 91久久精品一区二区二区| 无码人妻精品一区二区中文| 日本伊人色综合网| 综合久久国产| 日韩欧美中文字幕在线视频| 欧美丰满少妇xxxxx做受| 亚洲欧美另类一区| 第一福利永久视频精品 | 国产黄色一区二区| 亚洲综合偷拍欧美一区色| 国产a级黄色片| 麻豆久久婷婷| 在线观看成人av电影| 欧美三级一区| 欧美亚州一区二区三区| 粉嫩av在线播放| 欧美电影影音先锋| 亚洲精品午夜久久久久久久| 91色porny| 日韩av片专区| 亚洲精品韩国| 欧美日韩国产精品一卡| 无码熟妇人妻av在线电影| 国产精品自拍偷拍视频| 91久久久久久久一区二区| 手机免费看av| 美国一区二区三区在线播放| 欧美与动交zoz0z| 久久久久97| 国产欧美精品久久久| 欧美aaa免费| 亚洲性夜色噜噜噜7777| www.黄色一片| 久久亚洲欧美国产精品乐播| 五月婷婷六月合| 在线欧美一区| 亚洲制服欧美久久| 欧美久久精品| 亚洲在线观看视频| 欧美日韩精品免费观看视完整| 久久久精品久久久久| 五月婷婷丁香网| 91精品国产综合久久精品| 国语对白永久免费| 亚洲激情五月婷婷| 中文字幕精品亚洲| 99精品欧美一区二区蜜桃免费| 蜜桃福利午夜精品一区| 国产一区二区高清| 欧美 亚洲 视频| 欧美少妇性xxxx| 九九九热999| 91福利在线免费| 久久久精品免费视频| 国产精品ⅴa有声小说| 日韩av中文在线| 精品久久久久久亚洲综合网站| 欧美中文一区二区三区| 亚洲一区欧美在线| 一区二区三区国产| 国产精品夜夜夜爽阿娇| 国产三级欧美三级日产三级99 | 亚洲天天在线日亚洲洲精| www.五月婷婷| 欧美一区二区三区免费| 亚洲中文字幕在线一区| 国产欧美日韩三级| 大地资源二中文在线影视观看| 国产东北露脸精品视频| 午夜剧场高清版免费观看| 三级影片在线观看欧美日韩一区二区 | 欧洲成人免费视频| 丁香花高清在线观看完整版| 成年人精品视频| 老司机福利在线视频| 日韩一中文字幕| 欧美被日视频| 中文字幕日韩专区| av国产在线观看| 在线观看视频99| 国产精品丝袜黑色高跟鞋| 在线观看视频一区二区| 国产第一页在线观看| 色哟哟国产精品| 亚洲欧美另类在线视频| 色天使色偷偷av一区二区| aaaaaa毛片| 在线观看欧美日本| 这里只有精品999| 欧美色涩在线第一页| 亚洲影视一区二区| 3d动漫精品啪啪一区二区竹菊| 国产精品视频在线观看免费| 日韩一二三区不卡| 亚洲男女视频在线观看| 日韩av资源在线播放| 国产51人人成人人人人爽色哟哟| 亚洲视频在线免费观看| 91青青在线视频| 久久久国产在线视频| 久久大胆人体| 欧美怡春院一区二区三区| 秋霞国产精品| 成人在线视频网站| 91国内精品| 麻豆精品视频| 日本不卡二三区| 麻豆一区二区三区在线观看| 欧美在线三区| 波多野结衣家庭教师在线| 视频在线观看国产精品| 毛片毛片毛片毛| 成人免费视频视频在线观看免费| 国产黑丝一区二区| 欧美极品少妇xxxxⅹ高跟鞋| 永久免费看片直接| 精品国产91久久久久久老师| 青青视频在线免费观看| 4438x亚洲最大成人网| 凸凹人妻人人澡人人添| 在线视频中文亚洲| 性欧美videoshd高清| 日本aⅴ大伊香蕉精品视频| 视频欧美精品| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 3d动漫精品啪啪一区二区三区免费| 一区二区三区国产好| 久久综合九色欧美狠狠| 99久久99视频只有精品| 精品国偷自产一区二区三区| 久久精品一区二区三区中文字幕 | 91成人在线网站| 国语精品免费视频| 99精品美女| www.中文字幕在线| 国产毛片精品一区| 国产av自拍一区| 亚洲一二三四久久| 在线观看中文字幕码| 亚洲精品国产免费| 成人短视频在线| 国产精品国产三级国产aⅴ浪潮 | 久久精品女人毛片国产| 欧美在线免费观看亚洲| 欧洲av在线播放| 久久久久99精品久久久久| 日韩电影免费观| 好吊色欧美一区二区三区视频| 久久神马影院| 欧美一级黄色片视频| 成人黄色大片在线观看 | 欧美日韩免费看| av中文字幕播放| 中文字幕精品国产| 中文字幕在线视频网站| 高清视频一区二区三区| 97精品国产福利一区二区三区| 无码人妻精品一区二区三区在线| 国产精品66部| 国产福利视频网站| 欧美在线视频你懂得| 天堂网www中文在线| 欧美黑人国产人伦爽爽爽| 亚洲精品乱码日韩| 日韩精品在在线一区二区中文| 精品一区在线| 3d动漫一区二区三区| 成人综合婷婷国产精品久久蜜臀| 日韩成人短视频| 欧美日韩高清一区二区不卡| 国产中文在线| 日本一本a高清免费不卡| 欧洲在线一区| 日日摸日日碰夜夜爽无码| 国产1区2区3区精品美女| 91在线播放观看| 91.麻豆视频| 成人免费视屏| 亚洲伊人一本大道中文字幕| 午夜影院欧美| 亚洲第一成肉网| **欧美大码日韩| 国产精选久久久| 久久av在线看| 日韩在线视频一区二区三区| 大片在线观看网站免费收看| 国产一区在线精品| 九九热最新地址| 日韩一区二区三区精品视频 | 日韩av自拍| 中国黄色片免费看| 国产精品国产a| 国产精品老熟女视频一区二区| 久久精品国产清自在天天线| 国产一区二区三区免费观看在线| 精品嫩模一区二区三区| 福利电影一区二区| 国产在线精品观看| 日韩精品高清在线| 经典三级一区二区| 亚洲一区二区三区乱码| 国产美女娇喘av呻吟久久| 精品爆乳一区二区三区无码av| 亚洲va韩国va欧美va| 天堂网在线播放| 97精品伊人久久久大香线蕉| 亚洲精品中文字幕99999| 美女喷白浆视频| 综合久久综合久久| 丰满人妻一区二区三区无码av| 97视频免费在线观看| re久久精品视频| 三级黄色片免费看| 亚洲福中文字幕伊人影院| 青青草免费观看免费视频在线| 国产精品白丝jk喷水视频一区| 五月天久久777| 91精品啪在线观看国产| 一本久久a久久免费精品不卡| 伦xxxx在线| 激情小说网站亚洲综合网| 日韩电影在线观看一区| 麻豆精品一区二区三区视频| 日韩精品中文字幕在线观看| 久久精品超碰| 久久综合九色综合88i| 国产精品丝袜一区| 日韩一卡二卡在线| 国产美女精品视频| 一本久道久久综合婷婷鲸鱼| 中文字幕黄色网址| 亚洲第一av网站| 美女久久久久久| 久久久久久久久久久视频| 亚洲欧美综合网| 日本护士...精品国| 亚洲一区美女视频在线观看免费| 性伦欧美刺激片在线观看| 国产成人无码aa精品一区| 在线日韩日本国产亚洲| 老汉色老汉首页av亚洲|