精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

增強大模型智能:數學推理能力的提升策略與實踐

人工智能
本文將分享如何提升大模型的數學推理能力。我們沒有把數學推理能力與翻譯、長文本生成等專項分開優化,而是視為通用能力的一部分。因為我們認為數學推理能力是衡量大模型智能水平的關鍵指標。

一、大語言模型概述

圖片

首先來回顧一下大模型的基本結構。上圖中列出了當前一些主流大模型,比如 GPT 系列中的 GPT-3,發布于 2020 年,擁有 175B 參數,還有 Huggingface 的 Bloom、清華的 GLM 系列、Meta 的 LLaMA、百川的 Baichuan 和阿里的 Qwen 系列等等。除了清華的 GLM 使用的是 Prefix decoder,這些模型大多采用與 GPT 類似的架構。

這些模型的參數規模各不相同。GLM 系列除了最大 130B 的模型外,還有 6B 和 10B 的版本。Meta 的 LLaMA 系列有 65B 及其他不同規模的版本。千問系列有 7B、14B 和最大的 110B。這些開源模型為業界公司提供了很多優化的思路。

圖片

大模型的結構在業界已較為標準化,主要基于 transformer 結構。關鍵參數包括詞表、transformer 層數、Multi-head 和全連接層。以 GPT-2 為例,它是一個 1.3B 參數的模型,詞表大小 5 萬,層數 24 層。根據參數計算公式, Embedding 層的 d_model 為 2048,乘以 5 萬,得到其參數規模。QKV 計算、Attention Project 和 FFN 等參數加起來,最終得到 1.3B 的總參數。

大模型優化方面,常用的方法包括 SparseAttention、FlashAttention,以及其他結構如 MAQ 和 GQA 的優化,但整體結構仍基于 transformer。

圖片

大模型結構中,關鍵部分包括圖上面的 Multi-head 和下面的點積注意力計算,右側是大模型的總體結構示意。針對 Attention 的優化有 FlashAttention、SparseAttention 和 GQA,位置編碼有絕對位置編碼和 RoPE 等相對位置編碼。優化主要是為了提升大模型的外推能力,尤其對長文本效果更好。此外,還有對激活函數和其他細節的優化,業界在這些方向上都做了很多工作。

圖片

大語言模型的構建通常分為四個部分。以 OpenAI 為例:①預訓練,這是資源消耗最大的一環,通常使用 1000 多塊 GPU,訓練周期長,數據量達到數千億 token,約幾 TB;②SFT 層(有監督微調),主要優化指令對齊,數據量較少,通常為百萬級,少數達千萬級,訓練時間為天級別;③訓練獎勵模型(Reward Model);④人工反饋強化學習(RLHF),這部分的成本與 SFT 相似,但如果使用傳統 PPU 顯存占用較高,數據量允許天級別完成。

LLaMA 等模型也遵循類似流程,比如說 LLaMA2-Chat,分為預訓練、SFT、強化等階段,根據人類反饋調整指令偏好。

圖片

大模型的構建可以分為三個部分。第一階段是指令學習階段,通過訓練基座模型,使其理解人類指令,并根據人類編寫的指令和高質量回答進行 SFT。第二階段是讓大模型更擬人性或者是更符合人類偏好(人類對模型輸出進行偏好排序)。第三階段是人類反饋強化學習階段,是由四個模型構成:Reference Model(訓練好的參考模型)、Reward Model(對生成結果評分的模型)、Actor Model(需要強化的模型)和 Critique Model(訓練過程中的評分模型)。

圖片

前面回顧了大語言模型的基礎結構,接下來將介紹數學推理優化的流程,分為四塊:數據構建、數據篩選、模型構建、模型訓練與優化。數學推理的數據分為混合指令和合成數據。其中合成數據是對當前數據的擴展,因為高質量的數學數據,尤其是應用類指令較少。數據篩選,包括質量篩選和多樣性篩選,避免重復或相似問題。篩選原則依賴于 Reward Model 或 Critique Model。模型訓練使用 Reference Model,訓練好 SFT 后進行質量和多樣性篩選,歸為 RFT 流程,即拒絕采樣流程。在 Reward Model 或 Critique Model 中,使用 PPO、DPO 或 RFT 流程。

接下來將詳細介紹混合指令、合成數據和訓練優化的具體做法。

二、混合指令

圖片

數學問題可以拆解為邏輯推理和數學應用兩類。數學應用早期主要采用思維鏈(CoT)模式,后來為解決計算問題,引入了 PoT(Program-of-Thought)模式。當前的思路是數學分析或邏輯推理放到 CoT 部分處理,涉及計算的問題,如解方程或微積分計算,放到 PoT 部分。因此,混合指令由這兩部分構成。

圖片

這樣做有兩個原因。首先,CoT 并不擅長復雜運算,尤其是積分和方程運算。盡管大模型在預訓練中可以處理簡單運算(如三位數的加減乘除),但對于更高階的數學運算,PoT 的準確率更高,讓大模型專注于擅長的部分。

其次,單純使用 PoT 也有問題。在涉及需要推理的數學場景(如抽象代數和幾何運算)時,PoT 顯得不夠直觀,難以一步步推理。此外,它在整合前后邏輯關系時也存在問題。

圖片

所以現在我們使用的是混合指令。混合指令的前一部分是標準的 CoT 模式,比如 GPT-4o 的回答,前面的推理、中間的評分計算、合并同類項都是靠其數學推理能力一步步解決的。但我們發現最后的合并同類項出現了錯誤,前面的推理是完全正確的,公式引用也沒問題,但在數值計算方面有誤。

左側的方案將其拆分為:前面采用 CoT 思維鏈模式,類似于 GPT-4o,而在最后的計算部分,使用 PoT 來提高準確性。這個方法對于大模型的數學推理來說雖然不復雜,但確實簡單有效。

三、合成數據

圖片

接下來介紹合成數據。在預訓練時我們能獲得大量數學題目,但以英文為主。進行二階段 SFT 時,我們發現開源的好數據很少。常用的數據集如 GSM8K 和 MATH,雖然不錯,但數量有限。GSM8K 是小學數學推理題,MATH 類偏向競賽題。

大模型在解題時表現優秀,但讓它生成新問題則相對困難。這是因為解題需要的是運算能力,而生成新問題需要更高層次的思考和創造能力。

圖片

合成數據的 Self Instruct 是常用的方法,此方法早已提出。我們在種子任務中有部分高質量的數學問題集合,無論是購買的還是自建的。我們希望從這些高質量集合中擴展出更多樣化的數學指令。為此,將其細分為數學問題,按學科拆解,如矩陣運算、微積分、方程等。拆解后,再對每個子問題進行 Self Instruct,以擴展種子任務。篩選時,若只對指令篩選,可用最長公共子序列或 Jaccard 距離等簡單方法。

圖片

指令構建和篩選相對容易,但指令能否提供更多樣化的問題則是一個難點。有些解出的題目不適合作為訓練集,因此需嚴格把控指令和回答的質量。我們訓練過 Reward Model,最新的英偉達 340B 模型評分最高為 92 分,我們的模型為 86.8 分,排第五。86.8 分包括所有任務,如生成任務和翻譯任務。

針對數學類問題,我們理想的 Reward Model 評分分布應是正態分布,實際情況中,GPT-4o 評分在正確和錯誤回答間有明顯區分度,但我們 Reward Model 的評分分布不明顯。訓練時,Reward Model 對同一問題的正確和錯誤答案進行排序,而非絕對值評分。因此,Reward Model 能合理地對相同問題的生成進行排序,但不同問題間的絕對值評分參考意義不大。

圖片

在質量過濾時,不僅考慮相同問題,還要考慮不同問題之間的差異。因此,我們選擇了 Critique Model 進行絕對值打分。例如,左圖中,先用 Reward Model 對 n 個問題評分,取前 M 個高分,再用 Critique Model 從下往上卡絕對值。

Critique Model 的訓練如中圖所示:首先構建指令,明確角色;然后提供參考答案和模型回答;最后,GPT-4o 給出步驟和最終分值。

圖片

整個 Critique Model 訓練流程如下:從數據中提取問題和對應的參考答案,中間部分是標準指令,指導模型生成評判標準。最下面是 GPT-4o 或其他模型生成的打分結果。我們用這些數據訓練 Critique Model。GPT-4o 對問題的打分準確率為 85.94%,Critique Model 訓練后約為 84.76%。可以看到,GPT-4o 和 Critique Model 的最終打分分布差異明顯。

四、訓練優化

圖片

訓練分兩階段:RFT 階段和強化階段。

在 RFT 階段,我們采用這種方法有其背景。之前在大模型進行數學推理時發現,即使指令集不大,如果為每個問題生成多條不同的合理推理路徑,可以提升模型的多樣性和能力。因此,在 RFT 階段,我們先訓練一個 chat 模型,例如 LLaMA 進行 SFT 訓練。一階段訓練后的模型在二階段生成多條推理路徑,經過 Reward Model 和 Critique Model 的質量過濾和多樣性篩選。最終數據包含每個問題的多條推理路徑,再用于更大模型進行 RFT。

使用小模型生成和篩選數據,是因為大模型采樣成本過高。例如,10 萬條指令每條采樣 100 次,共生成 1000 萬條數據,用大模型成本較高,而小模型生成數據更節省時間成本,其生成的推理路徑更為多樣化。

圖片

上圖中可以反映出小模型的優勢,比如右上角的 LLaMA 模型,我們可以看到 33B、7B 和 13B 的模型,其中推理路徑貢獻最大的一部分并不是 33B,而是 7B。下面的圖也顯示,7B 和 14B 的模型分別貢獻了 41% 和 39% 的推理路徑,而中間兩個模型相交的推理路徑只有 19%。這說明更小的模型在數據生成和采樣方面,能得到更加多樣化的推理路徑。

圖片

整個 RFT 流程是使用較小的模型,例如我們會用 LLaMA 的小參數模型,來生成和過濾推理路徑,并進行多樣性選擇,然后再將這些數據用于更大的模型進行 RFT。質量過濾包括 Reward Model 打分和 Critique Model 打分,多樣性篩選是關鍵,因為重復的回答對大模型并不友好。

圖片

上圖中展示了詳細流程,比如左邊圖中的推理路徑由 r1 到 r3,再加入一個新路徑 r4。我們會計算 r1 到 r4 的相關性或距離,如果 r4 超過前兩個路徑的距離,就會替換其中一個,以保證選出路徑間距離最大化。在我們的流程中,重點在 PoT 部分的多樣性選擇。PoT 部分相對結構化,不同推理路徑會反映在 PoT 部分的不同實現方式上。

圖片

可以看一下,有三條路徑對應三個部分的 PoT。路徑一和路徑二在 PoT 部分看似不同,但只是注釋和變量命名不同。如果抽取關鍵信息,規范化變量命名并去掉冗余信息,會發現它們是完全相同的推理路徑。只有路徑三是真正不同的推理路徑,通過設未知數和方程來實現不同的推理。因此,設置關鍵信息抽取模塊,去掉冗余信息和規范化變量命名后,再計算相關性或距離度量,用作多樣性篩選的一個評判標準。

最終實驗結果顯示,我們的模型每次采樣 100 次,平均生成約 7.8 條推理路徑。

圖片

我們也評估了準確率。在一個評測集上,SFT 后的準確率為 71%,RFT 為 77%。但 DPO 部分沒有顯著提升。DPO 從 RFT 中采樣得分最高的答案(如九分)作為正例,得分最低的(如兩分)作為負例,并訓練 DPO 模型。訓練時加了輔助 loss 以與 reference 對齊。但九分和兩分的差距較大,DPO 能學到兩者的差異,但在難以區分的問題上優化效果不佳。

復盤發現,DPO 提升不明顯的主要原因:①在簡單問題上,答案更固定化,導致多樣性減少。②字數控制等方面做得更好,使得模型的分布更尖銳,logistic 輸出更精準,但對難題的優化效果有限。

圖片

我們對 DPO 部分進行了優化,不再用九分和兩分構建數據 pair 訓練 DPO 模型,而是使用一些難以區分的問題。例如,數學中的精度控制問題,CoT 錯誤但 PoT 正確的問題,或多步 PoT 的難題。我們將這些難以通過 SFT 解決的案例放入 DPO。

我們做了兩部分優化:PPO 和 DPO。最終效果顯示,DPO 勝率為 17%,負率為 10%,差距為 7%;而 PPO 的差距僅為 1%。上圖中右邊的案例顯示,SFT 難以解決的問題在 DPO 后確定性更好,減少了生成的隨機性。

圖片

這是一個早期的工作,講述了為什么要使用動態 loss。我們發現簡單的數學或邏輯推理,7B 或 10B 模型就能很好地解決。在訓練初期,準確率在前兩個樣本達到峰值,后續訓練效果不明顯。

而 hard sample 則需要更多輪訓練才能收斂。舉例來說,從前面 233 個 step 到最后 2047 個 step,loss 在后期才平緩。我們定義 hard sample 為模型有十條推理路徑,但 Critique Model 打分準確率低于 50% 的問題。對這些 hard sample,特別是 PoT 部分,進行動態 loss 加權。

圖片

我們一直在進行數學推理的研究,作為大模型通用能力的一部分。上圖中展示了今年 4 月的 Superclue 評測數據,這是一個閉源的第三方評測,看不到具體問題。數據顯示 GPT-4-Turbo-0125 擁有最佳表現(GPT-4o 尚未推出),國內大模型中成績最好的是從容大模型,接著就是 360gpt-pro,得分為 75.5 分。

以上就是本次分享的內容,謝謝大家。

五、問答環節

Q1:之前提到的 DPO 和 PPO 是基于兩個測試集的結果,還是在兩個不同的問題領域中的表現?另外,這兩個方法之間存在什么主要差異?

A1:那個評測是在一個評測集上的,都是數學推理類的問題。我們做了兩部分工作,一部分是 PPO,另一部分是 DPO。當時在構建 pair 對時,是根據 RFT 的最高得分和最低得分來構建的。這部分數據是重新構建的。

Q2:關于您們的合成數據工作,包括最近其他的合成數據研究,比如騰訊的 10 億人設研究。您覺得為什么這種合成數據能在復雜推理任務中發揮作用?另外,您認為合成數據在復雜推理任務中的上限是什么?因為看騰訊的研究,Scaling 曲線表現很好。

A2:這個問題很好,也是我們目前在做的,我們數據組尤其關注合成數據。為什么要做合成數據?因為現有指令少,尤其是數學類的。我們需要更多的指令,同時要提高指令的難度。比如,現有的 GSM8K 和 MAS 類指令只能擴展到小學數學應用和競賽題目,這在多樣性和難度上都有問題。我們的做法是將問題細分為數學應用類、矩陣運算類、積分類等子類。每個子類下由標注人員構建種子指令,然后再進行數據合成。第一步必須做到位,第二步才能有效。

合成數據在復雜推理任務的天花板在于篩選邏輯。如果篩選機制好,生成模型足夠優秀,就能生成更好的指令。要對指令進行關鍵詞抽取,再根據 token 級別擴展,生成的指令才會更好。篩選機制也很重要,不僅要篩選好的指令,還要篩選指令的回答,這兩者決定了天花板的高度。

英偉達的研究也展示了合成數據的重要性。只有 2 萬條數據是人工標注的,98% 是合成數據。他們的篩選方法尤其對 MAS 類問題進行了分類,但主要針對簡單問題,像 GSM8K 的簡單替換。而在數學推理外,如 close QA 或 open QA 類問題,英偉達的方法可能會生成與原數據分布相似的數據,這不是我們想要的。我們需要分布之外的數據,有擴展性的合成數據。英偉達還注重 reward model 的訓練,特別是 340B 的 reward model,這部分工作在于區分難分的指令。因此,合成數據需要細分領域或技能,最終的質量和多樣性決定了效果。

Q3:老師您好,我們看到 Critique Model 和 GPT-4o 的打分分布已經接近,Critique Model 的大小是否考慮了不同參數量的影響?您提到生成樣本數據時會用一個特別小的模型,所以判別模型也會很小,但英偉達的 reward model 很大。

A3:Critique Model 比 reference model 小很多。Critique Model 和 reward model 不同,reward model 很大,但Critique Model 不能太大。reward model 推理速度快很多,但它是二分類模型;而 Critique Model 是語言模型,兩者屬于不同類型的模型。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-01-27 12:03:11

2025-04-08 00:40:00

谷歌合成數據大模型

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-06-30 02:44:00

2024-09-12 13:50:00

模型訓練

2022-04-12 14:12:43

谷歌研究模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2024-07-10 09:37:57

2024-11-08 08:39:39

2025-02-13 08:51:23

DeepSeek大模型

2024-11-11 11:05:00

大語言模型系統

2023-06-05 13:02:19

OlaGPT語言模型

2025-07-10 14:55:12

機器人AI模型

2024-03-13 11:58:00

自動化數據

2025-04-10 08:23:11

2023-06-20 13:44:49

清華推理

2024-11-06 08:13:28

2024-11-11 08:50:24

點贊
收藏

51CTO技術棧公眾號

av一区二区在线播放| av网站在线免费| 久久久久91| 欧美成人伊人久久综合网| 亚洲精品偷拍视频| 国产刺激高潮av| 性欧美暴力猛交另类hd| 中文字幕在线观看亚洲| 波多野结衣在线免费观看| 26uuu亚洲电影在线观看| 成人激情午夜影院| 日韩av男人的天堂| 亚洲欧美精品aaaaaa片| 大奶在线精品| 欧美影院一区二区| 日韩视频 中文字幕| 四虎影视在线观看2413| 午夜亚洲福利在线老司机| 色悠悠国产精品| 亚洲成a人片在线www| 一区在线影院| 亚洲成a人片在线观看中文| 日本最新一区二区三区视频观看| 国产欧美久久久| 久久激情中文| 久久91亚洲精品中文字幕奶水| 色欲av无码一区二区三区| 99er精品视频| 欧美日韩国产在线播放| 日本精品免费视频| 黄视频在线播放| 国产成人精品亚洲777人妖| 国产成人在线播放| 国产性xxxx高清| 欧美一区二区三区久久精品| 国产一区二区久久精品| 秘密基地免费观看完整版中文| 国产精品成人国产| 日韩欧美一区二区三区| 国产真实老熟女无套内射| 日本激情视频在线观看| 天天爽夜夜爽视频| 在线观看日本黄色| 欧美a大片欧美片| 欧美一区二区视频观看视频| 尤蜜粉嫩av国产一区二区三区| av老司机免费在线| 亚洲人精品午夜| 日韩免费电影一区二区| 午夜视频www| 成人一区在线观看| 亚洲综合大片69999| 在线免费观看一级片| 久久国产毛片| 全亚洲最色的网站在线观看| 在线观看免费国产视频| 亚洲小说区图片区| 久久久久久国产精品美女| 日韩a级片在线观看| 99久久综合狠狠综合久久aⅴ| 这里只有精品丝袜| 一二三四国产精品| 成人中文视频| 色妞欧美日韩在线| 少妇太紧太爽又黄又硬又爽小说| 欧美日韩xxxx| 亚洲一区av在线播放| 超碰97人人干| 蜜桃视频欧美| 国产亚洲精品高潮| 国产又粗又黄又猛| 日韩国产欧美| www.99久久热国产日韩欧美.com| 男人天堂资源网| 99国产精品一区二区| 久久精品国产欧美亚洲人人爽| 精品国产国产综合精品| 五月天激情综合网| 欧美大奶子在线| 国产精品99无码一区二区| 伊人久久大香线蕉综合热线| 97超级碰在线看视频免费在线看| 天堂在线免费观看视频| 玖玖精品视频| 91精品国产自产在线观看永久| 国产又爽又黄免费软件| 久久99久久99精品免视看婷婷| 91性高湖久久久久久久久_久久99| 国产99999| 91视频观看免费| 亚洲成色www久久网站| av在线免费网站| 精品久久久中文| 日本www.色| 日本免费一区二区三区视频| 日韩精品中文字幕视频在线| 一级片视频免费看| 亚洲精品tv久久久久久久久久| 久久久久久中文字幕| 天干夜夜爽爽日日日日| 国产一区二区在线看| 国外成人在线视频网站| 国产视频三级在线观看播放| 一区二区三区中文在线| 欧美成人精品欧美一级乱| 中文字幕日韩亚洲| 亚洲激情第一页| 刘亦菲国产毛片bd| 亚洲欧洲另类| 国产日韩中文字幕| 亚洲日本在线播放| 亚洲情趣在线观看| 男人操女人免费| 麻豆国产精品| 国产亚洲人成a一在线v站| 亚洲国产精品久| 丝袜亚洲另类欧美综合| 国产精品福利视频| 美女国产在线| 日韩欧美主播在线| 4438x全国最大成人| 国产乱码精品一区二区亚洲| 久久久久久尹人网香蕉| 一级做a爱片久久毛片| av网站一区二区三区| 日本一本草久p| 一区二区视频免费完整版观看| 亚洲精品一线二线三线无人区| 国产又粗又长又黄的视频| 国产欧美高清| 爱情岛论坛亚洲入口| 亚洲成人三级| 91官网在线免费观看| 男人网站在线观看| 欧美黄色免费| 成人免费福利在线| 国产精品影院在线| 精品福利樱桃av导航| 香蕉视频在线观看黄| 999国产精品视频| 国产精品视频网址| 福利成人在线观看| 色8久久精品久久久久久蜜| 少妇一级淫片免费放播放| 韩国久久久久| a级国产乱理论片在线观看99| 黄色av免费在线| 欧美日本在线播放| 永久免费看片视频教学| 久久成人久久鬼色| 香蕉精品视频在线| 999精品嫩草久久久久久99| 日韩中文字幕不卡视频| 午夜视频网站在线观看| 欧美韩国日本不卡| 亚洲五月天综合| 欧美在线电影| 国产女人精品视频| 久久精品视频免费看| 9191久久久久久久久久久| 香蕉成人在线视频| 国产综合一区二区| 国产专区在线视频| caoporn成人| 68精品国产免费久久久久久婷婷| 三级在线观看网站| 欧美性xxxx18| 欧美18—19性高清hd4k| 青青国产91久久久久久| 亚洲人成网站在线播放2019| 99只有精品| 久久天天躁夜夜躁狠狠躁2022| ,亚洲人成毛片在线播放| 国产精品视频麻豆| 免费成人黄色大片| 伊人精品在线| 久久亚洲综合网| 男人最爱成人网| 亚洲欧美综合图区| 一区二区三区精彩视频| 亚洲色图19p| 日韩精品xxx| 影音国产精品| 成人3d动漫一区二区三区91| 日本在线观看高清完整版| 精品精品国产高清a毛片牛牛| 久久精品免费在线| 91热门视频在线观看| 日本激情视频在线播放| 小处雏高清一区二区三区| 亚洲va久久久噜噜噜久久天堂| 色呦呦在线观看视频| 亚洲福利视频二区| 中文字幕一区二区人妻| 亚洲人成小说网站色在线| 国产精品19p| 欧美亚洲一区| 四虎永久免费网站| 精品精品国产三级a∨在线| 欧美一级视频一区二区| 99青草视频在线播放视| 日韩一级二级三级精品视频| 日本网站在线播放| 国产无人区一区二区三区| 国产v亚洲v天堂无码久久久| 在线看片不卡| 九色91在线视频| 黄色欧美视频| 高清一区二区三区四区五区| 1769在线观看| 精品久久久久av影院 | 中文在线第一页| 国产日韩一级二级三级| 男女视频在线观看网站| 亚洲精选久久| 亚洲美女自拍偷拍| 天堂一区二区三区四区| 成人精品一区二区三区电影黑人| 岛国毛片av在线| 中文字幕亚洲欧美日韩2019| 五月婷婷六月色| 欧美剧情片在线观看| 欧美日韩综合在线观看| 专区另类欧美日韩| 国产小视频自拍| 成人久久视频在线观看| 2025韩国理伦片在线观看| 国内一区二区三区| 欧美日韩精品一区| 狼人精品一区二区三区在线 | 亚洲综合视频一区| 久久久亚洲欧洲日产| 成人午夜激情免费视频| 玛雅亚洲电影| 97精品视频在线观看| 午夜伦全在线观看| 国产婷婷色综合av蜜臀av| 国产三级第一页| 欧美私模裸体表演在线观看| 精品不卡一区二区| 亚洲成av人影院| www青青草原| 国产精品短视频| 国产日产在线观看| 国产欧美日韩综合| 真人bbbbbbbbb毛片| 国产成人精品午夜视频免费| 粗大的内捧猛烈进出视频| 毛片基地黄久久久久久天堂| 青青青国产在线视频| 国产亚洲毛片在线| 免费在线观看亚洲视频| 久久精品久久久| 美女三级99| 亚洲精品aaaaa| 精品综合久久| 好吊妞视频这里有精品| 亚洲综合日韩在线| 一区二区中文字幕在线观看| 成人欧美一区二区三区在线湿哒哒 | 国产在线精彩视频| 欧美激情国产精品| 午夜伦理在线| www.国产一区| 午夜在线小视频| 久久亚洲精品成人| av在线官网| 免费91在线视频| 麻豆福利在线观看| 欧美另类暴力丝袜| 曰本三级在线| 欧美劲爆第一页| 性国裸体高清亚洲| 国产999在线| **欧美日韩在线观看| 日本免费久久高清视频| 色综合天天色| 成人免费淫片视频软件| 99久久99九九99九九九| 国产精品成人一区二区三区| 97视频一区| 精品久久中出| 国产探花在线精品一区二区| 一区二区三区四区| 91精品一区国产高清在线gif | 亚洲影院在线播放| 精品视频色一区| 国产又粗又黄又爽视频| 日韩丝袜美女视频| 亚洲国产精品久久久久爰性色| 亚洲精品国产电影| 国产鲁鲁视频在线观看免费| 久久精品99久久久香蕉| 日本在线高清| 国产精品久久中文| 二区三区精品| 韩国成人av| 天天综合网网欲色| www.av片| 青青国产91久久久久久| 午夜视频在线免费看| 99精品国产99久久久久久白柏| 一级片手机在线观看| 亚洲欧洲国产专区| 欧美一区二区激情视频| 欧美日韩卡一卡二| 好男人www在线视频| 亚洲精品国产成人| 在线中文字幕视频观看| 欧美一二三视频| 2020国产精品小视频| 欧美日韩精品久久久免费观看| 亚洲h色精品| 久久久久久久久久久福利| 激情综合色丁香一区二区| 国产精品无码毛片| 亚洲三级在线看| 99精品在线播放| 日韩久久精品一区| av中文字幕一区二区三区| 欧美精品久久久久a| 97欧美成人| 免费精品视频一区| 欧美区亚洲区| 日韩av在线中文| av网站一区二区三区| 免费在线观看黄色小视频| 欧美性xxxx极品hd满灌| 国产黄色小视频在线观看| 伊人亚洲福利一区二区三区| 超碰资源在线| 97中文在线观看| 欧美韩日高清| 在线观看国产中文字幕| 97aⅴ精品视频一二三区| 一区视频免费观看 | 91精品在线视频观看| 精品亚洲精品福利线在观看| 手机电影在线观看| 91丝袜脚交足在线播放| 婷婷综合在线| 黑人粗进入欧美aaaaa| 国产亚洲成aⅴ人片在线观看| 国产大片中文字幕| 欧美一区二区观看视频| 国产日本在线观看| 国产ts一区二区| 丝袜久久网站| 久久久一本二本三本| gogo大胆日本视频一区| 久久久久无码国产精品不卡| 制服视频三区第一页精品| 菠萝蜜视频国产在线播放| 国产欧美日韩精品专区| blacked蜜桃精品一区| 91淫黄看大片| 久久久久久久久97黄色工厂| 国产专区第一页| 精品日产卡一卡二卡麻豆| 大香伊人中文字幕精品| 国产精品一区免费观看| 欧美日韩综合| 中文字幕在线永久| 午夜精品久久久久久久99水蜜桃| 懂色av蜜臀av粉嫩av分享吧| 韩国精品美女www爽爽爽视频| 911精品国产| 久久综合久久网| 91蜜桃视频在线| 黄色污污网站在线观看| 亚洲一区二区久久久| 综合日韩av| 欧美精品一区三区在线观看| 久久综合中文| 国产高清一区二区三区四区| 欧美日韩高清在线播放| 老司机精品视频在线观看6| 91精品综合久久久久久五月天| 欧美ab在线视频| 中文字幕99页| 欧美午夜无遮挡| 在线激情网站| 91视频免费进入| 99伊人成综合| 麻豆av免费观看| 欧美精品一级二级三级| 3344国产永久在线观看视频| 久久久com| 欧美aaa在线| 国产精品 欧美激情| 欧美α欧美αv大片| 男人最爱成人网| 91香蕉视频网址| 91在线视频官网| 五月激情丁香网| 欧美精品做受xxx性少妇| 午夜精品影视国产一区在线麻豆| 日日碰狠狠躁久久躁婷婷| 国产精品高潮呻吟久久| 天堂在线观看av|