精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o數(shù)學(xué)能力跑分直掉50%,上海AI Lab開始給大模型重新出題了

人工智能 新聞
為了真實(shí)檢驗(yàn)?zāi)P蛿?shù)學(xué)推理能力,上海人工智能實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)放大招了。

新模型在MATH上(以數(shù)學(xué)競(jìng)賽為主)動(dòng)輒跑分80%甚至90%以上,卻一用就廢。

這合理嗎??

為了真實(shí)檢驗(yàn)?zāi)P蛿?shù)學(xué)推理能力,上海人工智能實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)放大招了。

推出新的復(fù)雜數(shù)學(xué)評(píng)測(cè)集LiveMathBench,以全新性能指標(biāo)G-Pass@16??來連續(xù)評(píng)估模型的性能潛力和穩(wěn)定性。

圖片

好家伙!團(tuán)隊(duì)在模擬真實(shí)用戶使用采樣策略、重復(fù)多次評(píng)測(cè)大模型的數(shù)學(xué)推理能力時(shí)發(fā)現(xiàn):

大部分的模型平均會(huì)有五成以上的性能下降,即使是最強(qiáng)推理模型o1-mini也會(huì)下降3成6,更有模型直接下降九成。

圖片

具體咋回事兒下面接著看。

全新評(píng)價(jià)指標(biāo): G-Pass@k

研究團(tuán)隊(duì)重新思考了大模型評(píng)測(cè)常用的技術(shù)指標(biāo),如傳統(tǒng)經(jīng)常采用的Pass@k, Best-of-N, Majority Voting,這些指標(biāo)主要關(guān)注模型的性能潛力,缺少對(duì)模型的魯棒性的評(píng)測(cè)。

而真實(shí)場(chǎng)景中,為了提高回復(fù)的多樣性,模型往往使用采樣解碼的方式進(jìn)行推理,這也會(huì)帶來大量的隨機(jī)性。在復(fù)雜推理任務(wù)中,這種隨機(jī)性會(huì)嚴(yán)重影響模型的性能,而用戶更預(yù)期在真實(shí)問題中,模型能又穩(wěn)又好。

Pass@k指標(biāo)回顧

經(jīng)典的Pass@k指標(biāo)關(guān)注模型在多次生成中至少給出一次正確答案的概率。假設(shè)模型生成次數(shù)為??,正確答案數(shù)為??,c表示其中正確解的數(shù)量,那么Pass@k的計(jì)算方式如下:

圖片

兼顧性能潛力與穩(wěn)定性的評(píng)測(cè)指標(biāo)G-Pass@K

Pass@k體現(xiàn)了模型的性能潛力,卻不能體現(xiàn)模型的穩(wěn)定性,基于這一目的團(tuán)隊(duì)將Pass@k推廣為Generalized Pass@k(以下簡(jiǎn)稱G-Pass@k??)。

通過引入閾值??,該工作關(guān)注模型在??次生成中至少給出 ? ?? · ?? ?次正確答案的概率。

一般來說,認(rèn)為模型的每次生成是i.i.d.(Independent and Identically Distributed)的,那么模型給出的正確答案數(shù)服從二項(xiàng)分布,這可以通過超幾何分布逼近二項(xiàng)分布。基于此,可以得出G-Pass@k??的定義:

圖片

在??較小時(shí),G-Pass@k??衡量模型的性能潛力;??較大時(shí),G-Pass@k??衡量模型的穩(wěn)定性,或者說模型對(duì)于問題的掌握程度,因此研究者可以通過G-Pass@k??連續(xù)地觀察模型的性能潛力與穩(wěn)定性。

進(jìn)?步地,研究團(tuán)隊(duì)還定義了mG-Pass@k用于對(duì)模型的性能進(jìn)行整體觀測(cè)。

具體來說,mG-Pass@k是 ??—G-Pass@k??曲線下的面積,為了更好地模擬真實(shí)場(chǎng)景,團(tuán)隊(duì)重點(diǎn)考慮???[0.5,0.1 ]的情況,即:

圖片

G-Pass@K是Pass@K是泛化形式

當(dāng)? ?? · ?? ?=1時(shí),Pass@K是G-Pass@k??等價(jià),這意味著Pass@K是G-Pass@k??的特例,讀者可以參考論文附錄提供的證明。

研究團(tuán)隊(duì)給出了兩者關(guān)系的對(duì)比分析,如下圖所示:

圖片

圖中展示了不同的??和c下Pass@K和G-Pass@k??的值,可以看出在??較小時(shí),兩者反映的是模型的潛力,然而這種分?jǐn)?shù)可能是偏高的,在24/80的整體通過率下,Pass@K指標(biāo)的值可以接近80%。

但當(dāng)關(guān)注較高的??時(shí),更能夠觀察到模型在實(shí)際生成時(shí)的真實(shí)性能。

LiveMathBench:避免數(shù)據(jù)污染的復(fù)雜數(shù)學(xué)評(píng)測(cè)集

研究團(tuán)隊(duì)構(gòu)建了一個(gè)新的benchmark LiveMathBench用于驗(yàn)證實(shí)驗(yàn)。

具體來說,他們收集了最近發(fā)布的中國(guó)數(shù)學(xué)奧林匹克,中國(guó)高考最新模擬題,美國(guó)數(shù)學(xué)競(jìng)賽和美國(guó)普特南數(shù)學(xué)競(jìng)賽中最新的題目,盡量減少數(shù)據(jù)污染的可能性。

整個(gè)LiveMathBench(202412版本)包括238道題目,每個(gè)題目提供中文/英文兩個(gè)版本的題目,覆蓋不同的難度。研究團(tuán)隊(duì)計(jì)劃后續(xù)持續(xù)更新LiveMathBench中的題目,來持續(xù)觀測(cè)LLM的真實(shí)數(shù)學(xué)水平。

另外,研究團(tuán)隊(duì)還在兩個(gè)公開Benchmark MATH500和AIME2024上進(jìn)行了實(shí)驗(yàn)。

對(duì)于MAH500,研究團(tuán)隊(duì)選擇了難度為L(zhǎng)5的題目,命名為MATH500-L5;對(duì)于AIME2024,研究團(tuán)隊(duì)使用了Part1和Part2兩個(gè)部分全部45道題目,命名為AIME2024-45。

實(shí)驗(yàn)

在實(shí)驗(yàn)設(shè)置方面,對(duì)于每道題目,進(jìn)行了16*3=48次生成并報(bào)告G-Pass@16??分?jǐn)?shù)。研究團(tuán)隊(duì)在通用模型、數(shù)學(xué)模型和類o1模型三種不同類型的大模型中選擇了具有代表性的大模型進(jìn)行實(shí)驗(yàn)。

LiveMathBench性能對(duì)比如下:

圖片

根據(jù)實(shí)驗(yàn)結(jié)果,可以看到:

  • 大部分閉源模型和開源模型在G-Pass@161.0指標(biāo)上也都不超過30分。
  • 最強(qiáng)的o1-mini模型在G-Pass@161.0獲得了最高分42分,相對(duì)性能下降比例也是所有模型中最低的(36.9%),雖體現(xiàn)出相對(duì)較高的穩(wěn)定性,但仍然難以忽視。

Math-500-L5/AIME2024-45性能對(duì)比如下。

圖片

對(duì)于開源數(shù)據(jù)集:

  • 在常用的高中競(jìng)賽級(jí)別題目MATH500-L5上,多數(shù)模型不管是貪婪解碼的表現(xiàn)還是穩(wěn)定性G-Pass@161.0的表現(xiàn)都相比LiveMathBench都有所提升,而AIME2024則相反,大多數(shù)模型的G-Pass@161.0分?jǐn)?shù)都只有個(gè)位數(shù),甚至部分模型接近0分;
  • 對(duì)于難度頗高的AIME2024,雖然o1-min和QwQ-32B-Preview在貪婪解碼下表現(xiàn)突出,但面對(duì)高難度題目下的穩(wěn)定性還是難以保證,如QwQ-32B-Preview甚至跌到了不到原來的1/5,而其在MATH500-L5中卻比較穩(wěn)定,達(dá)到了原分?jǐn)?shù)的3/5,這也說明了最新的高難度數(shù)學(xué)題目對(duì)模型的穩(wěn)定性帶來了更大的壓力。

最后,模型在不同難度題目上的能力分析如下 

下表展示了關(guān)鍵模型在LiveMathBench兩個(gè)子集上的性能表現(xiàn)。

其中CCEE代表中國(guó)高考題目,主要涉及到基礎(chǔ)的高中數(shù)據(jù)知識(shí);而WLPMC代表來自普特南(Putnam)競(jìng)賽的題目,普特南競(jìng)賽是久負(fù)盛名的美國(guó)大學(xué)生數(shù)學(xué)競(jìng)賽,其題目難度要高于高考題目。

圖片

由實(shí)驗(yàn)結(jié)果可以看出,先進(jìn)的推理模型,例如DeepSeek-V2.5, Qwen2.5-72B-Instruct, QwQ等在Pass@16指標(biāo)下在兩個(gè)子集上都有較好的性能,但大部分模型在WLPMC上的穩(wěn)定性下降更為嚴(yán)重。

因此可以有如下猜想,推理模型容易學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中的平凡解,導(dǎo)致Pass@k等指標(biāo)的上升,然而在困難的問題上,這種提升并不與模型真實(shí)推理性能提升相關(guān)。在強(qiáng)基座模型的訓(xùn)練中,更應(yīng)該關(guān)注推理穩(wěn)定性的表現(xiàn),以提升其真實(shí)推理能力。

重要觀測(cè)

觀察一:閉源和開源模型均不能穩(wěn)定地進(jìn)行復(fù)雜推理

研究人員對(duì)當(dāng)前主流的約20個(gè)模型進(jìn)行了測(cè)試,發(fā)現(xiàn)盡管多數(shù)模型在貪婪解碼的準(zhǔn)確率Greedy Accuracy和Pass@16上表現(xiàn)相對(duì)較好,但當(dāng)使用G-Pass@K指標(biāo)進(jìn)?評(píng)估時(shí),性能卻顯著下降。

當(dāng)??設(shè)置為1.0時(shí),即要求模型在所有16次采樣中都提供正確答案, 幾乎所有模型的表現(xiàn)都急劇下降。

例如,在對(duì)LiveMathBench的測(cè)評(píng)中,Llama-3.1-8B-Instruct模型的準(zhǔn)確率從18.1%下降到0.8%(G-Pass@16??=1.0),降幅高達(dá)95.7%。即使是較大的模型,如NuminaMath-72B-CoT,其準(zhǔn)確率也從34.45%下降到3.7%,減少了89.3%。

在大約20個(gè)測(cè)試模型中,平均性能下降了60%。即便是表現(xiàn)最為穩(wěn)定的OpenAI o1-mini,其準(zhǔn)確率也從66.5%下降到42.0%,降幅為36.9%。

即使將??放寬到0.5,即只要求一半的樣本正確即可通過,通用模型、數(shù)學(xué)推理模型和o1-like模型仍分別經(jīng)歷了14.0%、22.5%和4.8%的平均性能下降。

這表明,在復(fù)雜條件下,多數(shù)模型難以在多次采樣中保持一致的推理能力。

不過目前的評(píng)估指標(biāo)通常依賴單次貪婪解碼,可能無法充分反映這些模型在實(shí)際應(yīng)用中的魯棒性和穩(wěn)定性。

因此,研究團(tuán)隊(duì)指出,需要對(duì)模型的推理能力進(jìn)行更嚴(yán)格的評(píng)估,尤其是在那些需要在多次采樣中保持一致性和可靠性的重要應(yīng)用中。

觀察二:增大模型規(guī)模對(duì)推理能力的提升有限

研究人員觀察到,以同系列模型Qwen2.5-32B-Instruct與Qwen2.5-72B-Instruct為例,雖然它們的模型規(guī)模相差一倍以上,但無論指標(biāo)采用G-Pass@K還是Greedy Accuracy,無論評(píng)測(cè)數(shù)據(jù)集是最新的LiveMathBench還是現(xiàn)有開源數(shù)據(jù)集,兩者的表現(xiàn)均相似

另外,在更大體量的模型Mistral-Large-Instruct-2411(123B)上,盡管模型規(guī)模繼續(xù)增大,但其性能和穩(wěn)定性相比 Qwen2.5-72B-Instruct 卻出現(xiàn)下滑。

這表明,對(duì)于需要深度理解和邏輯推理的任務(wù),簡(jiǎn)單增大參數(shù)并不能顯著提升性能或穩(wěn)定性。

這可能是因?yàn)檫@些任務(wù)不僅需要模型具備記憶和模式識(shí)別能力,更需要強(qiáng)大的推理和上下文理解能力。

觀察三:模型的性能潛力和實(shí)際表現(xiàn)之間的巨大差距

研究團(tuán)隊(duì)在評(píng)估模型性能時(shí)發(fā)現(xiàn),理論最大能力G-Pass@16??→0、實(shí)際表現(xiàn)能力Greedy Accuracy和多次采樣下的穩(wěn)定能力G-Pass@16??=1.0之間存在顯著差距

盡管模型在理論上具備相當(dāng)高的潛在性能,但在實(shí)際應(yīng)用中未能充分展現(xiàn)這一水平,尤其是在輸出穩(wěn)定性方面。一些模型在單次貪婪解碼中表現(xiàn)出高準(zhǔn)確率,顯示出處理特定任務(wù)的潛力,但在保持一致高準(zhǔn)確率方面卻不穩(wěn)定,遠(yuǎn)未達(dá)到最佳性能。

這反映了現(xiàn)有模型在推理穩(wěn)定性和一致性上的不足,這在訓(xùn)練和評(píng)估中常被忽略

模型在單次推理表現(xiàn)中易受輸入數(shù)據(jù)變化、初始化狀態(tài)或隨機(jī)采樣的影響,導(dǎo)致不同采樣解碼的結(jié)果不一致。

研究人員指出,在高可靠性和一致性要求的實(shí)際應(yīng)用中,如何在保持接近最佳性能的同時(shí)確保輸出的穩(wěn)定性,是一個(gè)亟待解決的問題。

總結(jié)

本研究深入分析了當(dāng)前大型模型的數(shù)學(xué)推理能力,提出了全新的性能指標(biāo)G-Pass@16?? ,用于連續(xù)評(píng)估模型的性能潛力和穩(wěn)定性。

此外,還設(shè)計(jì)了避免數(shù)據(jù)污染的LiveMathBench數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果顯示,目前的大型模型在推理性能方面未達(dá)到預(yù)期,尤其在多次重復(fù)采樣時(shí),性能出現(xiàn)顯著下降。研究團(tuán)隊(duì)期望學(xué)術(shù)界和工業(yè)界能夠在推理能力的魯棒性研究上持續(xù)探索與推進(jìn)。

論文鏈接:https://arxiv.org/abs/2412.13147
項(xiàng)目地址:https://github.com/open-compass/GPassK

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-05 13:09:26

2024-11-28 15:51:19

GPT-4o微軟

2025-08-07 14:05:40

OpenAI大模型開源

2025-04-01 09:25:00

2025-02-18 12:30:00

2024-05-14 11:29:15

2025-05-26 09:05:00

2024-08-09 12:50:02

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2024-05-30 12:50:05

2024-09-06 13:31:31

2024-06-17 18:04:38

2024-08-14 09:13:28

2024-09-06 13:00:29

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2024-05-21 12:23:17

2024-12-30 15:15:07

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2025-05-14 09:15:00

2024-06-05 08:29:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

粉嫩aⅴ一区二区三区| 美女少妇一区二区| 亚洲精品久久久久久无码色欲四季 | 免费男女羞羞的视频网站在线观看 | 精品极品在线| 2020国产精品| 国产精品日韩一区| 91狠狠综合久久久| 懂色av一区二区| 色一情一乱一乱一91av| 亚洲欧美日韩精品在线| av免费在线观看不卡| 影音先锋国产精品| 国产亚洲精品va在线观看| 久久久久久久久久一区二区| 日本小视频在线免费观看| 99久久精品99国产精品| 国产精品成人v| 全程偷拍露脸中年夫妇| 免费观看不卡av| 3d动漫精品啪啪1区2区免费| 国产不卡一区二区视频| 国产精品影院在线| 国产精品亚洲人在线观看| 欧美亚洲第一区| 老司机成人免费视频| 欧美尿孔扩张虐视频| 欧美日韩不卡一区| 国产 日韩 亚洲 欧美| 免费黄色在线网站| 久久一区二区视频| 99国精产品一二二线| 狠狠狠狠狠狠狠| 欧美日韩国产色综合一二三四| 亚洲片在线观看| 少妇伦子伦精品无吗| 日韩大陆av| 色综合天天综合网天天狠天天| 99视频精品全部免费看| 国产51人人成人人人人爽色哟哟| 东方欧美亚洲色图在线| 国产又爽又黄的激情精品视频| 久热这里只有精品6| 欧美91精品| 中文字幕欧美视频在线| 国产三级国产精品| 成人香蕉社区| 日韩欧美色电影| 国模私拍视频在线观看| 性高爱久久久久久久久| 黄色一区二区三区| 国产肉体ⅹxxx137大胆| 国产一二区在线观看| 国产精品青草综合久久久久99| 精品国产电影| 成人午夜精品福利免费| 国产精品一品二品| 91影视免费在线观看| 中文字幕在线观看第二页| 午夜在线精品偷拍| 91精品国产高清久久久久久| 久久久久久久久久久久国产| 影音先锋日韩在线| 欧美www在线| √天堂中文官网8在线| 欧美顶级大胆免费视频| 日韩中文在线中文网三级| 白白色免费视频| 自拍自偷一区二区三区| 亚洲精品在线观看www| 久久午夜夜伦鲁鲁片| 美女av一区| 亚洲精品电影在线| 亚洲制服丝袜在线播放| 欧美成人午夜77777| 日韩av最新在线| 熟女人妻在线视频| 综合亚洲自拍| 亚洲网站在线看| 国产伦理片在线观看| 精品大片一区二区| 色先锋资源久久综合5566| 山东少妇露脸刺激对白在线| 久久国产成人午夜av影院宅| 日韩视频永久免费观看| 精品欧美一区二区久久久久| 国模 一区 二区 三区| 午夜精品久久久久久久男人的天堂 | 欧美日韩va| 欧美男人的天堂一二区| 中文字幕第六页| 91精品导航| 亚洲另类xxxx| 日韩一区二区三区四区视频| 911精品美国片911久久久| 欧美夫妻性生活xx| 久久黄色精品视频| 日韩黄色小视频| 成人激情视频在线观看| 免费国产黄色片| 久久美女艺术照精彩视频福利播放 | 国产精品免费精品一区| 视频一区二区中文字幕| 91精品视频免费观看| 欧美一区二区三区成人片在线| 91女神在线视频| 一区不卡字幕| 丁香花在线影院| 日本精品一区二区三区高清| 亚洲一区二区偷拍| 亚洲精品进入| 久久精品一区中文字幕| 久久露脸国语精品国产91| 奇米影视一区二区三区小说| www.成人av.com| 欧美精品少妇| 一区二区三区成人在线视频| 国产精品97在线| 国产精品国产亚洲精品| 日韩黄色高清视频| 精品国产欧美日韩不卡在线观看| 亚洲影视综合| 91久久大香伊蕉在人线| jzzjzzjzz亚洲成熟少妇| 一区二区三区色| 亚洲欧美国产日韩综合| 欧美重口另类| 欧美成人h版在线观看| 超碰中文字幕在线| 国产黄色成人av| 亚洲国产综合自拍| 亚洲欧洲自拍| 精品国产乱码久久久久久1区2区 | 精品一区二区三区三区| 麻豆视频在线免费看| 日韩在线观看一区二区| 国产精品毛片va一区二区三区| av在线电影播放| 精品国产31久久久久久| 无套白嫩进入乌克兰美女| 精品国产a一区二区三区v免费| 性欧美办公室18xxxxhd| 精品毛片在线观看| 中文字幕在线一区免费| 在线免费视频a| 自拍自偷一区二区三区| 91国内产香蕉| 亚洲av无码一区二区三区性色| 国产精品天天看| 亚洲中文字幕无码专区| 国产精品玖玖玖在线资源| 精品中文字幕在线2019| 国产精品国产三级国产aⅴ| 国产午夜精品在线观看| 国产精彩免费视频| 偷窥自拍亚洲色图精选| 国内精品伊人久久| 人妻与黑人一区二区三区| 亚洲综合一区二区三区| 日本黄色一级网站| 一本一本久久a久久综合精品| 国产日韩专区在线| 免费在线观看av网站| 欧美日韩视频不卡| 美女网站视频色| 久久99精品国产.久久久久久| 无遮挡亚洲一区| 国产一区二区三区朝在线观看| 亚洲欧美日韩国产中文专区| 亚洲视频 欧美视频| 国产亚洲短视频| 日韩精品一区二区三区色欲av| 亚洲v天堂v手机在线| 日av在线播放中文不卡| 男人天堂亚洲二区| 欧美在线三级电影| 日本高清黄色片| 免费看欧美美女黄的网站| 手机在线观看国产精品| 欧美爱爱视频| 九九久久国产精品| 午夜精品久久久久久久99热黄桃| 亚洲综合免费观看高清完整版| 69亚洲乱人伦| 国产精品毛片在线| 亚洲高清精品中出| 日韩精品成人| 午夜免费日韩视频| 久久国产精品高清一区二区三区| 欧美在线色视频| 国产精品三区在线观看| 99精品国产99久久久久久白柏 | 久久婷婷麻豆| 亚洲精品视频一二三| 精品麻豆剧传媒av国产九九九| 久久久女人电视剧免费播放下载| 久久精品色图| 69av一区二区三区| 日韩男人的天堂| 欧美国产日韩在线观看| 手机在线观看日韩av| 国产毛片久久| 一区二区三区国产福利| 澳门久久精品| 国产精品99久久久久久人| 国产日产一区二区三区| 亚洲精品美女久久久| 在线视频你懂得| 亚洲成人免费观看| 亚洲色图第四色| 成人午夜在线免费| 日韩一区二区三区久久| 亚洲激情精品| 中文字幕免费在线不卡| 午夜欧洲一区| 亚洲曰本av电影| 欧美大片免费观看网址| 欧美成人免费网| 成人影视在线播放| 亚洲成人精品在线| 一级片在线免费观看视频| 精品久久久久久中文字幕大豆网| 中文字幕91视频| 91在线码无精品| 日本成人xxx| 日韩中文字幕91| 国产二级片在线观看| 亚洲不卡av不卡一区二区| 欧美一区2区三区4区公司二百| 日韩黄色av| 国产视频999| 成人直播视频| 欧美黑人一区二区三区| 午夜视频在线观看网站| 亚洲久久久久久久久久| 欧美在线 | 亚洲| 欧美一级二级三级乱码| 中文字幕免费在线看| 欧美性69xxxx肥| 国产无码精品视频| 亚洲综合色网站| 全网免费在线播放视频入口| 欧美国产日韩a欧美在线观看| 国产三级视频网站| 波多野结衣亚洲一区| 国产在线视频三区| 激情综合色播五月| 亚洲黄色av片| 麻豆高清免费国产一区| 免费黄色一级网站| 久久午夜av| 国产一区二区视频免费在线观看| 136国产福利精品导航网址| 亚洲中文字幕无码一区二区三区| 国产精品黑丝在线播放 | 欧美国产一级| 亚洲 日韩 国产第一区| 精品亚洲成人| 偷拍视频一区二区| 欧美日韩激情在线一区二区三区| 秋霞久久久久久一区二区| 一本色道久久综合狠狠躁的番外| 精品国产一区二区三区免费| 卡一精品卡二卡三网站乱码| 激情一区二区三区| 日韩最新在线| 欧美一级二级三级| 日本一区二区高清不卡| 尤物国产精品| 久久久久蜜桃| 国产a级黄色大片| 极品少妇一区二区三区| 91成人在线观看喷潮教学| 一区二区三区福利| 成人在线免费播放视频| 久久电影国产免费久久电影| 中文字幕日韩综合| 国产精品一级片| 国产午夜在线一区二区三区| 菠萝蜜视频在线观看一区| www.久久国产| 国产精品久久久久久久久免费樱桃 | 免费三片在线播放| 亚洲成人tv网| 99精品在线播放| 欧美专区在线观看一区| 国产精品一级视频| 亚洲第一精品福利| 久久久久久久影视| 最新69国产成人精品视频免费| 精品国产丝袜高跟鞋| 欧美第一淫aaasss性| 美女av在线免费看| 国产精品天天狠天天看 | 国产精品久久久久久免费观看 | 成久久久网站| 亚洲小视频在线播放| 亚洲欧洲一区| 超碰在线97免费| 国产精品18久久久久久vr| 少妇精品一区二区| 国产精品久久久99| 精品无码免费视频| 色婷婷精品大视频在线蜜桃视频| 国产精品久久免费| 精品香蕉一区二区三区| 国产黄色在线观看| 97视频人免费观看| 祥仔av免费一区二区三区四区| 国产精品视频一区二区三区经| 精品国产中文字幕第一页| 国产尤物av一区二区三区| 美女日韩在线中文字幕| 九九九久久久久久久| 久久精品亚洲一区二区三区浴池| 538精品在线视频| 日本精品一级二级| 人妻一区二区三区免费| 色哟哟亚洲精品一区二区| 国产第一页在线| 国产精品日韩电影| 网红女主播少妇精品视频| 日本美女爱爱视频| 日韩av一区二区三区四区| 国产精品一区二区人妻喷水| 日韩一区日韩二区| 波多野结衣一二区| 亚洲精品v天堂中文字幕| 精品176二区| 日韩暖暖在线视频| 美腿丝袜亚洲图片| 特级西西人体www高清大胆| 免费成人av在线播放| 添女人荫蒂视频| 亚洲激情中文1区| 亚洲视频一区二区三区四区| 亚洲美女av网站| 三级中文字幕在线观看| 成人资源av| 欧美精品18| 日本一区二区三区在线免费观看| 日本一区免费视频| 日韩精品一区不卡| 精品一区二区三区四区在线| 大黄网站在线观看| 成人午夜影院在线观看| 午夜日韩视频| 伊人五月天婷婷| 中文字幕日本乱码精品影院| 国产成人自拍偷拍| 亚洲日韩欧美视频| free欧美| 欧洲精品国产| 日本欧美在线观看| 天天躁夜夜躁狠狠是什么心态| 色欧美日韩亚洲| 极品美乳网红视频免费在线观看| 97成人精品区在线播放| 精品国产一区二区三区成人影院| 国产免费裸体视频| 高清日韩电视剧大全免费| 精品亚洲永久免费| 精品第一国产综合精品aⅴ| 暖暖在线中文免费日本| 国产成人成网站在线播放青青 | 东方aⅴ免费观看久久av| 国产小视频在线观看免费| 欧美xxxx老人做受| 国模雨婷捆绑高清在线| 国产一区二区在线网站| 亚洲少妇自拍| 国产熟妇搡bbbb搡bbbb| 在线免费观看一区| 在线观看黄av| 91在线播放国产| 国内自拍一区| www.超碰97| 日本高清不卡aⅴ免费网站| 自拍视频在线网| 91麻豆国产精品| 国产一区日韩一区| 人妻少妇精品视频一区二区三区| 日本韩国精品在线| 精品国产白色丝袜高跟鞋| 超碰97在线资源| 中文高清一区| 欧美熟妇激情一区二区三区| 欧美精品在欧美一区二区少妇| 中文字幕在线观看网站| 国产伦精品一区二区三区视频孕妇| 国产农村妇女精品一区二区| 亚洲一区二区自偷自拍| 欧美一区二区免费视频| 77thz桃花论族在线观看| 日本不卡一区| 国产一区二区三区免费| 天天操天天爽天天干| 色噜噜狠狠狠综合曰曰曰88av| 亚洲综合影院| 中文字幕欧美人妻精品一区|