精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek數(shù)學(xué)大翻車?普林斯頓谷歌錘爆LLM:做題不會推理,全靠死記硬背

人工智能 新聞
LLM做數(shù)學(xué)題,并非靠真正推理,而是靠記憶?最近,普林斯頓、谷歌等研究者詳細(xì)剖解了o1-mini等模型做數(shù)學(xué)題的過程,發(fā)現(xiàn)它們靠的是記!最實(shí)錘的證據(jù)之一,就是題目明明已經(jīng)改變了條件,模型卻依然給出了原題的答案。

破案了!

就在剛剛,來自普林斯頓和谷歌的研究者發(fā)現(xiàn)——

大模型做數(shù)學(xué)題,不是靠推理,而是靠從訓(xùn)練集里記下的解題技巧!

論文地址:https://arxiv.org/abs/2502.06453

這「未解之謎」一直困擾著不少業(yè)內(nèi)人士:在數(shù)學(xué)上,LLM到底是學(xué)會了舉一反三,還是只是學(xué)會了背題?

此前OpenAI o1-preview被爆出,數(shù)學(xué)題目稍作修改,正確率暴降30%!

之后,OpenAI用o3-mini證明了LLM的強(qiáng)大數(shù)學(xué)推理能力,但網(wǎng)上就有數(shù)據(jù)集中相同類型的題目,讓這一問題顯得更加撲朔迷離。

這次華人研究團(tuán)隊(duì)帶來了新進(jìn)展,推出了全新的MATH-Perturb測試基準(zhǔn),測試AI泛化能力到底如何。

隨著LLM在MATH、OlympiadBench和AIME上連破紀(jì)錄,這讓人們看到了AI在數(shù)學(xué)領(lǐng)域的巨大潛力。

「數(shù)學(xué)天才」頭腦的背后,模型是真的模型理解了數(shù)學(xué)知識、掌握了推理精髓,還是只是表面上的「記憶游戲」?

如果模型在訓(xùn)練時(shí)接觸到了與測試集相似的題目,那它在測試中的高準(zhǔn)確率可能就有「水分」,很可能只是記住了答案,而非真正理解了解題思路。

就像一個(gè)學(xué)生,靠死記硬背記住了課本上的例題答案,一旦考試題目稍有變化,就不知道如何下手。

研究人員采用零樣本思維鏈(zero-shot chain-of-thought)的方法,對18種不同類型的LLM進(jìn)行了全面測試。這些模型涵蓋了長思維鏈模型、閉源大模型、開源小模型以及數(shù)學(xué)專用模型等。

在MATH-P-Hard數(shù)據(jù)集上,測試的所有模型都遭遇了「滑鐵盧」,準(zhǔn)確率普遍降低了10%-25%,包括OpenAI的GPT-4/o1系列、谷歌的Gemini系列以及Deepseek-math、Qwen2.5-Math等模型。

文章的主要結(jié)果如下:

  1. 對18個(gè)LLM的數(shù)學(xué)推理能力進(jìn)行了基準(zhǔn)測試,結(jié)果顯示所有模型,包括o1-mini和Gemini-2.0-flash-thinking,在MATH-P-Hard上的性能顯著下降(10%-25%)。這表明這些模型偏向于原始推理模式的分布,并且面對硬擾動的問題時(shí),會受到分布外效應(yīng)的影響。
  2. 對失敗模式分析的深入分析,并發(fā)現(xiàn)了一種新的記憶形式,即模型從訓(xùn)練集中記憶了解題技巧,并在不判斷修改后的設(shè)置是否仍然適用的情況下盲目應(yīng)用這些技巧。
  3. 研究了使用相應(yīng)的原始未修改問題和解決方案進(jìn)行上下文學(xué)習(xí)ICL的影響,并證明在MATH-P-Hard上,使用原始示例的ICL可能會損害模型的表現(xiàn),因?yàn)槟P涂赡軣o法識別細(xì)微的差異,并被示例誤導(dǎo)。
  4. 由12位研究生級別的專家策劃、設(shè)計(jì)并構(gòu)建了 MATH-P-Simple(簡單擾動)和 MATH-P-Hard(硬擾動)兩個(gè)數(shù)據(jù)集,自MATH數(shù)據(jù)集的第5級(最難)問題。

這不由得讓人想起之前蘋果研究者的一篇廣為流傳的論文。

論文地址:https://arxiv.org/abs/2410.05229

他們發(fā)現(xiàn),給數(shù)學(xué)題換個(gè)皮,LLM本來會做的數(shù)學(xué)題,就忽然不會了!

「當(dāng)索菲照顧她侄子時(shí),她會為他拿出各種各樣的玩具。積木袋里有31塊積木。毛絨動物桶里有8個(gè)毛絨動物。堆疊環(huán)塔上有9個(gè)五彩繽紛的環(huán)。索菲最近買了一管彈性球,這使她為侄子準(zhǔn)備的玩具總數(shù)達(dá)到了62個(gè)。管子里有多少個(gè)彈性球?」把這道題中索菲的名字、侄子的稱謂、玩具的具體數(shù)目改變,模型就做不對了

只修改了題目中的專有名詞,LLM的表現(xiàn)就明顯出現(xiàn)了分布均值從右向左的移動,方差增加,也就是說,它們做題的準(zhǔn)確度變低了。

這次普林斯頓、谷歌的這項(xiàng)研究,也再次驗(yàn)證了這篇論文的觀點(diǎn):LLM對數(shù)學(xué)題的推理能力,有水分。

MATH-Perturb:數(shù)學(xué)推理能力的「試金石」

為了更準(zhǔn)確地評估LLM的數(shù)學(xué)推理能力,研究人員推出了MATH-Perturb基準(zhǔn)測試,用來檢驗(yàn)?zāi)P驮诿鎸Σ煌y度擾動時(shí)的表現(xiàn)。

這個(gè)基準(zhǔn)測試包含兩個(gè)部分:MATH-P-Simple和MATH-P-Hard,題目均來自MATH數(shù)據(jù)集中難度最高的5級問題。

在構(gòu)建數(shù)據(jù)集時(shí),研究人員邀請了12位具有深厚數(shù)學(xué)背景的數(shù)學(xué)大佬來擔(dān)任注釋者。

對于MATH-P-Simple,注釋者進(jìn)行的是簡單擾動,對原問題進(jìn)行一些非本質(zhì)的修改,例如改變問題中的數(shù)值、變量名稱或表述方式,但不改變問題的基本推理模式和解題方法。

比如,原問題是求函數(shù)的值域,經(jīng)過簡單擾動后,變成求的值域。雖然題目有所變化,但解題的核心思路還是通過因式分解和分析函數(shù)特性來求解。

MATH-P-Simple和MATH-P-Hard的標(biāo)注過程

硬擾動(MATH-P-Hard)則是對原問題進(jìn)行小而關(guān)鍵的修改,這些修改會導(dǎo)致原有的解題方法不再適用,需要運(yùn)用更高級的數(shù)學(xué)知識和更復(fù)雜的推理技巧來解決。

同樣以函數(shù)值域問題為例,硬擾動后的問題可能變成求的值域,這時(shí)就需要運(yùn)用柯西-施瓦茨不等式等更復(fù)雜的數(shù)學(xué)知識來求解。

果然,這樣修改后,LLM就露出馬腳了!

它們并沒有發(fā)現(xiàn),原先自己學(xué)會的解題技巧,并不適用于修改后的數(shù)學(xué)題,而是繼續(xù)盲目套用。

比如這道題中,數(shù)學(xué)題中具體條件改變后,模型仍然采用了原先的解法,最終當(dāng)然就得出了錯(cuò)誤的答案。

(更多具體情況,參見實(shí)驗(yàn)結(jié)果)

此外,研究人員還遵循了兩個(gè)重要原則。

「最小修改」原則要求注釋者盡量減少對原問題的修改,這樣能在保持問題形式相近的情況下,測試模型的泛化能力。

「答案改變」原則保證修改后的問題答案與原答案不同,防止模型直接輸出記憶中的答案,確保結(jié)果真實(shí)可靠。

構(gòu)建完數(shù)據(jù)集后,研究人員對每個(gè)擾動后的問題進(jìn)行了仔細(xì)檢查,確保問題的表述清晰、準(zhǔn)確,并且答案正確。

擾動問題與原始問題之間的歸一化編輯距離和嵌入向量余弦相似度分布情況如下圖所示。

詳細(xì)結(jié)果

研究人員采用零樣本思維鏈作為在基準(zhǔn)測試中的標(biāo)準(zhǔn)評估方法。

為了進(jìn)行對比,還會在原始的279個(gè)問題集上對模型進(jìn)行評估,以下小節(jié)中將其稱為「原始」(Original)。

測試不允許使用任何工具,包括訪問代碼解釋器,因?yàn)榘l(fā)現(xiàn)許多問題可以通過編寫暴力搜索程序輕松解決。

為了檢查生成的答案是否與真實(shí)答案相匹配,采用了等價(jià)性檢查方法:首先進(jìn)行字符串規(guī)范化,然后使用sympy包檢查兩個(gè)數(shù)學(xué)對象的等價(jià)性。

LLM的基準(zhǔn)測試性能

考慮了多種語言模型,包括長思維鏈(long-CoT)模型、閉源的大型模型、開源的小型模型以及專門針對數(shù)學(xué)的模型。其中具體分類如下:

  • 長思維鏈(long-CoT)模型:o1-preview,o1-mini,Gemini 2.0 flash thinking
  • 閉源模型:GPT-4o,GPT-4 Turbo(Achiam等,2023),Gemini 1.5 Pro,Gemini 2.0 flash,Claude 3.5 Sonnet,Claude 3 Opus(Anthropic, 2024)
  • 開源通用模型:Llama 3.1,Gemma 2,Phi-3.5
  • 數(shù)學(xué)專用模型:MetaMath,MAmmoTH2,Deepseek-Math,Qwen2.5-Math,NuminaMath,Mathtral

下表報(bào)告了LLM在原始問題集、MATH-P-Simple和MATH-P-Hard上的整體準(zhǔn)確率,并分別計(jì)算了來自訓(xùn)練集和測試集的準(zhǔn)確率。

如預(yù)期的那樣,評估的所有模型在MATH-P-Hard上的表現(xiàn)顯著低于原始問題集,表明MATH-P-Hard更加困難。

同時(shí),相較于原始問題集,大多數(shù)模型在MATH-P-Simple上的表現(xiàn)也略有下降。

作者注意到,性能下降主要來自訓(xùn)練集。即便測試樣本與訓(xùn)練問題具有相同的推理模式,最先進(jìn)的模型也仍然存在泛化誤差。

對于來自測試集的問題,理想情況下,原始問題和MATH-P-Simple修改版,對模型來說應(yīng)當(dāng)是同樣「從未見過」的。

根據(jù)表1中的實(shí)驗(yàn)證據(jù),觀察到不同的結(jié)果:多個(gè)模型性能下降超過了5%;不過,令人驚訝的是,Phi-3.5-mini-instruct的表現(xiàn)反而有所提升。對于評估的大多數(shù)模型,MATH-P-Simple測試集的準(zhǔn)確率接近原始測試集的準(zhǔn)確率。

值得一提的是,盡管已有研究發(fā)現(xiàn)經(jīng)過修改的基準(zhǔn)與原始基準(zhǔn)之間,模型的性能下降幅度為58%到80%(測試的最佳模型是GPT-4),但在這次評估的模型中并未觀察到如此巨大的差距,這表明新開發(fā)的模型在應(yīng)對簡單擾動時(shí)的魯棒性有所進(jìn)展。

LLM零樣本思維鏈性能準(zhǔn)確率:「Orignal」指的是未修改的279個(gè)問題集。對于train列和test列,分別報(bào)告來自訓(xùn)練集和測試集的問題的準(zhǔn)確率

推理時(shí)間擴(kuò)展。已有研究表明,擴(kuò)展推理時(shí)間計(jì)算可以提高LLM的性能。將推理時(shí)間擴(kuò)展到基準(zhǔn)測試的結(jié)果。

對于每個(gè)問題,獨(dú)立生成N個(gè)解答,并通過以下公式計(jì)算每個(gè)1≤k≤N的pass@k指標(biāo):

其中c是n次運(yùn)行中正確答案的數(shù)量。

此外,還計(jì)算了自一致性,即多數(shù)投票法的表現(xiàn)。對于每個(gè)k,從N次運(yùn)行中隨機(jī)抽取k個(gè)回答,并得到多數(shù)投票的答案。

下圖報(bào)告了5次隨機(jī)抽樣的平均值和標(biāo)準(zhǔn)差。對于Llama-3.1-8B-Instruct和Qwen2.5-Math-7B-Instruct,設(shè)置N = 64,而對于o1-mini,設(shè)置N = 8。

擴(kuò)展推理時(shí)間計(jì)算的效果

LLM做數(shù)學(xué)題,會因?yàn)槭裁炊?/span>

為了研究模型在面對硬擾動時(shí)的泛化能力,作者集中分析了那些在MATH-P-Hard修改版中的失敗案例。

但要注意:總問題中的20%-47%,模型至少能正確解決原始問題或MATH-P-Simple修改版。

對于這些問題,可以使用較容易問題的正確解作為參考,更好地確定模型在困難問題中的失敗模式。

首先,觀察到當(dāng)模型面對更難的問題時(shí),普遍存在一些失敗模式。這些錯(cuò)誤在較弱的模型中表現(xiàn)得尤為突出。

除了常見的失敗模式外,當(dāng)比較MATH-P-Hard修改版的錯(cuò)誤解與較容易版本時(shí),能夠識別出一定數(shù)量的記憶化問題。

具體來說,模型可能忽略修改后的假設(shè),錯(cuò)誤地假設(shè)原始假設(shè)仍然成立。

例如,參見圖5中的示例。原問題為:

問題:十個(gè)人圍坐在一張圓桌旁。隨機(jī)抽取其中三個(gè)人做演講。被選中的三個(gè)人坐在連續(xù)座位上的概率是多少?

修改后,問題變難了:

十個(gè)人圍坐在一個(gè)圓桌旁,隨機(jī)選擇三個(gè)人以特定順序進(jìn)行演講。問這三個(gè)人中,第一個(gè)和第二個(gè)演講者坐在連續(xù)座位上,并且第二個(gè)和第三個(gè)演講者也坐在連續(xù)座位上的概率是多少?

模型并沒有意識到問題已經(jīng)改變,原來的推理方法不再有效。然后按照原來的推理模式進(jìn)行推理,給出了原題的答案——1/12。

而實(shí)際上,正確答案是應(yīng)該是1/36。

作者手動進(jìn)行了20次重復(fù)發(fā)現(xiàn)Claude-3.5-Sonnet的通過率為50%。在錯(cuò)誤中,30%是由于上述記憶問題造成的。

記憶化與錯(cuò)誤推理結(jié)合的示例

在其他情況下,模型可能盲目地應(yīng)用原始問題的解題技巧,而沒有首先判斷這些技巧在修改后的問題環(huán)境中是否仍然適用(圖1中的回答就是由GPT-4o生成的一個(gè)例子)。

有趣的是,模型甚至可能輸出原始問題的預(yù)期結(jié)果(并未在上下文中提供),而不是修改版問題的結(jié)果。

比如上面這道題吧,原題是如果并找出所有滿足條件的整數(shù)n。

而改變后的題將條件替換為并要求找出滿足條件的最小整數(shù)n。

結(jié)果在這種情況下,模型給出的答案卻是所有整數(shù)值(10和13),而非最小整數(shù)值(10)。

誒,這是模型背答案實(shí)錘了?

要知道,這種記憶化行為對于大多數(shù)現(xiàn)有文獻(xiàn)中的擾動類型來說是難以捕捉的,因?yàn)檫@些擾動并不需要不同的解題策略。

模式崩潰

研究人員還關(guān)注了模式崩潰(pattern collapse)帶來的影響。

模式崩潰是指模型無法區(qū)分?jǐn)_動后的問題和原問題,導(dǎo)致回答與原問題答案相同。

在MATH-P-Hard數(shù)據(jù)集中,除了少數(shù)幾個(gè)模型外,模式崩潰的情況在總錯(cuò)誤中的占比不到10%。

這表明,模型在面對硬擾動問題時(shí),雖然可能會出現(xiàn)各種錯(cuò)誤,但多數(shù)情況下還是能夠意識到問題的變化,而不是簡單地重復(fù)原答案。

然而,人工檢查發(fā)現(xiàn),模型的輸出往往不是簡單地重復(fù)原答案,而是在推理過程中出現(xiàn)了一些微妙的錯(cuò)誤,例如忽略或誤解修改后的假設(shè)。

上下文學(xué)習(xí)

上下文學(xué)習(xí)是指模型在推理時(shí)利用原問題和答案作為示例來輔助解題。

在MATH-P-Simple數(shù)據(jù)集上,使用原問題和答案作為上下文學(xué)習(xí)示例,幾乎能提升所有模型的性能。

這是因?yàn)镸ATH-P-Simple問題可以通過直接應(yīng)用原解題步驟來解決,原問題和答案的示例能提供有用的線索。

然而,在MATH-P-Hard數(shù)據(jù)集上,上下文學(xué)習(xí)的效果則較為復(fù)雜。

雖然原答案中的數(shù)學(xué)知識有時(shí)能夠幫助模型解決修改后的問題,但由于原問題和MATH-P-Hard問題之間存在微妙的差異,模型也容易被原答案誤導(dǎo),導(dǎo)致錯(cuò)誤增加。

總體來看,上下文學(xué)習(xí)在MATH-P-Hard上的效果并不理想,提升幅度非常有限。

LLM在面對硬擾動問題時(shí),表現(xiàn)出明顯的局限性,許多錯(cuò)誤源于模型對解題技巧的盲目記憶,而缺乏對問題本質(zhì)的理解。

總之,這項(xiàng)研究顯示,所有模型在復(fù)雜擾動MATH-P-Hard 上的表現(xiàn)均有所下降,而且許多錯(cuò)誤都是源于一種新的記憶形式——

模型從訓(xùn)練集中記住了解題技巧,然后在題目改變條件后,并不判斷是否適用,而盲目應(yīng)用這些技巧。

這說明,雖然大多數(shù)LLM在數(shù)學(xué)推理方面取得了一定的成績,但距離真正理解和掌握數(shù)學(xué)知識還有很大的差距。

不過最近,谷歌DeepMind拿下IMO金牌的AlphaGeometry,首次破解了2009年IMO最難幾何題G7。

在過程中,它給出了石破天驚的驚人解法——

利用關(guān)鍵的輔助作圖(圖中的紅點(diǎn)),就只需求「角度」和「比例推導(dǎo)」。

所以,o1-preview、o1-mini、GPT-4o、Deepseek-Math等模型,在解數(shù)學(xué)題上和AlphaGeometry究竟相差多遠(yuǎn)呢?

這就讓人十分期待,接下來這個(gè)領(lǐng)域的更多研究了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-07-02 09:47:40

人工智能技術(shù)教育

2023-08-14 08:15:44

谷歌模型

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2025-06-18 08:51:00

數(shù)據(jù)生成AI模型

2024-11-12 13:40:00

2022-07-26 09:56:48

模型AI

2023-09-12 14:45:18

2024-02-19 00:15:39

模型數(shù)據(jù)

2025-10-29 09:00:00

2025-02-12 12:04:54

2023-09-18 16:18:36

AICgen數(shù)據(jù)

2024-07-02 13:30:50

2023-05-22 15:17:02

谷歌AI

2025-09-03 14:02:08

AI大模型訓(xùn)練

2011-04-22 10:14:34

無線網(wǎng)絡(luò)DHCPAndroid

2024-07-23 09:26:20

2025-02-13 08:30:00

2024-09-23 09:40:00

AI數(shù)學(xué)模型

2025-11-10 17:11:13

AI李飛飛模型

2017-09-21 11:43:14

JavascriptHtml5Html
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

国产精品国产三级国产普通话三级| 清纯唯美激情亚洲| 99re这里只有精品视频首页| 欧日韩不卡在线视频| 国产熟妇搡bbbb搡bbbb| 亚洲天堂资源| 中文字幕一区二区三中文字幕| 久久久久久久久久久国产| 国产不卡一二三| videos性欧美另类高清| 国产精品高潮呻吟久久| 国产精品久久久久久久久婷婷 | 精品国产第一国产综合精品| 亚洲国产一二三| 欧美人与物videos另类| 国产精品欧美激情在线| 99成人在线| 精品国偷自产在线| www.17c.com喷水少妇| 国产成+人+综合+亚洲欧美| 一区二区三区不卡在线观看| 日韩国产欧美一区| 人妻中文字幕一区| 久热成人在线视频| 2021国产精品视频| 日日骚一区二区三区| 国产亚洲一区| 精品国产乱码久久久久久久久| 草草草视频在线观看| 可以免费看污视频的网站在线| 亚洲午夜一区| 色综合影院在线| 亚洲国产精品成人综合久久久| 国产伦子伦对白在线播放观看| 国产成人av电影在线| 国产精品免费久久久久久| 在线免费观看毛片| 欧美jizzhd精品欧美巨大免费| 91精品国产91热久久久做人人| 午夜啪啪免费视频| 成人高清免费观看mv| 91小视频免费看| 国产精品加勒比| 国产激情无套内精对白视频| 久久成人综合网| 全球成人中文在线| 日本三级一区二区| 亚洲国产日本| 性色av香蕉一区二区| 久草视频在线资源站| 自拍偷拍欧美专区| 久久久精品国产网站| 极品美妇后花庭翘臀娇吟小说| 97视频一区| 欧美一区二区成人6969| 成人不卡免费视频| 91国产一区| 制服丝袜一区二区三区| 亚洲精品第三页| 亚洲男女网站| 欧美一区二区三区思思人| 制服丝袜中文字幕第一页| 日日夜夜精品| 欧美久久高跟鞋激| 日韩精品aaa| 成人97精品毛片免费看| 91精品国产全国免费观看| 91女神在线观看| 91麻豆精品国产综合久久久| 欧美人体做爰大胆视频| 手机在线国产视频| 视频二区欧美毛片免费观看| 日韩一区国产二区欧美三区| 国产av一区二区三区传媒| youjizz欧美| 精品处破学生在线二十三| 国产精品福利导航| 色综合综合色| 日韩一中文字幕| 我家有个日本女人| 99精品99| 国产精品福利片| 国产精品乱码一区二区| 成人综合在线观看| 欧美成人综合一区| 欧美激情办公室videoshd| 亚洲激情网站免费观看| 国产欧美精品aaaaaa片| 亚洲黄色中文字幕| 欧美精品在欧美一区二区少妇| 久久久久久久中文| 99九九久久| 日韩一区二区免费在线电影| 日韩免费高清一区二区| 久久91麻豆精品一区| www.亚洲成人| avtt天堂在线| 久久精品人人| 97超碰人人模人人爽人人看| 天堂中文字幕在线| 国产精品国产精品国产专区不片| 欧美日韩在线高清| a在线免费观看| 色综合夜色一区| 亚洲色图偷拍视频| 九九免费精品视频在线观看| 久久天天躁狠狠躁夜夜躁2014| 一级二级黄色片| 在线看片不卡| 日韩av电影中文字幕| 99国产精品久久久久久久成人| 久久66热re国产| 国产日韩一区二区| 快射av在线播放一区| 精品久久中文字幕| 国产精品嫩草影院8vv8| 女厕嘘嘘一区二区在线播放 | 无码精品人妻一区二区| 国产精品毛片久久久久久| 人人妻人人澡人人爽欧美一区| 五月花成人网| 欧美优质美女网站| av网站有哪些| 一区二区亚洲| 91精品国产综合久久久久久丝袜 | 亚洲精品一区二区三区在线观看| 精产国品一二三区| 激情综合网五月| 久久男人的天堂| 国产乱淫片视频| 欧美国产激情二区三区| 极品美女扒开粉嫩小泬| 国产视频一区二| 在线视频一区二区| 精品乱码一区内射人妻无码| 91视视频在线观看入口直接观看www | 亚洲精选一区二区| 国产精品成人免费一区二区视频| 99在线热播精品免费99热| 亚洲影院在线看| 最新电影电视剧在线观看免费观看| 国产精品国产自产拍高清av | 久久精品一区二区不卡| 日本久久久久久久久| 少妇高潮一区二区三区69| 亚洲美女免费在线| 亚洲精品第三页| 91久久电影| 成人网在线观看| 在线观看二区| 精品视频在线免费观看| 手机看片福利视频| 日韩不卡一区二区三区| 日本在线观看一区二区| 国模一区二区| 国产一区二区三区在线视频| www.亚洲激情| 国产精品乱码妇女bbbb| 九九热免费在线观看| 欧美freesextv| 国产主播喷水一区二区| 国产黄色小视频在线| 777欧美精品| 午夜爱爱毛片xxxx视频免费看| 国产精品社区| 欧美激情导航| jizz久久久久久| 深夜福利国产精品| 国产xxxx视频| 亚洲免费视频一区| 欧美日韩免费做爰大片| 日本高清不卡一区| 黄色av免费播放| 麻豆传媒一区二区三区| 日韩最新中文字幕| 成人在线超碰| 18一19gay欧美视频网站| 头脑特工队2在线播放| 欧美亚洲国产bt| 波多野结衣在线网址| 成人午夜激情在线| 免费看一级大黄情大片| 欧美伦理影院| 97免费资源站| xx欧美视频| www.精品av.com| 女人18毛片一区二区三区| 日韩欧美国产免费播放| 亚洲激情视频小说| 激情亚洲综合在线| 国产婷婷一区二区三区| 精品freesex老太交| 成人两性免费视频| 高清视频在线观看三级| 在线日韩中文字幕| 亚洲国产视频一区二区三区| 色婷婷狠狠综合| 极品魔鬼身材女神啪啪精品| 99精品视频中文字幕| 亚洲 激情 在线| 亚洲啪啪91| 中文网丁香综合网| 欧美美女啪啪| 2022国产精品| 欧美日韩精品免费观看视欧美高清免费大片| 日韩欧美在线不卡| 7799精品视频天天看| 一区二区中文字幕在线| 久久人人妻人人人人妻性色av| 日韩天堂av| 色香蕉在线观看| 竹菊久久久久久久| 999热视频| 精品69视频一区二区三区| 2018日韩中文字幕| 先锋成人av| 日韩在线观看免费全集电视剧网站 | 中文幕一区二区三区久久蜜桃| 激情五月开心婷婷| 欧美日韩岛国| 亚洲欧洲日韩综合二区| 免费成人av| 99精品在线直播| 日韩在线激情| 国产精品自产拍在线观看| 在线天堂资源www在线污| 欧美高清性猛交| 久久综合网导航| 丝袜美腿精品国产二区| 精品av中文字幕在线毛片| 亚洲国产成人精品电影| av免费在线不卡| 在线成人av网站| 中文字幕一区二区免费| 91成人国产精品| 国产99久久久| 欧美日韩亚洲91| 国产精品成人久久| 亚洲福利一区二区三区| 久久久久无码国产精品不卡| 亚洲欧美另类小说| 精品无码一区二区三区蜜臀| 国产欧美久久久精品影院| 亚洲成人网在线播放| 91日韩精品一区| 黄色工厂在线观看| 91在线视频观看| 制服丝袜第二页| 久久亚洲一区二区三区明星换脸 | 日韩欧美第一区| 亚洲另类欧美日韩| 激情av一区二区| 亚洲日本韩国在线| 亚洲超丰满肉感bbw| 日韩网红少妇无码视频香港| 亚洲图片欧美综合| 久久艹免费视频| 欧美性猛交99久久久久99按摩| 尤物在线免费视频| 国产精品成人免费精品自在线观看| 少妇激情一区二区三区视频| av在线不卡免费看| 人妻丰满熟妇av无码久久洗澡| 蜜臀av性久久久久蜜臀aⅴ四虎| 黄色特一级视频| 国产精品久久| 欧美黑人经典片免费观看| 国产精品一国产精品k频道56| 一本一本久久a久久精品综合妖精| jizzjizzjizz欧美| 乱一区二区三区在线播放| 九九久久成人| 99精品视频网站| 欧美一区不卡| 少妇人妻无码专区视频| 久久av最新网址| 男女视频在线看| 国产另类ts人妖一区二区| 黑森林av导航| 久久精品一区二区三区四区| 天美传媒免费在线观看| 一区二区三区色| 国产毛片aaa| 欧美挠脚心视频网站| 亚洲黄色a级片| 国产亚洲欧洲黄色| 一区二区三区伦理| 欧美孕妇毛茸茸xxxx| 久久人体av| 国产欧美日韩伦理| 成人aaaa| 久久综合久久网| 日本欧美久久久久免费播放网| 成人观看免费完整观看| 麻豆成人久久精品二区三区小说| wwwxxx黄色片| 国产精品综合一区二区三区| 少妇特黄一区二区三区| 亚洲色图19p| 日本视频免费观看| 日韩精品资源二区在线| 国产视频网站在线| 高清视频欧美一级| 亚洲我射av| 久久99九九| 午夜精品视频| 一区二区三区免费播放| 9i在线看片成人免费| 日韩激情小视频| 日本韩国一区二区| 日韩一级片免费看| 久久成人av网站| 欧美xnxx| 美国av一区二区三区| 欧美日韩天堂| 伊人影院综合在线| 久久综合色8888| 国产精久久久久久| 91精品国产综合久久久蜜臀图片| 国产成年妇视频| 国产亚洲欧美日韩美女| 涩涩涩在线视频| 成人性色av| 国产精品7m凸凹视频分类| 欧美成人黑人猛交| 91亚洲国产成人精品一区二三| 免费污网站在线观看| 亚洲成人自拍网| 精品人妻一区二区三区蜜桃| 色多多国产成人永久免费网站| 欧美黄色激情| 国产久一一精品| 欧美亚洲高清| 狠狠操精品视频| 久久噜噜亚洲综合| 久久国产精品系列| 亚洲国产成人一区| 香蕉久久aⅴ一区二区三区| 91老司机精品视频| 99视频精品全部免费在线视频| 天天做天天爱天天高潮| 老司机精品久久| 日韩精品电影一区二区| 日韩欧美在线免费观看| 四虎影院在线播放| 欧美亚洲午夜视频在线观看| 午夜a一级毛片亚洲欧洲| 日韩av一二三四区| 99久久婷婷国产| 中文字幕激情小说| 亚洲欧美精品一区| 影视一区二区三区| 亚洲精品9999| 久久成人综合网| 男女性高潮免费网站| 欧美一二三四区在线| 牛牛精品在线| 国产亚洲自拍偷拍| 国产日韩欧美一区在线| 久久丫精品国产亚洲av不卡| 欧美日韩亚洲一区二区三区| 男人的天堂在线| 国产精品国产自产拍高清av水多| 美女久久精品| 久久这里只有精品18| 国产99精品视频| 永久免费看片在线播放| 亚洲欧美激情一区| 成人黄色免费网站| 欧美与动交zoz0z| 丁香啪啪综合成人亚洲小说| 亚洲国产成人精品激情在线| 日韩精品黄色网| 国产福利亚洲| 屁屁影院ccyy国产第一页| 91亚洲男人天堂| 亚洲精品无码久久久久| 久久综合五月天| 精品国产午夜肉伦伦影院| 国产精品亚洲二区在线观看| 国产精品久久毛片av大全日韩| 成人午夜视频精品一区| 一区二区三区天堂av| 国产午夜久久av| 黄色大片在线免费看| 国产日产欧美一区二区三区 | 在线不卡欧美| 新91视频在线观看| 欧美一区二区女人| yellow字幕网在线| 亚洲精品一卡二卡三卡四卡| 国产91高潮流白浆在线麻豆| 无码视频一区二区三区| 大胆欧美人体视频| 亚洲女娇小黑人粗硬| 国产精品中文久久久久久| 色国产精品一区在线观看| 四季久久免费一区二区三区四区| 成人国产精品日本在线| 国产亚洲欧洲|