精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs 原創精華

發布于 2024-7-3 07:41

瀏覽

0收藏

摘要：大型語言模型（LLMs）在數學推理方面展示了令人印象深刻的能力。然而，盡管取得了這些成就，當前的評估主要限于特定的數學主題，尚不清楚LLMs是否真正參與了推理。為了解決這些問題，我們提出了數學主題樹（MaTT）基準，一個具有挑戰性和結構化的基準，涵蓋了廣泛的數學科目，提供了1958個問題，每個問題都配有詳細的分層主題鏈。在使用MaTT基準評估不同的LLMs后，我們發現最先進的模型GPT-4在多項選擇題中僅取得了54%的準確率。有趣的是，即使使用“思維鏈提示”方法，我們也觀察到幾乎沒有顯著的改進。此外，當問題不提供選擇時，LLMs的準確率顯著下降，最高減少了24.2個百分點。對LLMs在各個主題上的表現進行詳細分析后發現，即使在同一一般數學領域內，密切相關的子主題之間也存在顯著差異。為了找出LLMs表現背后的原因，我們對在提供選擇時由GPT-4生成的解釋的完整性和正確性進行了人工評估。令人驚訝的是，我們發現僅在53.3%的情況下，模型提供的正確答案的解釋被認為是完整和準確的，即模型真正進行了推理。

1.引言

大型語言模型（LLMs）在數學推理方面表現出令人矚目的能力，凸顯了它們在復雜問題解決領域的潛力（Chowdhery et al., 2022；Touvron et al., 2023；OpenAI, 2023；Team et al., 2023）。最近的研究表明，LLMs在應用于數學問題時，可以展示出高度的推理能力，往往在某些情況下與人類水平相當甚至超越人類。這種數學推理能力通過一些創新技術如思維鏈（Wei et al., 2022）、思維樹（Yao et al., 2024）和自我驗證（Weng et al., 2022）得到了進一步增強，強調了在解決數學問題過程中程序步驟的重要性。

盡管有這些進步，我們對LLMs數學推理能力的理解仍存在幾個關鍵的空白。首先，尚不清楚LLMs在哪些特定的數學領域表現出色或不足，因為缺乏跨多樣數學領域的全面評估。其次，區分LLMs依賴記憶與真正推理的實例具有挑戰性，令人質疑它們理解的深度。第三，對多項選擇格式對LLMs行為的影響尚未充分了解，這表明模型的表現可能受到所提出問題結構的影響。這些空白強調了需要一個更為健全的基準，能夠全面評估LLMs，幫助我們解析它們的優點、缺點及其解決問題策略的細微差別。

在本文中，我們通過最初利用維基百科的“數學主題列表”2識別數學中的關鍵領域，開發了數學主題樹（MaTT）基準，涵蓋了純數學和應用數學的十二個主要主題。接著從維基百科提取每個主題的重要參考書籍，構建詳細的主題樹。然后，我們使用這些書籍的目錄進一步完善基準，構建反映數學知識層次結構的綜合樹。在完成主題樹后，我們從這些書籍的子章節中提取問題，并將它們收集在葉節點下。最后，我們為每個問題配上多項選擇選項，增強了基準在評估數學理解方面的實用性。圖1展示了MaTT的示意圖。

開發MaTT后，我們評估了各種LLMs的數學推理能力，包括商業模型如GPT-4（OpenAI, 2023）和ChatGPT（Kocón et al., 2023）（turbo版本），以及開源的LLM，Mistral（Jiang et al., 2023）。值得注意的是，在多項選擇格式中，最先進的GPT-4僅取得了54%的準確率。此外，使用思維鏈提示并未顯著提高LLMs的表現，這強調了基準的復雜性，并表明單純的逐步推理可能不足。當問題不提供多項選擇選項時，我們觀察到LLMs的準確率顯著下降，最高下降了24.2個百分點。此外，我們對LLMs在不同主題上的表現進行了全面分析，發現存在顯著差異，突顯了模型在解決同一數學領域內相關子主題時能力的不一致性。

為了理解LLMs表現不足及其在不同主題上結果不一致的根本原因，我們對GPT-4提供的解釋進行了詳細評估。令人驚訝的是，在模型回答正確的情況下，只有53.3%的解釋被認為是完整的，即GPT-4進行了真正的推理。這些情況通常與較簡單或更為人熟知的問題相關，這些問題只需要一些簡單的步驟即可解決。對于需要更多步驟、復雜計算或創造性/智能解決問題的更復雜問題，LLMs往往失敗或依賴于替代策略。這些策略包括選擇工程、不支持的定理使用、循環推理或盲目記憶，而非真正的數學推理。

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs-AI.x社區

圖 1：數學主題樹 (MaTT) 基準的概述，這是一項具有挑戰性且結構化的基準，提出了涵蓋各種數學科目問題的基準，每個科目都與詳細的層次結構主題相關。

2.MaTT：數學主題樹基準

近年來，大型語言模型（LLMs）在數學推理方面展示了顯著的能力。然而，由于當前基準測試通常集中在特定的數學領域，其能力尚未完全理解。這種局限性阻礙了我們對LLMs推理能力深度和廣度的理解。迫切需要更全面的數學基準測試，涵蓋更廣泛的主題，并深入了解模型的推理過程。這類基準不僅可以在更廣泛的數學范圍內挑戰模型，還可以幫助更好地理解這些模型如何以及在何處應用推理。

為了解決這一差距，本文創建了數學主題樹（MaTT）基準。為了創建MaTT，我們首先利用維基百科上的“數學主題列表”作為基礎資源。這一探索對于確定我們要涵蓋的數學知識范圍至關重要。從維基百科提取數學主題列表后，我們確定了十二個主要主題，這些主題全面涵蓋了純數學和應用數學的廣度。然后，我們從相應的維基百科頁面上提取了每個主題的一個或多個關鍵參考書籍。這些主題及其對應的資源如下：純數學包括代數（Meyer, 2023；Herstein, 1991；McGee, 2002）、微積分與分析（Stewart, 2012）、數論（Niven et al., 1991）、組合數學（Bóna, 2002）、幾何與拓撲（Coxeter, 1969；Coxeter and Greitzer, 1967；Engelking, 1989）和邏輯（Mendelson, 2009）。應用數學包括博弈論（Osborne and Rubinstein, 1994）、概率（Tijms, 2012, 2017）、運籌學（Hillier and Lieberman, 2015）、微分方程（Boyce et al., 2021）、統計學（Hogg et al., 2013）以及信息理論與信號處理（Cover, 1999；Proakis, 2007）。

接下來，我們利用這些選定參考書籍的目錄來豐富和構建MaTT主題樹。這種方法使我們能夠按照這些書籍中呈現的主題和子主題的層次結構進行映射，從而創建一個反映數學領域深度和互聯性的綜合圖。創建MaTT的最后一步是從參考書籍的各章節中詳細提取問題，并將它們收集在主題樹的葉節點下。對于每個識別出的問題，我們設計了多項選擇選項，以便于客觀評估框架的建立。為了生成這些選項，我們選擇了與實際答案非常接近的選擇，如具有相似數值的選項、通過省略證明中的某一步得到的選項，或提供替代組合的選項。例如，如果正確答案是“A & B”，我們會將“A or B”作為可能的選擇之一。圖1展示了MaTT的示意圖。

MaTT基準的統計概述詳見表1。該基準包含1958個示例，精心策劃于12個不同的數學主題，涵蓋了純數學和應用數學的廣度。在匯集這些問題時，我們旨在確保所有主題具有廣泛而一致的難度范圍。在提取問題時，我們排除了過于流行或簡單的問題，以減少數據污染的風險。

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs-AI.x社區

3.實驗細節

我們使用MaTT基準評估了商業LLMs——GPT-4（OpenAI, 2023）和ChatGPT（Kocón et al., 2023）（turbo版本），以及開源LLM，Mistral（Jiang et al., 2023）（Mistral-7B-Instruct-v0.2）的性能。在我們的評估中，我們將提示結構化為要求LLMs首先生成解釋，然后再給出最終答案。在多項選擇設置中，我們特別指示模型選擇提供的選項（A、B、C或D）作為最終答案。此外，對于零樣本思維鏈提示，我們在提示中附加了“讓我們一步一步地思考”。實驗中使用的提示示例在附錄中提供。

4.實驗

在本節中，我們首先使用MaTT基準分析LLMs的數學推理能力。隨后，我們考察模型在不同子主題上的表現差異。接著，我們通過不提供多項選擇選項來評估選擇可用性對LLMs的影響。最后，我們重點分析GPT-4的解釋，手動注釋每個解釋中的推理水平，并探索GPT-4用來得出正確答案的策略。

4.1 LLMs在MaTT上的表現

表2展示了LLMs在MaTT基準上各個主題的準確率。所有模型的表現都明顯較低，GPT-4僅達到約54%的準確率，而Mistral的表現接近隨機選擇。詳細檢查發現，Mistral經常拒絕回答，聲稱正確選項不在提供的選項中，而其他模型則嘗試選擇最接近的匹配項，或者在計算的答案不在列表中時，進行某種形式的推理。

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs-AI.x社區

此外，LLMs在不同主題上的準確率差異顯著，差距高達31%，這突顯了LLMs在理解和推理能力方面的顯著差異。最后，我們觀察到零樣本思維鏈提示大多未能提升模型性能，可能是由于問題的復雜性。MaTT中的許多問題需要復雜或大量的步驟，或需要智能/創造性的思維，僅僅按照幾個簡單步驟無法解決。這一觀察結果對思維鏈提示在許多推理任務中的有效性假設提出了質疑。許多現有的推理任務評估基準設計為通過幾個簡單步驟即可解決（Srivastava et al., 2022），而現實世界的推理通常涉及多個步驟并需要創造性的問題解決。

4.2 LLMs表現的按主題細分

如上一節所述，對LLMs在各種主題或同一數學領域內不同子主題上的數學推理能力的探索仍然顯著不足。圖2和圖3分別詳細展示了LLMs在MaTT基準中純數學和應用數學子主題上的準確率。

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs-AI.x社區

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs-AI.x社區

這些圖表明，模型即使在同一主要主題的子主題內也表現出不同程度的準確率，強調了它們在理解和推理能力方面的差異，即使在密切相關的學科中也是如此。值得注意的是，我們發現，在某些子主題上，如積分的應用、參數方程、二次互反、丟番圖方程、對偶理論、非線性規劃、條件概率、連續時間馬爾可夫鏈和基礎統計學，ChatGPT和Mistral的表現優于GPT-4。這一觀察結果進一步強調了不僅要超越高層次主題的整體表現，還要在更細粒度的水平上考察模型的表現，以全面理解它們的數學推理能力。

4.3 LLMs在無選項情況下的表現

為了更深入地探討LLMs的數學推理能力，我們評估了它們在沒有多項選擇選項幫助下的MaTT基準表現。我們手動評估了在沒有選項情況下，模型在MaTT上的準確率，并將結果列于表3中。結果顯示，性能大幅下降，其中GPT-4、ChatGPT和Mistral分別損失了29.4%、56.4%和69.7%的準確率。這一顯著下降突顯了模型在推導答案時對選項的依賴性，顯示了它們在真正數學推理方面的局限性。這也強調了不能僅依賴單一的總體評分來評估LLMs推理能力的重要性。我們在第4.5節中提供了對選擇可用性對LLMs預測影響的更詳細分析。

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs-AI.x社區

4.4 解釋的推理水平

為了理解LLMs在無選項情況下表現不佳及其在不同主題上準確率變化的原因，我們對LLMs為其預測生成的解釋的完整性和準確性進行了手動檢查。鑒于GPT-4相對于其他評估的LLMs表現較好，本節的分析特別集中在GPT-4生成的解釋上。我們的目標是確定在正確預測的實例中（有選項時），解釋屬于以下類別的百分比：（1）完整推理，解釋詳盡且邏輯合理；（2）選項/弱推理，模型利用給定選項或提供部分推理的策略；（3）無/錯誤推理，解釋錯誤或缺失，模型在沒有理由的情況下得出結論。此外，我們計算了在所有GPT-4正確回答（有選項）的情況下，GPT-4在無選項時仍提供正確答案并給出完整解釋的實例百分比。

我們對GPT-4在有選項時預測正確的樣本的解釋進行了手動評估，結果詳見表4。值得注意的是，我們發現僅53.3%的正確回答問題的解釋是完整的，即GPT-4進行了實際推理，這突顯了GPT-4在實際推理能力上的顯著不一致性。此外，我們觀察到不同主題上的解釋完整性水平不一，并不一定與GPT-4在這些主題上的總體表現相關。當比較有無選項情況下完整解釋的樣本時，我們注意到一個顯著差距，這表明選項的存在有助于模型更好地導航或回憶推理過程。此外，我們注意到GPT-4主要在解決較簡單或更為人熟知的問題時真正進行了推理，這些問題通過幾個簡單步驟即可解決，而在需要更多復雜步驟或創造性問題解決的情況下，GPT-4經常失敗或依賴于不同的策略（我們在第4.5節中更詳細地探討這些策略）。這與思維鏈提示在提升LLMs性能上的有限有效性觀察結果一致。我們在附錄中提供了更多關于解釋的分析。

LLMs并非智能思考者：引入數學主題樹基準來全面評估LLMs-AI.x社區

4.5 從解釋中觀察到的現象

除了注釋解釋的推理水平（如表4所示），我們還指出了GPT-4在不涉及推理時得出正確答案所采用的策略。我們總結了以下策略：

選項工程 指的是模型（如GPT-4）操縱或利用可用的多項選擇選項來確定答案，而不是依賴于深刻理解或真正的推理過程。這可以分為以下幾種情況：

- 使用選項：在這種情況下，GPT-4直接使用選項并選擇最符合問題的一個。例如，在線性規劃問題中，盡管沒有選項時GPT-4無法回答任何優化問題，但在有選項時，通過這種策略，GPT-4通過簡單選擇選項中的最小或最大值，取得了很高的表現。

- 推導出一個合理的答案：在這種策略中，GPT-4通過排除不合理的選項來選擇答案，而不是實際推理。例如，生成具有參數α和β的貝塔分布的X時，GPT-4通過排除不合理選項并提供類似的論據，正確得出了答案，但沒有進行任何實際推理。

- 選項專家：GPT-4似乎了解選項通常是如何設置的。例如，在計算事件X和Y的概率時，GPT-4僅能得出事件X的概率為1/3，然后在沒有任何推理的情況下，聲稱事件Y的概率不能為1/3，然后選擇選項A，盡管還有“以上都不是”這個選項。

- 中間地帶規則：我們觀察到GPT-4傾向于在無法找到正確答案時選擇中間值。例如，在計算游戲預期持續時間的問題中，GPT-4選擇了中間值作為最合理的選項。

定理使用 指的是模型（如GPT-4）利用一個定理或性質，這實際上是問題的主要挑戰部分。通過直接應用它，繞過復雜的推導而達到解決方案。例如，在求范德蒙矩陣行列式的問題中，GPT-4直接給出了定理的結果，而沒有解釋或證明。

循環推理 是一種邏輯謬誤，其中論證的結論作為前提來支持自身。這種策略與幻覺密切相關，且非常難以檢測。在這些情況下，推理從同一點開始和結束，論證本質上是說“A是正確的，因為B是正確的，而B是正確的因為A是正確的”。

盲記憶 我們指的是LLMs有時傾向于盲目記住問題的答案，而不學習其必要步驟或背后的推理。例如，在計算單位正方形、單位圓和邊長為單位的等邊三角形內隨機選擇的兩點之間的期望距離時，GPT-4直接給出了已知的答案，而沒有進行任何詳細的計算。這些例子說明了盲記憶如何使LLMs在推理和回答相似問題時無能為力。

5.相關工作

隨著LLMs的不斷增強，它們在現有基準測試中的數學推理能力也顯著提升。然而，目前的評估范圍在涵蓋的數學領域廣度上仍有限，無法最終確定這些模型是否真正參與了推理，還是依賴于替代策略來找到答案。

數學基準測試

先前的研究主要集中在為數學文字題（以書面描述形式呈現的數學問題）開發基準測試——這些問題通常只需要幾個步驟來解決，通常涉及基本算術或初等代數（Ling et al., 2017；Cobbe et al., 2021；Patel et al., 2021）。此外，Mishra等人（2022）的工作引入了一個全面的數學推理基準，涵蓋了四個維度的23項不同任務：數學能力、語言格式、語言多樣性和外部知識。此外，Zhang等人（2023）提出了一個多模態基準，重點關注幾何學。與我們的研究最相關的是MATH（Hendrycks et al., 2021）和Theoremqa（Chen et al., 2023）基準。盡管提供了各種主題的數學問題，但它們的范圍比我們的基準要窄得多，并且沒有為每個問題提供詳細的主題細分。此外，最近的一項工作（Toshniwal et al., 2024）已經開始為LLMs的指令調優生成大規模的合成數學基準。

LLMs與數學

近年來，LLMs在數學推理方面取得了顯著成就（Srivastava et al., 2022；Liu et al., 2023）。這些成就得益于旨在提升LLMs性能的方法，主要通過分解推理。這些策略受到人類問題解決過程的啟發，包括提供逐步指導（Wei et al., 2022；Yao et al., 2024；Besta et al., 2023）、采用驗證機制以提高模型的一致性和準確性（Weng et al., 2022），以及結合復雜的推理策略（Qi et al., 2023）。

6.結論

本文對LLMs的數學推理進行了全面評估。我們創建了數學主題樹（MaTT）基準，一個具有挑戰性且系統組織的基準，提出了一系列涵蓋廣泛數學科目的問題，每個問題都與詳細的分層結構主題相關。通過探索LLMs在MaTT上的準確性，我們觀察到它們在廣泛的數學主題上表現掙扎，特別是在沒有多項選擇選項的情況下。我們還觀察到LLMs在不同主題上的表現差異，以及思維鏈提示并未顯著改進性能。為了調查模型性能的差距，我們手動分析了它們回答問題時的解釋。我們發現，GPT-4在提供正確答案的實例中，只有53.3%的解釋被認為是完整的。此外，我們觀察到模型在解決簡單問題時表現較好，而在處理更復雜問題時則采用替代策略。這表明LLMs在進行深度、創造性和復雜數學思維方面存在根本性的差距。我們將公開與MaTT基準相關的所有代碼、注釋和數據。

7.局限性

本研究提出了幾個在解釋研究結果時應考慮的局限性。

首先，我們使用MaTT基準僅對三種廣泛采用的LLMs進行了數學推理能力評估。這一有限的模型選擇可能無法完全代表LLMs的多樣化能力。在未來的評估中納入更多種類的模型，可以更全面地理解LLMs在不同架構和訓練模式下的數學推理能力。

其次，我們評估模型推理能力的方法主要依賴于分析其自生成的解釋。雖然這種方法使我們能夠評估模型如何推理其答案，但它本身存在潛在的偏見和不準確性。LLMs提供的解釋可能并不總是準確反映其潛在的推理過程，有時甚至可能具有誤導性或不完整性。采用更客觀或多樣化的評估方法可能是必要的，以更清晰和準確地了解LLMs如何處理和解決數學問題。

Gholami Davoodi A, Pouyan Mousavi Davoudi S, Pezeshkpour P. LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs[J]. arXiv e-prints, 2024: arXiv: 2406.05194.

Carnegie Mellon University, Megagon Labs

本文轉載自公眾號AIRoobt ，作者：AIRoobt

原文鏈接：??https://mp.weixin.qq.com/s/MCXBX9qH2s5dkaDeLYlL1w??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

語言模型安全評估新標桿：SALAD-Bench全面安全評估新基準

kcoufee ? 7133瀏覽 ? 0回復
初創公司如何從零開始訓練出優秀的LLMs

lintoms ? 4136瀏覽 ? 0回復
計算器對于數學的處理方式來說是一次重大的改變，那么 LLMs 對于語言來說呢？

Baihai_IDP ? 3572瀏覽 ? 0回復
用 LLMs 做數據標注：優勢、局限與實操指南

Baihai_IDP ? 7203瀏覽 ? 0回復
精打細算用好 LLMs ：LLM 落地應用成本及響應延遲優化

Baihai_IDP ? 4525瀏覽 ? 0回復
NATURAL PLAN：LLMs在自然語言規劃上的基準

sbf_2000 ? 4660瀏覽 ? 0回復
PersonaGym：評估角色agent與LLMs

sbf_2000 ? 4965瀏覽 ? 0回復
LLMs、MLLMs等領域的模型合并：方法、理論、應用與機遇

sbf_2000 ? 7202瀏覽 ? 0回復
LLMs的基本組成：向量、Tokens和嵌入

lintoms ? 3731瀏覽 ? 0回復
#AIGC創新先鋒者征文大賽# 部署 LLMs 前如何計算與優化 GPU 內存需求？

Baihai_IDP ? 3731瀏覽 ? 0回復
#AIGC創新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？

Baihai_IDP ? 3733瀏覽 ? 0回復
LLMs 如何處理相互矛盾的指令？指令遵循優先級實驗

Baihai_IDP ? 3769瀏覽 ? 0回復
一文讀懂LLMs的幻覺問題和對策

數智飛輪 ? 4789瀏覽 ? 0回復
Hugging Face 發布免費開放課程，微調本地LLMs模型

Halo咯咯 ? 4180瀏覽 ? 0回復
ReFT：通過強化微調增強LLMs

Halo咯咯 ? 4540瀏覽 ? 0回復
LLMs的知識蒸餾：技術和應用

柏企閱文 ? 4724瀏覽 ? 0回復
LLM Agent 協作評估難？這 3 款評估監控工具來幫忙

Baihai_IDP ? 4326瀏覽 ? 0回復
LLMs.txt：讓大模型更懂你的 Web 文檔

Baihai_IDP ? 6374瀏覽 ? 0回復
我對 AI 寫作的一些思考：Writing in the Age of LLMs

Baihai_IDP ? 2227瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

基于協作式語義專家的語言模型微調（AAAI 2025） 3天前發布
大型語言模型基準測試綜述（2025） 3天前發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發現堪稱性價比之王！ 0回復

上一篇：多模態思維鏈推理在語言模型中的應用

下一篇： KAM-CoT：知識增強多模態鏈式思維推理

社區精華內容

目錄

日韩久久久久久久久久| 精品一区二区日韩| 成人免费视频视频| 国产午夜精品全部视频播放| 国产精品久久久久久久久久久久久久 | 91精品人妻一区二区三区蜜桃2| 性感美女一级片| 亚洲精品极品少妇16p| 日韩欧美精品免费在线| 91av免费看| 成人免费视频入口| 在线观看欧美日韩电影| 美女国产一区二区三区| 亚洲国产精品国自产拍av| 国内精品免费午夜毛片| 中文字幕欧美日韩| 成人国产免费电影| 欧美女优在线视频| 高潮白浆女日韩av免费看| 波多野结衣一区二区三区在线观看| 欧美精品日韩在线| 日韩成人亚洲| 日本一区二区视频在线观看| 日本精品一区二区三区在线| 亚洲天堂网一区二区| 丁香花在线观看完整版电影| 国产寡妇亲子伦一区二区| 日韩在线国产精品| 亚洲娇小娇小娇小| 麻豆视频网站在线观看| 激情深爱一区二区| 欧美xxxx做受欧美.88| 黄色aaaaaa| 韩国免费在线视频| 日韩激情视频在线观看| 亚洲性xxxx| 91九色蝌蚪porny| 日韩欧美精品一区二区三区| www国产成人| 国产脚交av在线一区二区| 国产精品20p| 午夜av成人| 一区在线观看免费| 51精品国产人成在线观看| 少妇久久久久久久| 欧美肥老太太性生活| 欧美一区二区三区色| 中文字幕精品在线播放| 亚洲毛片在线播放| 美女视频一区免费观看| 最新91在线视频| 天堂久久精品忘忧草| 日韩美女毛片| 欧美日韩一区二区三区不卡| 超碰在线免费观看97| 国产77777| 国产精品综合在线视频| 97在线看免费观看视频在线观看| 中文字幕第4页| 亚洲盗摄视频| 欧美一区二区三区免费大片 | 亚洲成人人体| 欧美激情一二三区| 日韩精品国内| 国产黄色片av| 亚洲综合好骚| 久久久999精品视频| 午夜视频在线观看国产| 欧美一区二区三区黄片| 蜜桃av一区二区在线观看| 久久久久久中文| 天天操天天舔天天射| 精品国产中文字幕第一页| 欧美一区二区三区公司| 欧美精品色视频| 婷婷午夜社区一区| 欧美性生活影院| 18禁网站免费无遮挡无码中文 | 国产精品一区二区三区四区 | 日韩有码一区| 亚洲天堂色网站| 国产wwwwxxxx| 日韩有码av| 亚洲小视频在线| 日韩欧美123区| 欧美欧美黄在线二区| 中文字幕日韩欧美| 懂色av粉嫩av蜜乳av| 最新精品国偷自产在线| 中文字幕综合在线| 久久中文字幕无码| 91免费精品| 九九热精品视频国产| 国产调教在线观看| 欧美一区二区三区久久精品| 在线看日韩欧美| 97人妻精品一区二区三区免费| 露出调教综合另类| 欧美xxxxxxxx| 男人午夜视频在线观看| 亚洲综合网狠久久| 在线播放一区二区三区| 天天天干夜夜夜操| 成人影院av| 7777精品伊人久久久大香线蕉经典版下载 | 神马午夜精品91| 国产精品久久久免费| 欧美大成色www永久网站婷| www.av麻豆| 国产欧美日韩综合一区在线播放 | 精品久久影视| 久久久久久久久亚洲| 中文字幕乱码人妻无码久久| 翔田千里一区二区| 91精品啪aⅴ在线观看国产| 亚洲图片在线播放| 久久精品二区亚洲w码| 国产精品xxxx| 日本激情视频网站| 国产精品不卡一区二区三区| 亚洲精品一卡二卡三卡四卡| gogogo高清在线观看免费完整版| 中文字幕av免费专区久久| 日韩精品一区在线视频| 黄色视屏在线免费观看| 欧美日韩精品国产| 亚洲911精品成人18网站| 国产一区网站| 日韩在线观看视频免费| 无码人妻丰满熟妇精品| av在线这里只有精品| 精品无人乱码一区二区三区的优势| 黄色小视频免费在线观看| 国产精品理论片在线观看| 亚洲国产精品女人| 国精产品一区一区三区四川| 精品一区二区三区四区在线| 亚洲AV无码成人精品区明星换面 | 国产污视频在线看| 国产精品一区亚洲| 国产免费高清一区| 日本天堂在线| 国产精品二区一区二区aⅴ污介绍| 北条麻妃在线视频观看| 精品无人乱码一区二区三区 | 免费黄网站在线| 在线欧美日韩精品| 婷婷激情5月天| 日韩精品久久久久久久软件91| 欧美电影精品一区二区| 成人免费看aa片| 成人情趣视频网站| 欧美成人国产va精品日本一级| 中文字幕人成人乱码亚洲电影| 国产欧美日产一区| av在线无限看| 日韩在线中文| 欧美激情亚洲国产| 精品人妻av一区二区三区| 91毛片在线观看| 各处沟厕大尺度偷拍女厕嘘嘘| 日韩在线你懂得| 亚洲精品99久久久久中文字幕| 99re6热在线精品视频| 麻豆国产精品视频| 三年中国中文在线观看免费播放 | 亚洲精品视频啊美女在线直播| 日本欧美爱爱爱| www.中文字幕久久久| 欧美日本一区二区在线观看| 国产精品无码在线| 亚洲a在线视频| 99热99热| 这里有精品可以观看| 欧美一级国产精品| 我不卡一区二区| 免费人成精品欧美精品| 正在播放亚洲| 成人开心激情| 日韩午夜在线视频| 草莓视频18免费观看| 中文字幕第一页久久| 91在线第一页| 在线午夜精品| 国产精品日韩| 345成人影院| 久久在线精品视频| 一本色道久久综合亚洲| 亚洲精品国产a久久久久久 | 欧美xxxx做受欧美护士| 精品国产美女在线| 人人妻人人玩人人澡人人爽| 91国模大尺度私拍在线视频| 精品国产av色一区二区深夜久久| 久久人人超碰| 欧美大陆一区二区| 免费黄色片在线观看| 亚洲二区在线观看| 在线观看你懂的视频| 性一交一乱一区二区洋洋av| 亚洲欧洲国产精品久久| 精品少妇一区| 成人激情电影一区二区| www.在线播放| 日韩av资源在线播放| 日韩欧美视频在线免费观看| 国产精品视频一二三| 荫蒂被男人添免费视频| 精品午夜久久福利影院| www.亚洲天堂网| 亚洲精品动态| 99久热re在线精品视频| 国产亚洲欧美日韩精品一区二区三区 | 色网在线免费观看| 久操成人在线视频| 一区二区高清不卡| 欧美三级乱人伦电影| 日韩精品一区二区不卡| 99久久国产免费看| 成熟了的熟妇毛茸茸| 一区二区三区中文| av一本久道久久波多野结衣| 成人做爰视频www| 5566日本婷婷色中文字幕97| 国产一级在线| 亚洲成人免费网站| 三级网站在线播放| 亚洲电影在线免费观看| 日韩精品一区二区亚洲av性色| 国产人成一区二区三区影院| 亚洲av无码国产精品久久| 成人精品视频一区二区三区尤物| 欧美激情国产精品| 欧美日韩国产一区二区在线视频| 午夜欧美性电影| 榴莲视频成人app| 性色av香蕉一区二区| 最新国产在线拍揄自揄视频| 亚洲国产精彩中文乱码av在线播放| 99久久亚洲精品日本无码 | 亚洲人在线视频| 综合久久中文字幕| 日本福利一区二区| 免费黄色小视频在线观看| 日韩一区欧美小说| 亚洲综合图片一区| 国产精品久久久久久久久动漫| 国产三级黄色片| 国产精品久久久99| 男人av资源站| 91丨九色丨蝌蚪富婆spa| 少妇一级淫片免费放播放| 91在线观看一区二区| 右手影院亚洲欧美| 国产亚洲精久久久久久| 午夜免费视频网站| 国产999精品久久| 99视频在线视频| 久久精品国产99国产精品| wwwwwxxxx日本| 亚洲一区免费| 中文字幕乱码人妻综合二区三区 | 欧美一级高清免费播放| 亚洲十八**毛片| 国产精国产精品| 91九色成人| 国产aaa精品| 成人精品动漫| 欧洲一区二区视频| 日本大片在线播放| 日韩有码在线播放| 亚洲小说区图片| 中文字幕日本精品| 97影院秋霞午夜在线观看| 欧美国产极速在线| 麻豆影视在线观看_| 欧美美女操人视频| 午夜影院在线播放| 国产精品入口尤物| 日本欧美不卡| 97人人模人人爽人人少妇| 丝袜美腿综合| 中文字幕制服丝袜在线| 亚洲天堂黄色| 国产精品88久久久久久妇女| 日本a口亚洲| 18禁裸男晨勃露j毛免费观看| 99re66热这里只有精品8| 美女黄色免费看| 欧美影院一区| 亚洲午夜无码av毛片久久| 美女视频黄免费的久久| 国产综合内射日韩久| 国产精品538一区二区在线| 女～淫辱の触手3d动漫| 亚洲人成7777| 18岁成人毛片| 亚洲综合视频网| 国产一级av毛片| 在线亚洲一区二区| 国产91麻豆视频| 久久精品91久久久久久再现| 午夜影院在线播放| 产国精品偷在线| 青青草国产免费一区二区下载 | sm捆绑调教视频| 欧美性猛交xxxx富婆| 国内精品久久久久久久久久久| 亚洲欧洲高清在线| f2c人成在线观看免费视频| 色综合久久88| 99久久综合国产精品二区| 国产欧美日本在线| 欧美日韩精品| 中文字幕无码精品亚洲资源网久久| 爽爽淫人综合网网站| 欧美久久久久久久久久久| 国产精品传媒在线| 亚洲天堂视频在线播放| 亚洲精品视频免费在线观看| 2020av在线| 91九色露脸| 亚洲欧美综合久久久| 成人免费在线观看视频网站| 久久天天综合| 西西444www无码大胆| 天天av天天翘天天综合网色鬼国产| 久久免费激情视频| 欧洲国产伦久久久久久久| 五月婷婷激情在线| 隔壁老王国产在线精品| 日韩免费高清视频网站| 自拍偷拍一区二区三区| 奇米影视在线99精品| 手机在线观看日韩av| 国产精品久久久久久久久图文区| 无码日韩精品一区二区| 亚洲欧美激情视频| 久久综合网导航| 久久免费国产视频| 91免费精品国偷自产在线在线| 麻豆成人在线播放| 国产精品日韩| 老司机福利av| 91国偷自产一区二区使用方法| 你懂得网站在线| 国产xxx69麻豆国语对白| 国产精品欧美三级在线观看| 四虎永久在线精品无码视频| 狠狠网亚洲精品| 蜜桃视频最新网址| 91精品国产综合久久精品性色 | 天美av一区二区三区久久| 少妇人妻大乳在线视频| 91在线视频网址| 黄色片视频免费| www.日韩不卡电影av| 动漫一区二区三区| 精品乱色一区二区中文字幕| 99热这里只有精品8| 疯狂揉花蒂控制高潮h| 色屁屁一区二区| 素人av在线| 99视频在线| 翔田千里一区二区| 婷婷丁香综合网| 日韩情涩欧美日韩视频| 国产区美女在线| 欧美精品欧美精品| 捆绑紧缚一区二区三区视频| 午夜国产福利一区二区| 亚洲高清福利视频| 亚洲精品粉嫩美女一区| av动漫免费观看| 成人黄色小视频在线观看| 无码人妻熟妇av又粗又大| 久久久精品一区| 欧美日韩一区二区三区不卡视频| 干日本少妇视频| 成人免费毛片aaaaa**| 精人妻无码一区二区三区| 久久手机精品视频| 麻豆一区二区麻豆免费观看| 日本www.色| 亚洲影院在线观看| 精品乱码一区内射人妻无码| 久久精品国产91精品亚洲| 国产精品xxxav免费视频| 日韩中文在线字幕| 99免费精品视频| 国产精品久久无码一三区| 中文字幕免费国产精品| 日韩欧美中文字幕在线视频 | 亚洲成人生活片| 亚洲精品小视频| 亚洲午夜免费| 国产又大又黄又粗的视频| 亚洲国产精品久久人人爱| a黄色在线观看| 久久精品五月婷婷|