精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型的條件推理和模態推理

發布于 2024-7-12 10:12
瀏覽
0收藏

大型語言模型(LLMs)如GPT-4、Claude和Llama等已經展示了令人矚目的能力,這些模型不僅能夠生成流暢的文本,還能在各種任務中表現出色,如翻譯、摘要、問答等。盡管這些模型在許多方面表現出色,它們在邏輯推理,特別是條件推理和模態推理方面的能力仍然存在爭議。

條件推理和模態推理是邏輯學和認知科學中的核心研究領域。條件推理,即“如果…那么…”的推理形式,是人類思維中最基本的邏輯結構之一。例如,“如果下雨,那么地面會濕”就是一個典型的條件推理。模態推理則涉及“可能”、“必須”等模態詞的使用,這些詞語表達了不同的可能性和必然性。例如,“他可能在家”或“她必須完成作業”就是模態推理的例子。

在邏輯學中,條件推理和模態推理被廣泛研究,因為它們涉及到邏輯連接詞和模態運算符的精確定義和使用。經典邏輯中的材料條件分析(material conditional analysis)和模態邏輯中的可能世界語義(possible worlds semantics)是研究這些推理形式的主要方法。材料條件分析認為,“如果p,那么q”在p為假或q為真時為真,而可能世界語義則通過量化可能世界來解釋模態詞的含義。

在認知科學中,條件推理和模態推理被認為是人類認知能力的重要組成部分。研究表明,人類在日常生活中頻繁使用這些推理形式來進行計劃、決策和問題解決。例如,當我們考慮“如果我明天早起,我就能趕上早班車”時,我們實際上是在進行條件推理。同樣,當我們說“他可能已經離開了”時,我們是在進行模態推理。

7 月 4 日自加利福尼亞大學伯克利分校、紐約大學和麻省理工學院的研究團隊發表修訂版論文《Conditional and Modal Reasoning in Large Language Models》,論文的主要研究問題是當前最先進的LLMs在處理條件推理和模態推理任務時,能否做出與人類一致的判斷?具體來說,他們希望回答以下幾個問題:

  • LLMs在處理涉及條件句和模態詞的推理任務時,表現如何?
  • LLMs在這些任務中是否存在邏輯不一致或錯誤判斷?
  • 不同的提示方法(如零樣本提示、少樣本提示和鏈式思維提示)對LLMs的推理能力有何影響?
  • LLMs在邏輯推理任務中的表現與其他基準測試(如Chatbot Arena、MMLU和GSM8K)有何關系?

通過回答這些問題,研究團隊希望揭示LLMs在條件推理和模態推理方面的能力和局限,為未來的模型改進和應用提供參考。團隊三位學者的合作結合了邏輯學、哲學和計算機科學的跨學科視角,為論文的研究提供了堅實的理論基礎和技術支持。

大模型的條件推理和模態推理-AI.x社區

圖1:對實驗結果(第4節)中討論的簡單邏輯推理模式的性能總結 。猜測準確率為 50%。較大的模型通常表現更好,大多數模型在此任務中表現出明顯的弱點。

研究背景和相關工作

邏輯推理是人類認知的重要組成部分,它涉及從一個或多個前提推導出結論的過程。在哲學中,邏輯推理被視為一種嚴格的思維方式,其有效性僅依賴于邏輯詞的含義,如“和”、“或”、“不”、“如果”、“必須”、“可能”等。邏輯推理的有效性意味著,如果前提為真,結論必然為真,無論前提和結論中的非邏輯詞如何理解(Tarski, 1936)。

這種嚴格的邏輯推理與日常生活中的推理有所不同。在日常生活中,人們常常進行各種推理,這些推理不僅依賴于邏輯詞的含義,還涉及對世界知識和背景信息的理解。例如,“A在B的左邊,因此B在A的右邊”在邏輯上并不總是有效,因為其正確性依賴于“左”和“右”的具體含義。然而,“A在B的左邊,因此有東西在B的左邊”則是邏輯有效的,因為其正確性僅依賴于邏輯詞“有東西”的含義。

在大模型(LLMs)的研究中,邏輯推理被廣泛應用于評估模型的推理能力。LLMs如GPT-4、Claude和Llama等,已經展示了在生成流暢文本和處理復雜任務方面的強大能力。然而,評估這些模型在邏輯推理任務中的表現,對于理解它們的推理能力和改進模型具有重要意義。

邏輯推理任務通常包括多步推理和單步推理。多步推理需要從前提到假設的證明過程,而單步推理則關注基本的推理模式,如“如果p,那么q;非q;因此,非p”(Modus Tollens)。研究表明,LLMs在多步推理任務中表現出一定的能力,但在識別基本推理模式方面仍存在顯著差距(Tafjord et al., 2020; Tian et al., 2021)。

模態運算符如“必須”和“可能”在邏輯學中被成功地建模為對可能世界的量化。例如,“必須下雨”表示在所有可能的世界中都在下雨,而“可能下雨”表示在某些可能的世界中在下雨。這種解釋方法產生了相應的模態邏輯,其細節取決于如何獲得可能世界的域(Kripke, 1963; Kratzer, 1981)。

模態邏輯的研究進展使得我們能夠更好地理解和分析模態運算符的邏輯性質。例如,模態邏輯可以幫助我們分析“可能”和“必須”之間的關系,以及它們在不同上下文中的使用方式。這對于理解自然語言中的模態表達具有重要意義。

條件運算符“如果…那么…”也通過可能世界語義進行分析。在經典邏輯中,“如果p,那么q”被視為材料條件,其在p為假或q為真時為真。然而,這種處理方式被廣泛認為不適用于自然語言中的“如果”。例如,根據材料條件分析,“如果學生努力學習,那么她不會失敗”將意味著“每個學生都會努力學習”,顯然這并不符合我們的直覺(Stalnaker, 1968)。

相反,條件運算符通常被視為一種受限的模態運算符,表示在所有p世界中,q為真。這種解釋方法產生了相應的條件邏輯,其細節取決于哪些p世界在域中,以及其他連接詞和運算符的解釋方式(Stalnaker, 1968; Lewis, 1973b)。

材料條件分析和模態分析在處理條件句時存在顯著差異。材料條件分析認為,“如果p,那么q”在p為假或q為真時為真,而模態分析則認為,“如果p,那么q”表示在所有p世界中,q為真。盡管材料條件分析在形式邏輯中具有簡潔性和一致性,但它在處理自然語言中的條件句時往往不符合我們的直覺。

例如,根據材料條件分析,“如果下雨,那么地面濕”在下雨為假時為真,即使地面實際上是干的。然而,模態分析則認為,這種條件句在所有下雨的世界中,地面都是濕的,更符合我們的直覺和實際經驗。因此,模態分析在處理自然語言中的條件句時,通常被認為更為準確和有效。

自然語言推理(NLI)是一種評估模型理解和推理能力的任務格式。在NLI任務中,模型需要判斷一個前提和一個假設之間的關系,具體來說,前提是否蘊涵、矛盾或與假設無關。NLI任務通常基于常識推理,而不是嚴格的邏輯推理(Bowman et al., 2015; Williams et al., 2018)。

NLI任務的評估方法通常包括準確率、召回率和F1分數等指標。這些指標用于衡量模型在不同推理任務中的表現,幫助研究人員評估和改進模型的推理能力。

本研究與傳統的NLI任務有所不同。首先,本研究專注于單步邏輯推理,而不是一般的常識推理。我們關注的是模型在處理基本邏輯推理模式時的表現,如Modus Tollens、Modus Ponens等,而不是復雜的多步推理或常識推理任務。

其次,本研究引入了哲學、語言學和邏輯學中關于條件句和模態的復雜方法。這些方法幫助我們更準確地評估模型在處理條件句和模態詞時的邏輯推理能力,而不僅僅是基于常識和背景知識的推理。

實驗設計

模型選擇

在本研究中,我們測試了25個大型語言模型(LLMs),這些模型包括開源和閉源的不同版本。具體來說,這些模型涵蓋了Anthropic、Google和OpenAI等公司的產品,以及一些本地運行的模型。測試的模型包括但不限于以下幾種:

GPT-4系列:包括GPT-4 Turbo(2024-04-09)、GPT-4 Turbo(1106)、GPT-4(0613)、GPT-4(0314)和GPT-4o(2024-05-13)。

Claude系列:包括Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。

Llama系列:包括Llama 3 Instruct 70B、Llama 3 Instruct 8B、Llama 2 Chat 13B、Llama 2 Chat 70B和Llama 2 Chat 7B。

其他模型:如Gemini 1.5 Pro、Gemini 1.5 Flash、Mixtral 8x7B、Phi-2、Mistral 7B、Code Llama 13B、Code Llama 7B、Code Llama 34B、GPT-3.5 Turbo(0613)、GPT-3.5 Turbo(0125)、GPT-3.5 Turbo(1106)和Yi Chat 34B。

這些模型的選擇旨在涵蓋不同的架構和訓練方法,以便全面評估LLMs在條件和模態推理任務中的表現。

大模型的條件推理和模態推理-AI.x社區

表1:檢驗的推論;p、 q表示模態/條件自由命題,?表示“not”,∧表示“or”,→表示“if…”。然后“可能”,?表示“必須”。φ1, . . . , φn?ψ是從前提φ1,φn到結論ψ。圖1總結了所有且僅在沒有模態的無爭議推理上的成功。

對于Anthropic、Google和OpenAI的模型,我們通過各自的API進行測試。這些API提供了訪問模型的接口,使我們能夠在云端運行推理任務。對于本地模型,我們使用了LM Studio在Apple M2 Ultra Mac Studio上創建本地推理服務器。所有本地模型都是在Hugging Face上提供的Q6_K GGUF格式的6位量化版本。這種設置確保了我們能夠在本地環境中高效地運行推理任務,同時保持模型的性能和準確性。

數據集構建

為了評估LLMs的推理能力,我們創建了一個包含多個推理模式的問題庫。這些推理模式包括經典的邏輯推理模式,如Modus Tollens(MT)、Modus Ponens(MP)、析取消去(DS)等。每個推理模式的問題庫包含多個實例,以便全面測試模型在不同推理任務中的表現。

為了確保模型的推理能力評估不受世界知識的影響,我們為每個推理模式設計了范例實例和無意義謂詞實例。例如,對于Modus Tollens(MT),我們設計了以下范例實例:“如果瑪麗參加了婚禮,那么蘇參加了婚禮;蘇沒有參加婚禮;因此,瑪麗沒有參加婚禮。”此外,我們還使用Claude 2創建了19個額外實例和20個無意義謂詞的實例,如:“如果flugel被blimmed,那么flugel被zargled;flugel沒有被zargled;因此,flugel沒有被blimmed。”這些無意義謂詞實例確保了模型的推理判斷基于邏輯形式,而不是具體的世界知識。

為了測試前提順序對推理結果的影響,我們為每個推理模式設計了前提順序交換的版本。例如,對于Modus Tollens(MT),我們設計了前提順序交換的版本(MTx),即交換前提的順序。此外,我們還設計了無意義謂詞和前提順序交換的組合版本(ox),以全面評估模型在不同前提順序下的推理能力。

大模型的條件推理和模態推理-AI.x社區

表2:在不同提示設置下,一些簡單推斷的模型性能。

評估方法

在評估過程中,我們對每個推理模式的問題實例和每個LLM進行了多次測試,設置了不同的溫度和提示條件。具體來說,我們在溫度為0和1的情況下進行了測試,并使用了零樣本、少樣本和零樣本鏈式思維提示條件。溫度設置為0時,模型的輸出更為確定,而溫度設置為1時,模型的輸出更具隨機性。提示條件包括零樣本提示(直接給出問題)、少樣本提示(提供幾個示例)和零樣本鏈式思維提示(引導模型逐步推理)。

為了確保我們的評估結果具有可靠性,我們進行了相關性分析和詞語敏感性測試。具體來說,我們計算了模型在無意義謂詞實例和有意義謂詞實例上的回答頻率之間的皮爾遜相關系數。高相關性表明模型的推理判斷主要基于邏輯形式,而不是具體實例的特征。此外,我們測試了使用不同詞語(如“推斷”、“得出結論”等)對結果的敏感性,發現使用不同詞語對結果影響不大。

通過這些評估方法,我們能夠全面、準確地評估LLMs在條件和模態推理任務中的表現,為理解和改進模型提供了重要的參考依據。

實驗結果

材料分析與模態分析的差異

在邏輯推理中,材料條件分析和模態分析是兩種主要的方法。材料條件分析認為,“如果p,那么q”在p為假或q為真時為真,而模態分析則認為,“如果p,那么q”表示在所有p世界中,q為真。在本研究中,我們特別關注了兩種推理模式:CT(Conditional Transitivity)和AS(Antecedent Strengthening)。

根據材料條件分析,CT推理模式是有效的。然而,模態分析和直覺反例表明,CT推理模式實際上無效。例如,從“如果下雨,那么不下大雨”推導出“如果下大雨,那么不下雨”顯然是不合理的,但如果CT有效,這種推理模式就會成立(Stalnaker, 1968)。

類似地,AS推理模式在材料條件分析中是有效的,但模態分析和直覺反例表明,AS推理模式實際上無效。例如,從“如果火柴被劃燃,它會點燃”推導出“如果火柴被劃燃且被浸泡在水中,它會點燃”顯然是不合理的(Stalnaker, 1968)。

在我們的實驗中,LLMs在拒絕CT和AS推理模式方面表現出與人類判斷一致的傾向。這表明,LLMs在處理自然語言中的條件句時,并不像材料條件那樣進行推理,而是更接近于模態分析。這一發現強調了在評估LLMs的推理能力時,不應簡單地假設材料條件分析的有效性,否則可能會錯誤地認為模型在這些情況下犯了錯誤。

不一致性和過度泛化

我們測試了多種涉及模態與條件句或析取交互的推理模式。這些推理模式特別有趣,因為哲學和邏輯學的研究表明,替換模態句子可以改變推理模式的有效性。例如,析取消去(DS)在布爾句子中是有效的,但在模態句子中則不一定有效(DSmu)。類似地,否定前件(MT)在布爾句子中是有效的,但在模態句子中則不一定有效(MTmu)。

大模型的條件推理和模態推理-AI.x社區

圖2:MTmu(上圖)和MTmi(下圖)的零樣本響應顯示了許多模型的不一致性。

大模型的條件推理和模態推理-AI.x社區

圖 3:DSmu(上圖)和 DSmi(下圖)的零樣本響應顯示許多模型存在不一致。

大模型的條件推理和模態推理-AI.x社區

圖4:當我們按某種順序同時詢問領先模型有關 DSmu、MiN 和 DSmi 的問題時,聯合一致的響應百分比。較大的標準差(誤差線)表明對問題順序具有很強的敏感性,這是非常不理想的。

我們的研究發現,許多LLMs在這些復雜推理模式上表現出過度泛化的傾向。例如,盡管人類能夠識別MTmu、DSmu和CMP(Conditional Modus Ponens)推理模式的無效性,許多LLMs卻不能。這表明,LLMs在處理這些復雜推理模式時,往往會從簡單的布爾情況過度泛化到更復雜的情況。

在我們的實驗中,我們發現一些模型在拒絕MTmi(模態否定前件)時表現出類似人類的判斷,但同時接受MTmu,這在邏輯上是不一致的。這種不一致性表明,LLMs在處理模態和條件句的交互時,可能會出現邏輯錯誤。此外,我們還發現,即使是表現最好的模型,在處理CMP推理模式時,仍然會以高頻率接受其有效性,這與人類判斷相悖。

大模型的條件推理和模態推理-AI.x社區

圖5:CMP、零樣本(上圖)和思維鏈(下圖)的反應;LLM被問及推理是否保留了可能性,即當p→(q→r)是確定的并且p是可能的時,如果q→r必須是可能的。

與流行基準測試的關系

為了將我們的邏輯推理任務與LLMs評估的廣泛領域進行比較,我們將模型在我們的基準測試(非爭議性推理)上的表現與Chatbot Arena(通用輔助)、MMLU(領域知識)和GSM8K(數學推理)等流行基準測試進行了比較。結果顯示,我們的結果與這些基準測試的結果高度相關。

這種高相關性支持了邏輯推理能力與數學推理能力及領域通用能力相關的假設。這表明,邏輯推理能力不僅與數學推理能力相關,還與模型的整體能力密切相關。未來的研究可以進一步探討這種因果關系:提高邏輯推理能力是否也能提高模型的其他推理和輔助能力。

大模型的條件推理和模態推理-AI.x社區

圖6:我們的評估結果(零樣本)與 LMSYS Elo 評分、MMLU 分數和 GSM8k 分數的相關性。相關性分別為 0.74、0.77 和 0.72。所有 p 值均小于 0.01。

討論

在本研究中,我們測試了25個大型語言模型(LLMs)在條件和模態推理任務中的表現。總體而言,較大的模型在這些推理任務中表現更好,這與我們在過去幾年中對LLMs的認識一致。具體來說,GPT-4系列模型在大多數推理任務中表現優異,特別是在零樣本鏈式思維提示條件下,表現尤為突出。

即使是最先進的模型在某些推理任務中仍然表現出不一致和反直覺的推理行為。例如,盡管GPT-4系列模型在許多推理模式上表現出色,但在處理涉及模態和條件句交互的復雜推理模式時,仍然會出現邏輯不一致的情況。這表明,盡管LLMs在許多方面已經接近人類水平,但在處理某些復雜推理任務時仍存在顯著差距。

鏈式思維提示(Chain-of-Thought,CoT)是一種引導模型逐步推理的方法。在我們的實驗中,鏈式思維提示顯著提高了模型在推理任務中的表現。具體來說,GPT-4系列模型、Gemini 1.5 Pro和Claude 3 Opus在使用鏈式思維提示時,幾乎達到了完美的準確率(98.6%以上),而Llama 3 70B也能夠達到90%以上的準確率。

這種提示方法的有效性表明,通過引導模型逐步推理,可以顯著提高其在復雜推理任務中的表現。這一發現對于未來的模型改進具有重要意義,因為它表明,通過適當的提示和引導,可以幫助模型更好地理解和處理復雜的推理任務。

盡管鏈式思維提示在許多情況下顯著提高了模型的表現,但我們仍然識別出了一些不一致和反直覺的推理行為。例如,在處理MTmu(模態否定前件)和DSmu(模態析取消去)等復雜推理模式時,許多模型表現出過度泛化的傾向,即從簡單的布爾情況過度泛化到更復雜的模態情況。

此外我們還發現,即使是表現最好的模型,在處理CMP(條件推理模式)時,仍然會以高頻率接受其有效性,這與人類判斷相悖。這些不一致和反直覺的推理行為表明,LLMs在處理某些復雜推理任務時,可能會出現邏輯錯誤和判斷失誤。

未來的研究可以進一步探討LLMs與人類受試者在推理任務中的行為比較。盡管本研究報告了專家人類判斷,但實驗性人類受試者的判斷可能會展示出與LLMs類似或不同的錯誤。這種比較可以幫助我們更好地理解LLMs在推理任務中的表現,并為改進模型提供參考。

研究主要集中在一些經典的推理模式,如Modus Tollens、Modus Ponens和析取消去等。未來的研究可以探索更多的推理模式,特別是涉及模態、條件句以及其他邏輯運算符的推理模式。例如,廣義量詞、態度謂詞和程度結構等推理模式也值得進一步研究。

模態和條件推理與其他推理主題,如概率推理、因果模型和心理模擬等,有著天然的聯系。未來的研究可以探討模態和條件語言在這些推理主題中的應用。例如,模態和條件語言可以提供另一種視角來研究LLMs和人類在概率推理和因果推理中的表現。

本研究揭示了LLMs在條件和模態推理任務中的表現和局限,為未來的模型改進和應用提供了重要的參考。通過進一步探索這些推理模式的復雜性,以及與其他推理主題的聯系,我們可以更好地理解和改進LLMs的推理能力。(END)

參考資料:https://arxiv.org/pdf/2401.17169

本文轉載自 ??大噬元獸??,作者: FlerkenS

收藏
回復
舉報
回復
相關推薦
亚洲一区av在线| 韩国成人在线视频| 亚洲免费电影一区| 污色网站在线观看| av电影免费在线观看| 福利一区二区在线| 国产精品久久久久久久av电影| 国产精品久久久免费看| 国产丝袜一区| 欧美日韩亚洲综合在线| 黄色大片中文字幕| 麻豆传媒在线观看| 久久免费视频色| 亚洲xxxxx性| 亚洲国产av一区二区三区| 中文在线播放一区二区| 亚洲品质视频自拍网| 潘金莲一级淫片aaaaaaa| 日韩高清中文字幕一区二区| 亚洲一二三四在线| 亚洲精品自在在线观看| 五月天婷婷在线播放| 精品一区二区三区视频| 国产精品xxx视频| 欧美成人aaaaⅴ片在线看| 99精品小视频| 一区二区三区国产在线观看| 性久久久久久久久久久| 国产激情精品一区二区三区| 在线观看视频一区| 免费国产黄色网址| 伦理av在线| 日韩美女精品在线| 亚洲欧美精品在线观看| 国产午夜在线观看| 99re这里只有精品首页| 国产精品久久一区二区三区| 精品久久久免费视频| 久久99精品国产麻豆不卡| 国产精品成人一区二区| 五月天婷婷导航| 亚洲综合精品| 欧美综合第一页| 好吊操这里只有精品| 欧美日韩亚洲一区二区三区在线| www.欧美三级电影.com| 东京热无码av男人的天堂| 国产欧美一区二区精品久久久| 亚洲国产中文字幕在线观看| 精品无码人妻少妇久久久久久| 亚洲精品v亚洲精品v日韩精品| 51久久夜色精品国产麻豆| 亚洲一级免费在线观看| 精品久久久网| 精品1区2区3区| 一区二区在线免费看| 日韩一区中文| 91精品国产综合久久福利| 毛片毛片毛片毛| 亚洲综合资源| 91精品欧美一区二区三区综合在| 中文字幕在线观看日| 亚洲精品伦理| 日韩三级高清在线| www男人天堂| 欧美有码在线| 国产香蕉精品视频一区二区三区| av女人的天堂| 99热精品久久| 欧美夫妻性视频| 永久免费看片在线播放| 男人天堂欧美日韩| 国产精品丝袜白浆摸在线 | 国产综合18久久久久久| 婷婷伊人综合中文字幕| 国产亚洲精品bt天堂精选| 亚洲国产成人不卡| 3d玉蒲团在线观看| 亚洲成人福利片| 亚洲熟妇av一区二区三区| 成人看片网站| 欧美一二三区在线| 亚洲综合自拍网| av资源久久| 久久91精品国产91久久跳| 日本一级淫片色费放| 久久久久久亚洲精品杨幂换脸| 国产精品日日摸夜夜添夜夜av| 97在线公开视频| av成人动漫在线观看| 日韩免费一区二区三区| 99视频免费在线观看| 精品国产精品自拍| 在线观看国产一级片| 超碰地址久久| 色老头一区二区三区| 久久久久久久九九九九| 久久在线精品| 99久久无色码| 91美女视频在线| 亚洲国产欧美另类丝袜| 亚洲77777| 国产亚洲精品美女久久| 色青青草原桃花久久综合 | 日韩人妻无码精品综合区| 日韩伦理一区| 911国产网站尤物在线观看| 6—12呦国产精品| 91免费观看视频| 黄黄视频在线观看| 久久久成人av毛片免费观看| 日韩精品中文字幕一区二区三区| 三上悠亚影音先锋| 精品av久久久久电影| 国产美女精品视频| 日本中文字幕一区二区有码在线 | 久久国产亚洲精品无码| 国产一区二区| 在线观看精品自拍私拍| 国产专区第一页| 成人亚洲精品久久久久软件| 一区二区免费电影| 3d欧美精品动漫xxxx无尽| 精品国产免费一区二区三区香蕉 | 精品国产福利视频| 美女被爆操网站| 91日韩免费| 国产精品黄色av| 男人的天堂在线| 午夜精品影院在线观看| wwwxxxx在线观看| 婷婷综合视频| 国产中文字幕91| 91在线不卡| 欧美日韩一区三区| 欧美熟妇激情一区二区三区| 免费在线成人| 久久综合九色综合久99| 国产夫妻在线| 亚洲精品国产拍免费91在线| 日韩xxx高潮hd| 99国产麻豆精品| 国产午夜大地久久| 精品国产乱子伦一区二区| 欧美激情亚洲视频| 亚洲第一第二区| 亚洲午夜视频在线| 污污免费在线观看| 国产一区导航| 欧美激情视频一区二区三区| 亚洲女同av| 亚洲男人天堂2023| 超碰在线观看91| 国产区在线观看成人精品| 黄色成人免费看| 日韩理论电影大全| 91美女片黄在线观看游戏| 顶级网黄在线播放| 亚洲电影在线看| 国产成人在线视频观看| 久久天天做天天爱综合色| 黄色一级一级片| 成人情趣视频| 亚洲自拍偷拍第一页| 成人在线高清免费| 亚洲乱码国产乱码精品精| 亚洲av综合一区| 中文字幕在线一区| 人妻精品久久久久中文字幕69| 极品av少妇一区二区| 欧美极品视频一区二区三区| 成人免费视频观看| 久久999免费视频| 香蕉视频成人在线| 色域天天综合网| 精品国产国产综合精品| 国产91露脸合集magnet| 日韩av资源在线| 99热国内精品| 鲁丝一区二区三区免费| 国产黄色一区| 久久久久久网址| 国产一级网站视频在线| 91精品国产综合久久精品| 日韩av综合在线| 中文字幕一区二区三区在线不卡 | 国产精品天天狠天天看| 亚洲按摩av| 亚洲欧美日韩精品| 国产精品无码免费播放| 精品国产91久久久久久老师| 精品一区二区在线观看视频| 成人爱爱电影网址| 青青草原国产在线视频| 一本色道久久| 黑人巨大国产9丨视频| 色婷婷av一区二区三区丝袜美腿| 国产美女精品视频| 亚洲天堂av在线| 久久久精品2019中文字幕神马| 四虎成人免费在线| 日韩欧美激情一区| 姑娘第5集在线观看免费好剧| 亚洲在线视频一区| 日本少妇aaa| 久久精品视频在线免费观看| xxxwww国产| 国产麻豆精品视频| 亚洲不卡视频在线| 国产精品免费看| 欧美久久久久久久久久久久久久| 欧美三级美国一级| 久久精彩视频| 高清一区二区三区| 91最新国产视频| 国产精品伦一区二区| 欧美自拍视频在线| 美女高潮在线观看| 欧美激情一区二区三区久久久 | 欧美成人精品| 亚洲精品一区二区三| 亚洲最大在线| 国产伦精品一区二区三区免费视频| 亚洲一区av| 成人天堂噜噜噜| 欧美大片网站| 国产成人avxxxxx在线看| 国产精品高颜值在线观看| 欧美肥婆姓交大片| 色av手机在线| 欧美成人免费在线观看| 精品麻豆一区二区三区| 中文字幕日韩欧美| wwwxxx在线观看| 亚洲午夜小视频| 每日更新在线观看av| 亚洲美女av在线播放| 人成免费电影一二三区在线观看| 亚洲第一精品夜夜躁人人爽| 亚洲精品字幕在线| 欧美成人一级视频| 国产 欧美 自拍| 精品国产免费一区二区三区四区| 丰满熟妇乱又伦| 精品福利视频一区二区三区| 少妇av一区二区| 日韩av在线网页| 日韩欧美在线观看一区二区| 亚洲免费一在线| 精品99又大又爽又硬少妇毛片| 亚洲日本成人网| av大片在线播放| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 欧美一级淫片aaaaaaa视频| 三级中文字幕在线观看| 秋霞午夜一区二区| 欧美成人性网| 成人黄色av播放免费| 国产美女视频一区二区| 国产精品免费区二区三区观看 | 精品亚洲一区二区三区| 免费看男男www网站入口在线| 国产一区二区动漫| 欧美r级在线| 欧美美最猛性xxxxxx| 不卡av免费观看| 日韩免费观看视频| 91精品国产麻豆国产自产在线 | 91国偷自产一区二区三区的观看方式| 天堂亚洲精品| 97久久精品国产| 国产一区二区主播在线| 国产精品中文久久久久久久| 99tv成人影院| 国产一区二区在线网站| 国内精品伊人久久久| 一本久道久久综合| 极品裸体白嫩激情啪啪国产精品| 久久精品国产精品亚洲色婷婷| 青青国产91久久久久久| 1314成人网| 99精品视频在线观看免费| 波多野吉衣中文字幕| 综合久久综合久久| 国产成人在线观看网站| 欧美视频一区二区三区在线观看 | 91免费看`日韩一区二区| 五月激情四射婷婷| 一个色在线综合| 中文字幕一区二区三区四区欧美| 91精品国产综合久久蜜臀| 天堂8在线视频| 色吧影院999| 性国裸体高清亚洲| 91久久精品国产91性色| 婷婷成人影院| 超碰97免费观看| 午夜在线精品| 伊人av在线播放| 欧美国产一区二区在线观看| 国产在线视频99| 欧美日韩一级片网站| 天堂资源最新在线| 久99九色视频在线观看| 99久久久国产精品免费调教网站 | 日韩免费av在线| 亚洲3区在线| 中文字幕一区二区三区5566| 免费在线播放第一区高清av| 不许穿内裤随时挨c调教h苏绵| 国产欧美日韩在线视频| 国产成人无码精品亚洲| 日韩免费视频一区| 日本中文字幕在线观看| 欧美在线性爱视频| 成人资源在线| 六月婷婷激情网| 老司机精品视频一区二区三区| 亚洲一区二区乱码| 一区二区三区在线视频观看| 国产成人精品亚洲| 亚洲天堂免费观看| 一二三四视频在线中文| 肥熟一91porny丨九色丨| 香蕉国产精品| 中文字幕国产免费| 国产精品午夜久久| 波多野结衣电车痴汉| 国产丝袜精品第一页| 国产乱码午夜在线视频| www国产亚洲精品| 国产精品mm| 亚洲三级在线视频| 亚洲欧美另类小说| 97在线公开视频| 超碰91人人草人人干| 24小时成人在线视频| 在线观看成人一级片| 美腿丝袜亚洲综合| 天天舔天天操天天干| 91久久线看在观草草青青| 蜜桃视频在线观看视频| 日本一区二区不卡| 国产成人手机高清在线观看网站| 黄色片视频在线免费观看| 91在线视频官网| 国产成人综合欧美精品久久| 精品亚洲一区二区三区四区五区| 在线观看v片| 久久一区二区三区欧美亚洲| 一区二区91| 亚洲人成人无码网www国产| 在线一区二区三区四区五区 | 啄木系列成人av电影| 波多野结衣家庭教师视频| 国产清纯在线一区二区www| 国产亚洲欧美日韩高清| 自拍偷拍亚洲在线| 日韩欧国产精品一区综合无码| 国产日韩视频在线播放| 国产精品亚洲一区二区三区在线 | 免费在线日韩av| 一区二区三区在线观看免费视频| 欧美午夜精品一区二区三区| 免费网站成人| 97免费资源站| 国产一区二区三区久久久久久久久| 野外性满足hd| 欧美日韩一区二区三区高清| 污视频在线看网站| 久久久久久国产精品一区| 日产欧产美韩系列久久99| 亚洲人与黑人屁股眼交| 精品人伦一区二区色婷婷| 97se综合| 精品一区二区三区毛片| 99视频精品免费视频| 中国精品一区二区| 久久躁狠狠躁夜夜爽| 牛牛影视一区二区三区免费看| 苍井空浴缸大战猛男120分钟| 1024成人网| 亚洲 国产 欧美 日韩| 国产免费久久av| 亚洲精品在线二区| 又色又爽的视频| 亚洲精品福利在线观看| 日韩一区中文| 欧美日韩在线中文| 亚洲精选一二三| 嫩草在线播放| 99九九视频| 免费在线观看不卡| 福利一区二区三区四区| 视频直播国产精品| 日本中文字幕在线一区| 国产欧美一区二| 在线观看日韩高清av| 91资源在线观看| 爱爱爱视频网站|