精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大型語言模型中的“因果錯覺”:一項基于權變判斷任務的深度解析

人工智能
為了嚴謹地測試LLMs的因果錯覺偏見,研究者們精心設計了一個全面的實驗流程,其核心在于構建一個龐大且多樣化的、完全由零權變情境組成的數據集。

在人工智能邁向通用智能的征途中,真正的因果推理能力被普遍視為一道關鍵且艱巨的關隘。當前的深度學習模型,尤其是大型語言模型(LLMs),憑借其在海量文本數據中學習復雜模式的卓越能力,展現了驚人的語言生成與理解水平。然而,它們究竟是在進行真正的“思考”與“推理”,還是僅僅在對訓練數據中的語言模式進行高保真的“復制”與“重組”?這一問題在因果推理領域顯得尤為尖銳。

近期,一篇題為《大型語言模型在因果學習中表現出偏見嗎?來自權變判斷的洞見》(Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment)的研究,為我們揭示這一問題的答案提供了強有力的實驗證據。該研究通過巧妙地改編實驗心理學中的經典范式,系統性地探究了當前最先進的LLMs是否會像人類一樣,陷入一種名為“因果錯覺”(Illusion of Causality)的認知偏見。研究結果不僅令人深思,更對LLMs在醫療、法律、金融等關鍵決策領域的應用敲響了警鐘。這項工作明確指出,所有被評估的模型都系統性地推斷出本不存在的因果關系,有力地支持了“LLMs僅僅在復制因果語言,而非真正理解因果關系”這一假說。

核心方法論:權變判斷任務的原理與改編

要理解這項研究的精髓,我們必須首先深入其核心方法論——權變判斷任務(Contingency Judgment Task)。這并非一個為AI設計的全新測試,而是源自實驗心理學,用于研究人類如何從經驗中學習因果關系的經典范式。

什么是權變判斷?

在認知科學中,“權變”(Contingency)是指兩個事件之間客觀存在的統計關聯強度。它是人類和動物進行因果學習時所依賴的一個至關重要的線索。簡單來說,如果我們想判斷事件A(潛在原因)是否導致了事件B(潛在結果),一個理性的方法是比較“當A發生時B發生的概率”與“當A不發生時B發生的概率”。二者之間的差異,即ΔP = P(結果|原因) - P(結果|無原因),就量化了這種權變關系。

實驗心理學的經典范式

在典型的人類實驗中,參與者會經歷一系列試驗(trials)。在每一次試驗中,一個潛在的原因(例如,服用一種新藥)和一個潛在的結果(例如,疾病康復)會以“出現”或“不出現”的方式組合呈現。參與者需要觀察幾十次甚至上百次這樣的組合,然后在實驗結束時,對原因與結果之間的關系強度(例如,藥物的有效性)做出判斷,通常是在一個從0(完全無效)到100(完全有效)的量表上打分。

關鍵概念:正、負與零權變

根據ΔP的值,權變關系可以分為三種類型:

  1. 正權變(Positive Contingency):當ΔP > 0,即原因出現時結果更可能出現。這表明原因對結果有促進作用,存在積極的因果關系。
  2. 負權變(Negative Contingency):當ΔP < 0,即原因出現時結果反而更不可能出現。這表明原因對結果有抑制或預防作用,存在消極的因果關系。
  3. 零權變(Null Contingency):當ΔP = 0,即無論原因是否出現,結果發生的概率都完全相同。在這種情況下,沒有任何統計證據支持原因與結果之間存在因果聯系。

因果錯覺的量化

零權變情境是檢測“因果錯覺”的試金石。在一個完全符合零權變設計的數據集中,一個理想的、無偏見的觀察者應該得出的結論是:潛在原因與結果無關,其有效性評分為0。然而,大量的心理學研究發現,人類在這種情況下,往往會給出遠高于0的評分,即產生了“因果錯覺”——在缺乏充分證據的情況下,感知到了虛假的因果關系。這種偏見的程度,可以通過參與者給出的評分來量化。評分越高,意味著其陷入因果錯覺的程度越深。

為LLM改編任務

這項研究的巧妙之處在于,它將這一經典的人類認知任務成功地“翻譯”成了適合LLM執行的形式。研究者們沒有像人類實驗那樣逐一、順序地呈現每個試驗,而是將一個場景下的所有試驗(例如20到100次)匯總成一個自然語言描述的列表,一次性作為上下文提供給LLM。

這種改編看似微小,實則意義重大。研究者們最初的預期是,這種形式對LLM而言應該是一個優勢。因為LLMs擁有巨大的上下文窗口和強大的信息處理能力,它們可以“一眼看穿”整個數據集的全貌,進行精確的內部計算來判斷權變關系,而不像人類那樣受制于記憶衰減、注意力偏差和順序效應。理論上,LLM完全有能力通過計數和簡單計算,完美地執行規范性的因果推理,從而準確識別出零權變情境并給出0分的評判。然而,實驗結果卻與這一理性預期背道而馳。

實驗設計:構建一個無法建立因果關系的世界

為了嚴謹地測試LLMs的因果錯覺偏見,研究者們精心設計了一個全面的實驗流程,其核心在于構建一個龐大且多樣化的、完全由零權變情境組成的數據集。

數據集構建的精妙之處

該研究的第一個重要貢獻是其高質量、大規模的數據集。研究者們總共構建了1000個獨立的零權變醫療場景。

變量對的設計

為了測試模型的泛化能力并排除特定知識背景的干擾,研究者們手動創建了100對醫療相關的變量(原因-結果),并將其分為四大類:

  1. 虛構變量(Fabricated names):例如,用名為“Glimber”的虛構藥物治療名為“Drizzlemorn”的虛構疾病。這一設計的目的是完全剝離模型的任何先驗知識,迫使其只能依賴當前提供的數據進行判斷。
  2. 不確定變量(Indeterminate variables):例如,用“藥物A”治療“疾病B”。這種抽象的表述旨在測試模型在沒有具體語義信息時的純粹邏輯推理能力。
  3. 替代醫學變量(Alternative medicine variables):例如,用“針灸療法”治療“背痛”。這類變量涉及現實世界中存在爭議或屬于偽科學范疇的療法,旨在探究模型是否會受到與這些主題相關的、普遍存在于網絡文本中的偏見信息的影響。
  4. 常規醫學變量(Conventional medical variables):例如,用“撲熱息痛(Paracetamol)”治療“發燒”。這是一個現實世界中因果關系明確且得到科學驗證的例子。實驗設計在這里創造了一個沖突:現實世界的強先驗知識(撲熱息痛有效)與當前提供的零權變數據(數據顯示其無效)之間的沖突。這可以測試模型是更相信自己的“背景知識”還是眼前的“實驗證據”。

零權變場景的生成算法

這是實驗設計的技術核心。研究者們開發了一種算法,為上述100個變量對中的每一個生成10個零權變場景,共計1000個。每個場景包含20到100個試驗記錄。該算法確保了在每個場景中,潛在原因和結果之間的權變關系嚴格為零。

根據論文附錄D的描述,其生成機制如下:

  • 首先,將一個場景的所有試驗(例如,一個32次的試驗)分為相等的兩半。
  • 在每一半中,應用一個“80/20”的分布規則。具體來說,80%的試驗被分配給“一個變量保持不變,另一個變量變化”的組合(例如,服藥但未康復,或未服藥但康復了)。剩下的20%的試驗則被分配給“兩個變量同變或同不變”的組合(例如,服藥且康復,或未服藥且未康復)。
  • 通過這種精巧的分配,算法確保了在整個數據集中,服藥后康復的比例與未服藥但康復的比例完全相等。例如,在論文給出的一個案例中(表5),無論是服藥的患者群體還是未服藥的患者群體,其康復率都是完全相同的80%。這就構建了一個完美的ΔP = 80% - 80% = 0 的零權變情境。

這種算法驅動的生成方式,保證了所有1000個場景在統計學意義上都是無可辯駁的“無因果”證據。

任務執行與提示工程

研究者們將被評估的LLMs(GPT-4o-Mini, Claude-3.5-Sonnet, Gemini-1.5-Pro)置于一個角色扮演的情境中。根據變量類型的不同,模型被設定為“正在評估一種實驗性新藥的醫生”或“正在研究某療法有效性的醫學研究員”。

提示(Prompt)的結構清晰且嚴格:

  1. 情境設定:首先,為模型設定角色和背景故事。
  2. 數據呈現:接著,提供由上述算法生成的、以自然語言列表形式呈現的患者記錄。
  3. 核心問題:最后,提出一個高度約束性的問題:“基于這些信息,該療法在解決該問題上的有效性如何?請僅在一個從0到100的量表上回答,其中0表示無效,50表示相當有效,100表示完全有效。請不要包含任何額外信息或解釋——只提供所要求的數字。”

這種嚴格的輸出格式要求至關重要,它迫使模型必須給出一個量化的判斷,避免了通過模糊或回避性的語言來規避問題。

實驗設置與模型評估

為了確保結果的穩健性,研究進行了三組獨立的實驗:

  1. 隨機性評估:在溫度(temperature)為1.0的設置下,對每個場景重復運行10次。較高的溫度意味著模型的輸出更具隨機性和多樣性,這有助于評估模型反應的一致性和分布情況。
  2. 確定性評估:在溫度為0的設置下,每個場景運行1次。溫度為0使得模型的輸出在理論上是確定性的,可以揭示模型在最“專注”狀態下的核心判斷邏輯。
  3. 默認設置評估:在模型的默認溫度設置下,每個場景運行1次。這模擬了普通用戶的標準使用情境。

研究的主要分析集中在第一組實驗(溫度=1.0)的結果上,因為它能提供更豐富的分布信息。同時,研究者指出,三組實驗的結果趨勢高度一致。

結果分析:當大型模型集體產生幻覺

實驗結果清晰地揭示了一個令人不安的現實:所有被測試的頂尖大型語言模型,在面對零權變數據時,都表現出了顯著且系統性的因果錯覺。

總體發現:普遍存在的因果錯覺

從整體上看,沒有一個模型能夠穩定地識別出零權變情境并給出接近0的評分。相反,它們的評分普遍遠高于0。

  • GPT-4o-Mini 表現出最強的因果錯覺。其評分分布集中在非常高的數值,平均分高達75.74,中位數也達到了75。這表明它有一種極強的傾向,將不相關的事件解讀為強因果關系。
  • Claude-3.5-Sonnet 的評分分布雖然比GPT-4o-Mini的四分位距更窄,但其評分中位數穩定在50分(即“相當有效”),且標準差(19.67)表明其反應存在顯著的離散性,受到不少異常值的影響。
  • Gemini-1.5-Pro 表現出的因果錯覺程度最低,但其平均分(33.07)和中位數(45.0)依然遠高于0,表明它同樣未能擺脫這種偏見。

圖片

圖片

這些總體數據,通過分布圖(圖1)和匯總統計表(表2、表3、表4)得到了直觀和量化的呈現。

第一個核心貢獻:模型無法識別零權變

研究者們通過嚴謹的統計檢驗,證實了上述觀察的顯著性。他們使用了單樣本、單側Wilcoxon檢驗來驗證“模型的評分中位數是否顯著大于0”這一假設。

結果是壓倒性的:

  • 對于 GPT-4o-Mini,其中位數為75.7,p值遠小于0.001。更驚人的是,在其10000次(1000個場景 x 10次重復)回答中,給出正確答案“0”的比例是**0%**。
  • 對于 Claude-3.5-Sonnet,其中位數為50.0,p值遠小于0.001。它給出“0”分的比例也僅為4.6%。
  • 對于 Gemini-1.5-Pro,其中位數為45.0,p值遠小于0.001。它給出“0”分的比例相對最高,為20.5%。

這些統計結果用無可辯駁的證據表明,LLMs并非隨機犯錯,而是系統性地、持續地高估了零權變數據中的因果關系強度。它們無法遵循規范的統計原則,即在證據不足時拒絕建立因果聯系。

第二個核心貢獻:模型之間缺乏一致的判斷標準

一個自然而然的問題是:既然所有模型都犯了同樣的錯誤,它們是否遵循了某種相似的、但錯誤的“內在邏輯”?研究結果給出了否定的答案。

研究者使用了弗里德曼檢驗(Friedman test)來比較三個模型的反應分布。結果(χ2(df=2) = 1516.99, p < 0.001)強烈拒絕了“所有模型生成具有相同中心趨勢的響應”這一假設。這意味著,這三個模型在進行因果判斷時,其內部的“標準”是截然不同的。

進一步的成對Wilcoxon符號秩檢驗(Pairwise Wilcoxon signed-rank tests)更深入地揭示了這一點。檢驗結果表明,任意兩個模型之間的評分差異都不是以0為中心的。在實踐中,這意味著一個模型會系統性地比另一個模型給出更高(或更低)的評分。例如,在同一個零權變場景下,GPT-4o-Mini的評分幾乎總是高于Claude-3.5-Sonnet,而Claude-3.5-Sonnet的評分又傾向于高于Gemini-1.5-Pro。

這一發現極具啟發性。它說明LLMs的“因果推理”不僅是錯誤的,而且是“錯得五花八門”。它們沒有收斂到一個統一的、哪怕是錯誤的因果判斷模型上,而是各自發展出了一套獨特的、對數據中非因果模式的敏感性。這進一步削弱了它們具備通用因果推理能力的論點。

第三個核心貢獻:對“正確”答案的不同傾向性

盡管所有模型都表現不佳,但Gemini-1.5-Pro給出正確答案“0”的概率(20.5%)顯著高于其他兩個模型。科克倫Q檢驗(Cochran's Q test)也證實了這一差異的統計顯著性。

然而,研究者對此提出了一個非常重要的審慎解釋。他們指出,不能簡單地將此解讀為Gemini的因果推理能力“更好”。Gemini的反應標準差是三者中最高的(23.72),這意味著其輸出具有極高的變異性或不確定性。因此,它更頻繁地輸出“0”,可能并非源于一個穩定、可靠的識別零權變的能力,而更可能是一種“不確定如何回答”時的隨機行為產物。換言之,這種“正確”可能是高度不確定性帶來的偶然結果,而非真正理解的體現。

變量類型的影響:先驗知識的失效

最令人驚訝的發現之一,來自于對不同變量類別反應的分析(圖2)。按照常理推斷,模型在處理完全虛構的變量(如Glimber)或抽象變量(如藥物A)時,由于缺乏任何先驗知識,理應表現得更為“謹慎”或“懷疑”,給出的因果評分可能會更低。

圖片

然而,實驗結果恰恰相反。數據顯示,模型并沒有因為變量是虛構的或不確定的而降低其因果評分。甚至在某些情況下,它們對這些虛構變量給出的評分還略有升高的趨勢。同樣,在面對“撲熱息痛治療發燒”這類具有強現實世界先驗的場景時,模型也未能利用這些先驗知識來質疑眼前這份“無效”的零權變數據。

這一發現具有深刻的含義:LLMs在進行這項任務時,似乎完全被輸入文本的表層統計模式所“俘獲”,而未能有效地整合或利用關于變量本身的語義信息或背景知識來校準自己的判斷。無論是面對熟悉的、陌生的還是完全虛構的概念,它們都以一種近乎相同的方式,盲目地從數據巧合中推斷出因果關系。

討論與結論:復制語言,而非理解因果

這項研究的發現,為我們理解LLMs能力邊界提供了一個清晰而深刻的視角。

期望與現實的巨大鴻溝

研究者們坦言,他們最初的預期是LLMs會在這項任務上表現出色。畢竟,任務被改編成了對LLMs極為友好的列表格式,使其能夠輕松訪問全部數據,進行全局的統計計算。這本應是一場展現其超人計算能力的表演,結果卻成了一次集體性的認知失敗。這種期望與現實之間的巨大反差,本身就構成了一個強有力的論點:當前LLMs的核心能力,可能與我們所期望的“推理”存在本質區別。

支持“隨機鸚鵡”假說

該研究的結果為關于LLM理解能力的“隨機鸚鵡”(Stochastic Parrots)假說提供了堅實的經驗支持。該假說認為,LLMs本質上是在模仿和重組其在訓練數據中看到的語言模式,而沒有形成對世界真正的、抽象的理解。

在本研究的背景下,LLMs似乎已經學會了,當文本中出現“A發生,B也發生”這類共現模式達到一定頻率時,就應該生成“A對B有效”這類具有因果判斷色彩的語言。它們是在復制因果語言的模式,而不是在執行因果推理的邏輯過程。它們沒有內化“權變”這一指導因果推斷的規范性原則,因此無法在零權變這種“陷阱”情境下做出正確的判斷。

語言與經驗的學習鴻溝

一個特別值得玩味的觀點是,人類的因果錯覺通常被認為是通過直接的、序列化的個人經驗(一次又一次的試錯)形成的。而LLMs的訓練數據是靜態的、脫離了時序經驗的文本。那么,為什么一個純粹基于文本訓練的模型,會復現一個被認為是經驗驅動的認知偏見呢?

研究者推測,這可能意味著這種偏見已經深深地固化在人類的語言使用習慣之中。當人們描述事件時,會不自覺地使用帶有因果暗示的語言來描述巧合,這種語言模式被LLMs大規模地學習和吸收,最終內化為一種行為傾向。這揭示了LLMs作為“文化鏡像”的另一面:它們不僅反映了我們知識的精華,也同樣復刻了我們思維的缺陷。

局限性與未來展望

研究者們也坦誠地指出了當前工作的局限性,包括:由于方法論的差異,未能設置直接可比的人類實驗作為基線;實驗任務的設計與真實世界的LLM使用場景存在差異(外部效度問題);以及0-100的評分量表本身可能對LLM的輸出行為產生影響(內部效度問題)。

基于此,他們也指明了未來研究的方向:

  • 引入思維鏈(Chain-of-Thought)等提示技術,引導模型進行分步推理,看是否能改善其表現。
  • 擴展測試場景,不僅包括零權變,也引入正權變和負權變場景,以更全面地評估模型的因果判斷能力。
  • 研究試驗順序的影響,例如,將“服藥且康復”的成功案例放在列表開頭,看是否會像影響人類一樣,導致更高的因果評分(首因效應)。

最終結論與警示

總而言之,這項研究通過一個設計嚴謹、證據確鑿的實驗,首次系統性地揭示了主流大型語言模型普遍存在嚴重的“因果錯覺”偏見。它為我們提供了一個清晰的例證,展示了流暢的語言生成與真正的邏輯推理之間存在的巨大鴻溝。

這一結論的現實意義不容小覷。在醫療診斷、金融風控、司法判決等領域,錯誤的因果歸因可能導致災難性的后果。如果一個作為醫療助手的LLM,僅僅因為觀察到一些患者在服用某種草藥后恰好病情好轉(在一個零權變的數據背景下),就得出“該草藥有效”的結論,并將其傳遞給醫生或患者,其潛在危害是顯而易見的。

因此,這項工作不僅是一次對LLM技術能力的深刻剖析,更是一次及時的安全警示。它提醒所有AI的研究者、開發者和使用者,在擁抱LLMs帶來的巨大機遇的同時,必須對其能力的邊界和潛在的認知缺陷保持清醒和審慎的認識。在通往可靠、可信的通用人工智能的道路上,克服類似“因果錯覺”這樣的深層認知偏見,將是不可回避的核心挑戰。

參考鏈接:https://arxiv.org/abs/2510.13985v1

責任編輯:武曉燕 來源: 上堵吟
相關推薦

2023-11-08 09:18:01

2021-10-25 16:25:07

模型人工智能計算

2009-07-27 14:38:34

網絡運維管理奧運

2025-08-19 10:10:46

2023-06-24 19:59:40

2022-06-15 07:42:00

谷歌T5模型

2013-07-05 15:28:27

2024-08-13 08:09:34

2024-04-16 14:57:51

人工智能深度學習

2024-04-16 16:14:01

人工智能LLMRAG

2024-12-12 09:11:58

2018-01-19 22:30:07

2024-04-26 11:30:43

GenAILinkedIn人工智能

2023-02-25 16:14:36

AIMeta語言模型

2021-12-28 10:16:59

ITIT領導IT管理

2021-02-08 23:17:25

IT投資首席信息官

2011-05-25 09:17:33

JavaScriptswitchdefault

2023-04-10 10:32:00

模型排序

2024-05-16 16:37:33

大型語言模型人工智能

2023-10-08 15:54:12

點贊
收藏

51CTO技術棧公眾號

欧美一级片在线播放| 亚洲成年人在线播放| 五月天亚洲综合小说网| 中文在线字幕av| 国产精品成人av| 日韩一级片网站| 午夜精品久久久久久久无码| 懂色av中文在线| 精品一区二区三区蜜桃| 欧美国产日韩免费| aaaaa级少妇高潮大片免费看| 制服诱惑亚洲| 亚洲精品综合在线| 欧美久久久久久久| 午夜精品小视频| 日韩1区2区日韩1区2区| 欧美激情精品久久久久久大尺度 | 欧美亚州在线观看| 国产喷水吹潮视频www| 久久黄色影院| 欧美xxxx18性欧美| www.av天天| 51亚洲精品| 欧美日韩中文字幕一区| 国产成a人亚洲精v品在线观看| 黄上黄在线观看| 国产白丝精品91爽爽久久| 国产精品扒开腿做| 久久露脸国语精品国产91| 婷婷丁香综合| 在线a欧美视频| www国产视频| 玖玖精品一区| 欧美天天综合网| 欧美牲交a欧美牲交aⅴ免费真| 羞羞的网站在线观看| 亚洲国产精品精华液2区45| 国产日韩精品推荐| 91国产精品一区| 久热re这里精品视频在线6| 久久久噜久噜久久综合| 黄色片子在线观看| 中日韩免视频上线全都免费| 精品国产一区二区三区av性色 | 久久亚洲国产成人精品性色| 四虎成人精品永久免费av九九| 亚洲精品资源美女情侣酒店| 性活交片大全免费看| 日韩一二三区| 91精品国产色综合久久不卡电影 | 国内精品写真在线观看| 国产精品久久久久久久午夜| 亚洲大片免费观看| 亚洲综合电影一区二区三区| 777精品视频| 国产午夜激情视频| 亚洲激情女人| 2018日韩中文字幕| 国偷自拍第113页| 亚洲国产一区二区精品专区| 久久久久久网址| 日韩欧美高清在线观看| 亚洲美女视频在线免费观看| 久久琪琪电影院| 国产精品第72页| 一区二区国产在线观看| 456亚洲影院| 亚洲乱码国产乱码精品| 日本免费新一区视频| 国产精品欧美激情| 国产又粗又猛又爽又黄的| 久草中文综合在线| 5566av亚洲| 亚洲第一页视频| 99re在线精品| 欧美综合激情| 日本暖暖在线视频| 一区二区在线免费观看| 三上悠亚久久精品| 亚洲日本天堂| 欧美在线你懂的| 国产三级生活片| 一区二区三区自拍视频| 亚洲精品久久久久中文字幕二区| 青青草成人免费视频| 精品国产99| 久久影院在线观看| 中文字幕一区二区三区精品| 日韩影院精彩在线| 91久久国产精品| 三级小视频在线观看| 国产亚洲精品久| 一本色道久久综合亚洲精品婷婷 | 亚洲人成小说网站色在线| 日本久久久网站| 欧美momandson| 欧美日本免费一区二区三区| 熟女人妻一区二区三区免费看| 日韩影视在线观看| 久久精品成人动漫| 久久视频免费在线观看| 日韩成人午夜电影| 91香蕉视频在线下载| 亚洲色图另类小说| 综合分类小说区另类春色亚洲小说欧美| 2022中文字幕| 日韩av首页| 亚洲精品一区二区在线观看| 快灬快灬一下爽蜜桃在线观看| 欧美日韩mv| 国产精品久久激情| 人妻精品无码一区二区| 国产精品萝li| 欧美国产激情视频| 日韩08精品| 自拍偷拍免费精品| 免费在线观看黄网站| 国内精品视频一区二区三区八戒| 久久综合给合久久狠狠色| www在线观看播放免费视频日本| 婷婷六月综合亚洲| 一本之道在线视频| 成人久久一区| 日本午夜在线亚洲.国产| 亚洲高清视频在线播放| 国产精品国产自产拍在线| 91av资源网| 一区二区在线视频观看| www高清在线视频日韩欧美| 在线观看日本网站| 成人免费毛片嘿嘿连载视频| 少妇高潮流白浆| 精品69视频一区二区三区| 亚洲国产精品一区二区三区| 我家有个日本女人| 久久成人免费网站| 亚洲国产精品www| 亚洲淫性视频| 欧美美女一区二区三区| 亚洲精品一区二区三区影院忠贞| 亚洲影音先锋| 韩日午夜在线资源一区二区| 欧美卡一卡二| 欧美成人三级电影在线| 动漫性做爰视频| 极品少妇xxxx精品少妇| 亚洲一区二区三区在线观看视频| 久九九久频精品短视频| 精品亚洲aⅴ在线观看| 国产成人无码精品| 97精品视频在线观看自产线路二| 性一交一乱一伧国产女士spa| 美女国产精品久久久| 久久亚洲国产精品| 国产乱叫456在线| 最新日韩av在线| 国产性生活一级片| 欧美在线资源| 99视频免费观看| 538在线观看| 亚洲国产精品国自产拍av秋霞| 国产在线拍揄自揄拍无码视频| 国产经典欧美精品| 屁屁影院ccyy国产第一页| 亚洲精品v亚洲精品v日韩精品| 欧美成人午夜免费视在线看片| 国产伦精品一区二区三区四区 | 日韩漫画puputoon| 神马国产精品影院av| 91久久精品国产91性色69| 亚洲图片你懂的| 在线观看欧美一区二区| 亚洲国产专区校园欧美| 麻豆久久久av免费| 国产成人精选| 美女视频黄免费的亚洲男人天堂| 精品二区在线观看| 精品久久久一区| 亚洲天堂久久新| 久久电影国产免费久久电影| 色婷婷777777仙踪林| 风间由美性色一区二区三区四区| 98精品在线视频| avtt亚洲| 精品国产免费人成在线观看| 一区二区三区在线观看av| 国产精品久久久久久久第一福利 | 丁香六月激情网| 天天做夜夜做人人爱精品| 国产精品福利网站| 91高清在线观看视频| 日韩av中文在线| 在线观看国产精品视频| 亚洲午夜在线观看视频在线| 深爱五月激情网| 国产一区二区伦理| 国产91在线视频观看| 91久久夜色精品国产按摩| 国产精品久久久久免费| 91成人在线| 欧美激情喷水视频| 波多野结衣在线网站| 久9re热视频这里只有精品| 国产精品免费免费| 免费黄视频在线观看| 欧美资源在线| 51xx午夜影福利| 国产成人影院| 国产91aaa| 久久免费影院| 91po在线观看91精品国产性色| 一级毛片视频在线| 日韩精品在线私人| 精品国产99久久久久久宅男i| 日韩欧美亚洲成人| 久草资源在线视频| 国产精品久久久久久福利一牛影视 | 91久久久一线二线三线品牌| 久久精品女人天堂av免费观看| 久久97久久97精品免视看| h视频在线观看免费| 欧美精品一区二区蜜臀亚洲| 国产精品女人久久久| 在线免费观看一区| 日本天堂网在线| 亚洲超碰97人人做人人爱| 特一级黄色录像| 欧美国产禁国产网站cc| 免费成人深夜夜行p站| 国产成人av影院| 三级黄色片播放| 美女脱光内衣内裤视频久久网站| 女人扒开屁股爽桶30分钟| 激情综合视频| 97超碰国产精品| 欧美日韩一区二区高清| 在线视频不卡国产| 日韩1区2区| 日韩精品不卡| 欧美艳星介绍134位艳星| 欧美黑人3p| 亚洲黄页网站| 久久亚洲精品欧美| 日韩一级电影| 农村寡妇一区二区三区| 日韩欧美四区| 久久综合一区| 一区二区美女| 欧美日韩精品免费在线观看视频| 日韩精品欧美大片| 久久综合久久久| 国产99久久| 日韩在线第一区| 日韩在线观看| 99热这里只有精品7| 2023国产精品久久久精品双| 热久久最新网址| 国产精品v亚洲精品v日韩精品| 91大学生片黄在线观看| 欧美精品国产一区二区| 日韩小视频网站| av成人天堂| 热久久精品国产| 青青草国产精品亚洲专区无| 亚欧激情乱码久久久久久久久| 麻豆一区二区三区| 久久精品国产99久久99久久久| 国产精品自拍av| 亚洲av熟女高潮一区二区| 99riav久久精品riav| 法国空姐电影在线观看| 国产精品色哟哟| 人妻人人澡人人添人人爽| 一区二区三区日韩精品| 91香蕉在线视频| 91福利国产精品| 国产露脸91国语对白| 亚洲精品一线二线三线| 国产在线一二三| 久久视频中文字幕| 精品捆绑调教一区二区三区| 日韩美女主播视频| 高清一区二区中文字幕| 国产欧美日韩一区| 成人婷婷网色偷偷亚洲男人的天堂| 先锋在线资源一区二区三区| 欧美激情日韩| 99热成人精品热久久66| 精品一二三四在线| 性久久久久久久久久久| 中文字幕中文字幕一区| 国产一级做a爱免费视频| 91黄色在线观看| av免费观看在线| 亚洲性线免费观看视频成熟| 成人午夜在线影视| 日本久久久久久久久久久| 国内不卡的一区二区三区中文字幕| 国产欧美韩日| 色综合久久一区二区三区| 精品少妇在线视频| 久久国产精品72免费观看| 黄色短视频在线观看| 亚洲日本丝袜连裤袜办公室| 九九九国产视频| 欧美精品第1页| 欧美日韩在线中文字幕| 久久国产精品网站| 另类中文字幕国产精品| 国产伦精品一区二区三区照片 | 自拍偷拍亚洲欧美| 日韩伦理福利| 91偷拍精品一区二区三区| 日韩理论电影院| 可以免费观看av毛片| 国产精品66部| 99国产精品无码| 色欧美乱欧美15图片| 狠狠躁日日躁夜夜躁av| 精品国偷自产在线视频99| 浪潮色综合久久天堂| 精品国产乱码久久久久久蜜柚 | 欧美精品在线播放| 高清在线一区| 日韩理论片在线观看| 国产欧美日韩一区二区三区在线| www.亚洲自拍| 中文字幕日韩精品一区| 波多野结衣绝顶大高潮| 日韩精品久久久久久福利| 男女免费观看在线爽爽爽视频| 国产日产久久高清欧美一区| 国产成人黄色| 激情综合网婷婷| 97aⅴ精品视频一二三区| 精品无码免费视频| 欧美电影精品一区二区| 在线看三级电影| 亚洲综合在线做性| 久久久久久美女精品| 亚洲天堂国产视频| 国产精品久久久久久妇女6080| 欧产日产国产69| 精品亚洲夜色av98在线观看| 国产盗摄——sm在线视频| 国产伦精品一区二区三区在线| 精品91在线| 国产精品手机在线观看| 亚洲成a人在线观看| 丰满人妻熟女aⅴ一区| 欧美大秀在线观看| 亚洲精品aⅴ| 男人日女人视频网站| www.亚洲精品| 在线观看国产亚洲| 精品亚洲国产成av人片传媒 | 免费观看一区二区三区| 一区二区三区欧美久久| 性网爆门事件集合av| 欧美第一黄网免费网站| 国产精品超碰| 国产超级av在线| 国产欧美一区二区精品久导航| 波多野结衣一区二区三区在线| 色老头一区二区三区在线观看| 羞羞视频在线观看一区二区| 欧美xxxx吸乳| 成人夜色视频网站在线观看| 精品成人av一区二区在线播放| 亚洲美女精品久久| 成人国产精品| 国产免费xxx| av网站免费线看精品| 久久久久久久久黄色| 日韩在线视频免费观看| 视频一区在线| 亚洲午夜精品久久久久久人妖| 中文字幕va一区二区三区| 国产免费高清视频| 国内精品伊人久久| 国产一区二区三区四区五区| 手机av在线免费| 亚洲国产精品久久人人爱 | 91亚洲国产成人精品一区二三| 免费黄色网址在线| 视频在线一区二区| 亚洲一区二区三区在线免费| 国产成人无码一二三区视频| 国产精品成人在线观看| 高潮毛片7777777毛片| 日韩美女视频在线观看| 欧美成人国产| 久操视频免费看| 日韩欧美在线1卡| 成人免费无遮挡| 少妇高潮流白浆| 久久亚洲一区二区三区明星换脸| 国产精品视频第一页| 欧美重口另类videos人妖| 911久久香蕉国产线看观看|