精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OlympicArena:為超級智能AI基準測試多學科認知推理能力

發布于 2024-7-1 12:53
瀏覽
0收藏

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

一、結論寫在前面

下面介紹的論文來自上海交大、上海AI lib。

論文標題:OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

論文鏈接:??https://arxiv.org/pdf/2406.12753??    

項目鏈接:??https://gair-nlp.github.io/OlympicArena/??



OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

            

圖1:AI 從高考[57]現場參與奧運會

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

為了全面評估當前模型在認知推理能力方面的表現,論文引入了OlympicArena,這是一個包含11,163個雙語文本問題的基準,涵蓋純文本和交錯文本-圖像模態。這些挑戰跨越七個領域和62個國際奧林匹克競賽,嚴格審查以防止數據泄露。

論文認為,奧林匹克競賽問題的挑戰非常適合評估AI的認知推理,因為其復雜性和跨學科性質對于解決復雜的科學挑戰和促進發現至關重要。除了使用僅答案標準評估跨不同學科的性能外,論文還從多個角度進行了詳細的實驗和分析。論文深入探討了模型的認知推理能力,它們在不同模態下的表現,以及它們在過程級評估中的結果,這對于需要復雜推理和長解決方案的任務至關重要。

論文的廣泛評估顯示,即使是先進的模型如GPT-4o也僅達到39.97%的整體準確率(數學為28.67%,物理為29.71%),這表明當前AI在復雜推理和多模態整合方面的局限性。通過OlympicArena,論文旨在推動AI向超智能發展,使其能夠應對科學及其他領域中更復雜的挑戰。論文還提供了一套全面的資源來支持AI研究,包括基準數據集、開源標注平臺、詳細的評估工具和一個具有自動提交功能的排行榜。               

?二、論文的簡單介紹

2.1 論文的背景?

現有的基準測試利用跨學科考試題目來評估大型語言模型(LLMs)的問題解決技能,但這些題目主要側重于知識密集型,對于當前的LLMs來說已相對容易。此外,這些基準主要關注純文本模式。盡管一些基準開始針對大學水平的題目并融入多模態評估,它們仍然主要集中在知識密集型任務或簡單的概念應用上(如表1所示)。與論文的工作同時進行的是,He等人[17]引入了一個奧林匹克級別的基準,但它僅限于數學和物理領域。

此外,上述所有基準都缺乏對各種認知推理能力的系統性和細致評估。例如,它們大多僅基于答案進行評估,忽略了推理過程中潛在的錯誤。這強調了需要更全面的評估,不僅要涵蓋更廣泛的學科,還要關注更高層次的認知推理以及細致的評估。

論文介紹了OlympicArena,這是一個全面、極具挑戰性且嚴格篩選的基準測試,具有詳細、細粒度的評估機制,旨在廣泛評估奧林匹克級別挑戰中的高級AI能力(如圖2所示)。論文廣泛挑選、收集并處理了來自七個學科——數學、物理、化學、生物、地理、天文學和計算機科學——涵蓋62個不同奧林匹克級別競賽的問題。這一廣泛收集最終形成了一個包含11,163個問題的基準,分為13種答案類型(例如,表達式、區間)。

重要的是,OlympicArena通過引入過程級評估,嚴格審查AI模型的逐步推理過程,增強了其評估框架。這種方法對于理解超越正確答案的認知推理深度至關重要[29, 53],使論文能夠識別并修正AI推理路徑中的缺口,確保更強大的AI能力。該基準是雙語的,同時包含英語和中文,以提高其可訪問性和全球適用性。此外,它支持兩種模式:純文本和交錯文本與圖像,以適應現代AI系統必須處理的日益復雜的任務。論文還對一些主流模型進行了數據泄露檢測實驗[54],以驗證論文基準的有效性。    

論文在現有的頂級表現的大型多模態模型(LMMs)上進行了一系列實驗,涵蓋了專有模型(例如,GPT-4o [36])和開源模型(例如,LLaVa-NeXT [31])。此外,論文在兩種設置下評估了各種類型的語言模型(例如,GPT-3.5):純文本和圖文結合,并從答案級別和過程級別兩個角度進行了全面的評估。對于答案級別的評估,論文結合了基于規則和基于模型的方法(本文中使用GPT-4V3)來覆蓋更多樣化的答案類型。對于過程級別的評估,論文對模型輸出的每個推理步驟進行評分,這在推理場景中論文認為非常關鍵。此外,論文還對不同類型的認知推理進行了細致的評估和分析,從邏輯和視覺兩個角度來更好地解釋當前AI的能力。

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

2.2 奧林匹克競技場基準

2.2.1 概述

論文介紹了OlympicArena,這是一個奧林匹克級別的跨學科基準,旨在嚴格評估LLMs和LMMs的認知推理能力。論文的基準結合了僅文本和交錯文本-圖像模式,以雙語呈現,以促進可訪問性和包容性。它涵蓋了七個核心學科:數學、物理、化學、生物、地理、天文學和計算機科學,共包含34個專業分支(詳細信息見附錄A 1\,其中涉及近期基本科學領域的實驗)。包含了一個全面的11,163個問題集合,來自62個不同的奧林匹克競賽,結構化地設置了13種答案類型,從客觀題型(如多項選擇和填空)到主觀題型(如簡答題和編程任務),這使其與許多主要關注客觀問題的其他基準測試有所區別。OlympicArena的詳細統計數據描述在表2中。    

表2:基準測試統計數據

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

此外,為了對模型性能進行細致分析,論文將認知推理分為8種類型的邏輯推理能力和5種類型的視覺推理能力。這種全面的分類有助于詳細評估LLMs和LMMs能夠展示的各種復雜推理技能。此外,論文特別研究了所有多模態問題,以比較LMMs與其基于文本的對應物的表現,旨在更好地評估LMMs處理視覺信息的能力。最后,論文評估推理過程的正確性和效率,不僅僅局限于基于答案的評價。

?2.2.2 數據收集

為了確保涵蓋各個學科的奧林匹克級別問題的全面性,論文首先收集了各種競賽的URL,這些競賽中的問題以PDF格式公開提供下載。然后,論文使用Mathpix工具將這些PDF文檔轉換為markdown格式,使其與模型的輸入要求兼容。具體來說,對于計算機科學的編程問題,論文還額外收集了相應的測試用例。論文嚴格遵守版權和許可考慮,確保符合所有相關法規。

2.2.3 數據標注

問題提取與標注。為了從測試試卷的Markdown格式中提取單個問題,論文聘請了約30名具有理工科背景的學生。論文開發了一個用于標注多模態數據的用戶界面,并已發布。為了便于進一步研究和模型的過程級評估,論文標注了如提供的解決方案等元信息。為確保數據質量,論文在初步標注完成后實施了多步驟驗證流程。

收集所有問題后,論文根據模型嵌入在每個競賽內部進行去重,以移除可能在同一年份的多個測試試卷中出現的重復問題。為進一步證明論文的基準更強調認知推理,而非大多數其他基準,論文將問題的難度分為三個級別,并與相關基準進行比較。具體地,論文將所有問題分為:知識回憶、概念應用和認知推理。論文使用GPT-4V作為標注者來分類不同難度級別的問題    

認知推理能力的標注。為了促進更細致的分析,論文從邏輯和視覺兩個角度對認知推理能力進行分類[16, 43]。邏輯推理能力包括演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。同時,視覺推理能力包括模式識別(PR)、空間推理(SPA)、圖表推理(DIA)、符號解釋(SYB)和比較可視化(COM)。論文還使用GPT-4V作為標注者來分類不同的認知能力(詳細定義和具體提示可在附錄B.3中找到)。通過這些標注,論文可以對當前AI的認知推理能力進行更細致的分析。

?2.2.4 數據分割

論文的基準包含11,163個問題,其中548個被指定用于模型評估,稱為OlympicArena-ot。論文跨學科抽樣638個問題來創建OlympicArena-val,用于超參數調整或小規模測試。OlympicArena-val問題具有逐步解決方案,支持如過程級評估等研究。剩余的問題構成了OlympicArena-test,即官方測試集,其答案未公開,用于正式測試。本文中的結果基于整個基準數據集,包括OlympicArena-ot、OlympicArena-val和OlympicArena-test。

2.3 實驗

2.3.1 實驗設置

為了全面評估LLMs和LMMs在不同模態下的能力,論文設計了包括三種不同設置的實驗:多模態、圖像-標題和僅文本。在多模態設置中,論文評估LMMs利用視覺信息的能力,通過交錯文本和圖像,模擬真實世界場景。對于無法處理交錯輸入的模型,論文將多張圖像合并為一個輸入。對于需要必要圖像輸入的LMMs,它們的基于文本的對應物處理僅文本問題。在圖像-標題設置中,論文探討圖像的文本描述是否能增強LLMs的問題解決能力。

使用InternVL-Chat-V1.58 [12],論文根據提示為所有圖像生成標題。這些標題取代了原始的圖像輸入。在僅文本設置中,論文評估LLMs在沒有視覺信息的情況下的表現,作為與多模態和圖像-標題設置比較的基線。所有實驗使用零樣本提示,針對每種答案類型定制,并指定輸出格式以促進答案提取和基于規則的匹配。這也最小化了與少量學習相關的典型偏差。    

2.3.2 評估

答案級評估 論文結合基于規則和基于模型的方法來覆蓋多樣化的評估問題。對于有固定答案的問題,論文提取最終答案并根據答案類型進行基于規則的匹配。對于代碼生成任務,論文使用無偏的pass@k指標[10]來測試所有測試用例。對于答案類型被歸類為“其他”的問題,這些問題的答案難以通過基于規則的匹配進行評估(例如,化學方程式書寫問題),論文采用GPT-4V作為評估者來評價響應。為了確保GPT-4V作為評估者的可靠性,論文手動抽樣并檢查其正確性。

過程級評估 為了進一步探究推理步驟的正確性,確保對模型認知能力進行嚴格的評估,論文進行了過程級評估。論文從OlympicArena中抽樣了96個帶有參考解決方案的問題。論文使用GPT-4將參考解決方案(即黃金解決方案)和模型生成的解決方案轉換為結構化的逐步格式。然后,論文將這些解決方案提供給GPT-4V,并對每一步的正確性進行評分,評分范圍從0到1。為了驗證與人類判斷的一致性,論文獲取了一些樣本進行人類標注。結果表明,論文的基于模型的評估方法非常準確,注釋者間一致性達到83%。

2.3.3 主要結果

表3展示了各種LMMs和LLMs在OlympicArena上的評估結果。論文觀察到以下幾點:

(1) 即使是目前最先進的大型模型,GPT-4o,也僅達到39.97%的整體準確率,而其他開源模型難以達到20%的整體準確率。這種鮮明的對比突顯了論文基準的顯著難度和嚴格性,證明了其在推動當前AI能力邊界方面的有效性。

(2) 此外,與生物學和地理學等學科相比,論文觀察到數學和物理學仍然是兩個最具挑戰性的學科,可能是因為它們依賴于復雜的推理能力。

(3)計算機編程競賽也證明是非常困難的,一些開源模型未能解決任何問題,表明當前模型在設計有效算法以解決復雜問題方面的能力較差。

表3:OlympicArena上的實驗結果,以百分比表示,每個設置中得分最高的用下劃線表示,所有設置中得分最高的用粗體表示。論文使用pass@k指標(公式1)來評估CS問題。在計算整體準確率時,對于代碼生成問題,如果為某個問題生成的任何代碼通過了所有測試用例,則該問題被視為正確    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

2.3.4 細粒度分析

為了對實驗結果進行更細致的分析,論文基于不同的模態和推理能力進行了進一步的評估。此外,論文還對過程級別的評估進行了分析。主要發現如下:

模型在不同的邏輯和視覺推理能力上表現出不同的性能。如圖3所示,幾乎所有模型在不同的邏輯推理能力上都顯示出相似的性能趨勢。它們在假設推理和因果推理方面表現出色,能夠很好地從提供的信息中識別因果關系。相反,模型在歸納推理和分解推理方面表現不佳。這是由于奧運會級別問題的多樣性和非常規性,需要將復雜問題分解為更小的子問題的能力。在視覺推理能力方面,模型在模式識別和比較可視化方面表現較好。然而,它們在涉及空間和幾何推理以及需要理解抽象符號的任務中遇到困難。完整的結果見附錄D.1。    

大多數LMIMs在利用視覺信息方面仍然不夠熟練。如圖4a所示,只有少數LMMs(如GPT-4o和Qwen-VL-Chat)在有圖像輸入的情況下相比其基于文本的對應模型顯示出顯著的改進。許多LMMs并未顯示出性能的提升。

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖3:不同模型在邏輯和視覺推理能力方面的表現。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。視覺推理能力包括:模式識別(PR)、空間推理(SPA)、圖示推理(DIA)、符號解釋(SYB)和比較可視化(COM)

在處理圖像輸入時,一些模型甚至顯示出效果下降。可能的原因包括:(1) 當文本和圖像同時輸入時,多模態模型(LMMs)可能更關注文本,忽視圖像中的信息。這一發現也在其他研究中得到證實[61, 9]。(2) 一些多模態模型在基于其文本模型訓練視覺能力時,可能會喪失一些固有的語言能力(例如推理能力),這在論文的場景中尤為明顯。(3) 論文的問題采用了一種復雜的文本和圖像交織格式,某些模型對此支持不佳,導致處理和理解嵌入在文本中的圖像位置信息時遇到困難。    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

**                圖 4:(a) 不同LMMs及其對應LLMs在三種不同實驗設置下的比較。關于每個LMM對應的LLM的詳細信息,請參閱附錄C.2。(b) 所有模型在所有采樣問題上的答案級和過程級得分之間的相關性。(c) 錯誤步驟位置的分布,表示為在整個過程中從左到右的步驟比例,覆蓋所有采樣問題

過程級評估結果分析 通過過程級評估(完整結果見表14),論文發現了以下見解:

(1) 過程級評估與答案級評估之間通常存在高度一致性。當模型產生正確答案時,推理過程的質量往往在大多數情況下更高(見圖4b)。

(2) 過程級的準確性通常高于答案級。這表明即使對于非常復雜的問題,模型也能正確執行一些中間步驟。因此,模型可能具有未被充分利用的認知推理潛力,為研究人員開辟了新的探索途徑。論文還發現,在少數學科中,一些在答案級表現良好的模型在過程級落后。論文推測這是因為模型在生成答案時有時傾向于忽略中間步驟的合理性,盡管這些步驟可能對最終結果不是至關重要的。

(3) 此外,論文對錯誤步驟位置分布進行了統計分析(見圖40)。論文發現較高比例的錯誤發生在后期階段。這表明隨著推理的累積,模型更容易出錯,表明在處理長邏輯鏈推斷方面需要改進。

可能遇到了43個基準實例。此外,這自然引發了一個問題:模型能否正確回答這些實例?有趣的是,相應的純文本聊天模型和多模態聊天模型能正確回答的這些實例甚至更少。這些結果表明,論文的基準測試幾乎沒有泄漏,并且具有足夠的挑戰性,因為模型無法正確回答大多數泄漏的實例。    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖5:GPT-4V采樣錯誤問題的錯誤類型分布

錯誤分析 為了進一步具體化模型的性能,論文從GPT-4V中抽樣了錯誤的回答(每個主題16個問題,其中8個純文本,8個多模態),并讓人類評估者分析和標注這些錯誤的原因。如圖5所示,推理錯誤(邏輯和視覺)構成了最大的類別,表明論文的基準有效地突出了當前模型在認知推理能力方面的不足。此外,很大一部分錯誤源于知識缺陷,表明當前模型仍然缺乏專家級別的領域知識和利用這些知識輔助推理的能力。另一類錯誤來自理解偏差,這可以歸因于模型對上下文的誤解以及整合復雜語言結構和多模態信息的困難。更多相關案例見附錄F.1。

2.3.5 數據泄露檢測的努力

鑒于預訓練語料庫規模的不斷擴大,檢測潛在的基準泄漏至關重要。預訓練的透明度往往使這項任務變得困難。為此,論文采用了一種最近提出的實例級泄漏檢測指標,即N-gram預測準確率。該指標為每個實例均勻抽樣幾個起始點,預測每個起始點的下一個n-gram,并檢查所有預測的n-gram是否正確,表明模型可能遇到過該實例。論文將此指標應用于所有可用的基礎或純文本聊天模型。如圖6所示,盡管與完整的基準相比數量微不足道,但令人驚訝且合理的是,這些評估模型背后的一些基礎模型或純文本聊天模型可能遇到了一些基準實例。例如,Qwen1.5-32B-Chat的基礎模型就曾遇到過這些實例。    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

                圖6:檢測到的泄露樣本數量以及相應的純文本和多模態聊天模型在這些樣本上正確響應的數量

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
亚洲 欧美 精品| 精品国产一区二区三区四| 韩国三级大全久久网站| 亚洲精品福利视频网站| 国产有色视频色综合| 无码人妻av免费一区二区三区 | 欧美日韩亚州综合| 伊人再见免费在线观看高清版| 神马一区二区三区| 麻豆国产精品官网| 91av国产在线| 日本黄色片免费观看| 台湾佬综合网| 欧美一区二区三区视频在线观看 | 婷婷久久综合网| 日韩av午夜| 欧美一区二区网站| 欧美日韩亚洲一二三| 暧暧视频在线免费观看| 国产精品久久久久久久久免费丝袜 | 久久亚洲精品国产| 911精品美国片911久久久| 亚洲精品狠狠操| 97超碰人人看| 国产精品4hu.www| 一本大道久久a久久精品综合| 麻豆md0077饥渴少妇| 激情在线视频| 91色porny在线视频| 亚洲最大成人免费视频| 中文在线免费看视频| 亚洲影音先锋| 午夜精品一区二区三区在线视频| 久久久久久久久久97| 精品成av人一区二区三区| 亚洲第一区第一页| 岛国大片在线免费观看| 国产高清亚洲| 欧美日韩不卡一区| 成年人在线观看视频免费| 伊伊综合在线| 欧美日韩在线一区| 国产精品无码av在线播放| 国产网红在线观看| 亚洲一区在线观看免费 | 波多野结衣办公室33分钟| 97视频一区| 日韩精品一区二区三区在线播放 | 日韩成人在线看| 欧美电影在线免费观看| 中文字幕免费高清在线| 视频一区在线免费看| 色狠狠综合天天综合综合| 免费黄色日本网站| 国产无遮挡裸体视频在线观看| 亚洲综合视频网| 国产欧美精品aaaaaa片| 黑人极品ⅴideos精品欧美棵| 亚洲三级在线看| 18视频在线观看娇喘| 18网站在线观看| 一区二区三区在线视频免费观看| 超碰10000| 国产www视频在线观看| 亚洲国产色一区| 久久综合色视频| 欧美黑人疯狂性受xxxxx野外| 色偷偷88欧美精品久久久| 女性隐私黄www网站视频| 欧美大片免费观看网址| 欧美日韩一区高清| 天堂网成人在线| 北条麻妃在线一区二区免费播放 | 伊人色**天天综合婷婷| 美女999久久久精品视频| 黄色小视频在线免费看| 香蕉精品999视频一区二区| 国产精品成人一区| 国产精品国产av| 成人毛片在线观看| 精品中文字幕人| chinese偷拍一区二区三区| 亚洲欧美色综合| 日韩a∨精品日韩在线观看| 国产精品专区免费| 在线成人免费观看| 日韩精品视频一区二区| 成人免费a**址| 欧美大学生性色视频| 亚洲免费黄色网址| 精品一区二区三区视频在线观看| 成人综合电影| 国产日韩精品在线看| 亚洲精品午夜久久久| 欧美日本视频在线观看| 日韩专区视频| 亚洲精品xxx| 蜜桃av.com| 在线日韩欧美| 91精品久久久久久久久中文字幕| 蜜桃久久一区二区三区| 国产精品欧美一区喷水| 蜜臀av无码一区二区三区| 主播大秀视频在线观看一区二区| 日韩一本二本av| 亚洲精品午夜视频| 欧美视频一区| 国产美女精彩久久| 四虎在线观看| 有坂深雪av一区二区精品| 日本va中文字幕| 大奶在线精品| 久久亚洲精品一区二区| 7799精品视频天天看| 懂色av一区二区三区蜜臀| 先锋影音亚洲资源| 竹内纱里奈兽皇系列在线观看| 91精品国产一区二区三区香蕉| 无码熟妇人妻av| 国自产拍偷拍福利精品免费一| 国产精品电影网站| 午夜性色福利视频| 一区二区三区在线观看动漫| 午夜两性免费视频| 九一精品国产| 668精品在线视频| 成人av无码一区二区三区| 国产精品国产三级国产专播品爱网| av动漫在线看| 精品国产一区二区三区不卡蜜臂| 久久久国产精品x99av| 波多野结衣视频在线观看| www.久久精品| 老子影院午夜伦不卡大全| 警花av一区二区三区| 久久精品99久久久香蕉| 在线免费一级片| 中文字幕二三区不卡| 任你操这里只有精品| 三级小说欧洲区亚洲区| 992tv成人免费影院| 天堂在线观看免费视频| 亚洲午夜私人影院| 中国老熟女重囗味hdxx| 一区二区免费不卡在线| 国产视频福利一区| 日本在线www| 欧美人与z0zoxxxx视频| 国产乱子轮xxx农村| 麻豆精品新av中文字幕| 亚洲一区二区精品在线观看| 国产精品久久久久77777丨| 在线观看免费高清视频97| 中文字幕有码无码人妻av蜜桃| 欧美极品少妇xxxxⅹ高跟鞋| 搡女人真爽免费午夜网站| 欧美精选一区二区三区| 国产精品日韩欧美综合| 男人在线资源站| 欧美一二三在线| 国产一级性生活| 99久久99久久综合| 亚洲精品乱码久久久久久自慰| 在线一级成人| 国产日产久久高清欧美一区| 顶级网黄在线播放| 欧美xxx久久| 91美女免费看| 国产欧美精品日韩区二区麻豆天美| 国产97色在线 | 日韩| 久久密一区二区三区| 亚洲自拍小视频免费观看| 成人av影院在线观看| 国产婷婷成人久久av免费高清| 久久久久久无码精品大片| 国产精品对白交换视频| 国产sm在线观看| 免费亚洲网站| 中文字幕人成一区| 精品久久对白| 国产精选久久久久久| 欧洲在线视频| 亚洲人成绝费网站色www| 国产女人爽到高潮a毛片| 亚洲超碰97人人做人人爱| 日本理论中文字幕| 国产精品18久久久久| 哪个网站能看毛片| 综合激情网站| 欧美高清性xxxxhd| 国产精品xnxxcom| 情事1991在线| 亚洲婷婷噜噜| 在线日韩精品视频| 成人毛片在线免费观看| 欧美色老头old∨ideo| 久久网中文字幕| 亚洲国产精品成人综合| 一级黄色电影片| 青青草国产精品97视觉盛宴| av在线com| 日韩理论片av| 久久99精品久久久久久久久久| 激情中国色综合| 91大神福利视频在线| 黄网站免费在线播放| 日韩激情第一页| 99国产精品久久久久久久成人| 日韩欧美在线播放| 黄色一级视频在线观看| 国产精品欧美久久久久无广告 | 国产aaa一级片| 中文字幕av亚洲精品一部二部| 欧美日韩在线观看一区| 盗摄牛牛av影视一区二区| 成人激情视频在线观看| 三上悠亚国产精品一区二区三区| 欧美激情在线狂野欧美精品| 91在线看黄| 亚洲免费小视频| 亚洲va欧美va| 色呦呦网站一区| 欧美极品视频在线观看| 国产精品久久久久久亚洲毛片| 日本黄色网址大全| 不卡的电视剧免费网站有什么| 欧美亚洲一区三区| 一区二区三区无码高清视频| 免费在线观看的毛片| 女生裸体视频一区二区三区| 日韩欧美亚洲精品| 欧美三级午夜理伦三级小说| av激情久久| 91成人在线网站| 国产一区二区丝袜| 日本欧美韩国| 日韩av成人在线| 亚洲福利影院| 91黄色8090| 国产直播在线| 8090成年在线看片午夜| av伦理在线| 欧美激情免费在线| 波多野在线观看| 欧美精品xxx| 欧美卡一卡二| 久久久久久美女| 国模私拍视频在线播放| 欧美激情精品久久久久久黑人| 亚洲综合图区| 欧美激情视频给我| 黄网在线免费看| 欧美激情一区二区三区在线视频观看| 羞羞视频在线免费国产| 欧美大片第1页| 电影k8一区二区三区久久| 久久久久国色av免费观看性色| 羞羞电影在线观看www| 免费91在线视频| 国模私拍视频在线播放| 97视频在线观看成人| 特黄毛片在线观看| 国产成人精品在线播放| 78精品国产综合久久香蕉| 国产色视频一区| 精品午夜视频| 国产亚洲精品美女久久久m| 日韩av三区| 三区精品视频观看| 天天综合一区| 日韩黄色短视频| 亚洲一区二区免费看| 国产精品无码av无码| 美女视频免费一区| 欧美色图校园春色| 不卡的电视剧免费网站有什么| av直播在线观看| 国产目拍亚洲精品99久久精品| 中文国语毛片高清视频| 亚洲靠逼com| 久久亚洲精品国产| 欧美丰满少妇xxxxx高潮对白| 丁香花免费高清完整在线播放| 日韩乱码在线视频| 色欧美激情视频在线| 久久久久久网站| 国产一区影院| 国产伦精品一区二区三区免费视频| 色婷婷久久久| 国产大尺度在线观看| 99综合精品| 爽爽爽在线观看| 91色九色蝌蚪| 天天操天天操天天操天天操天天操| 午夜电影网一区| 这里只有精品6| 亚洲福利视频免费观看| 午夜小视频在线| 亚洲97在线观看| 天天综合在线观看| 看高清中日韩色视频| 91精品啪在线观看国产18| 99热自拍偷拍| 国产精品一区不卡| 一级特黄曰皮片视频| 亚洲午夜视频在线观看| 91丨九色丨丰满| 亚洲男人av电影| 牛牛在线精品视频| 国产日韩欧美中文| 一本色道久久综合狠狠躁的番外| 天天操天天干天天玩| 久久这里只有| 亚洲久久久久久| 一区二区免费看| 888奇米影视| 伊人av综合网| 美女露胸视频在线观看| 999热视频在线观看| 久久久综合色| 亚欧在线免费观看| 91丨porny丨国产入口| 久一视频在线观看| 在线成人av影院| 亚洲图片88| 国产精品69久久| 婷婷精品视频| koreanbj精品视频一区| 国产成人8x视频一区二区| fc2ppv在线播放| 欧美午夜精品理论片a级按摩| 少妇高潮久久久| 色综合视频网站| 一区二区中文字幕在线观看| 公共露出暴露狂另类av| 激情综合一区二区三区| 久久久久久久久福利| 色诱亚洲精品久久久久久| 日韩精品系列| 欧美在线视频一区二区| 欧美精品中文字幕亚洲专区| 国产精彩视频一区二区| 成人久久18免费网站麻豆| 欧美日韩三级在线观看| 欧美一区二区福利在线| 影音先锋男人在线资源| 亚洲自拍偷拍色片视频| 91精品一区国产高清在线gif| 亚洲欧美日本一区二区三区| 国产精品美女久久福利网站 | 欧美色视频日本版| 天天操天天爱天天干| 91tv亚洲精品香蕉国产一区7ujn| 国产精品毛片视频| 波多野结衣50连登视频| 91丝袜呻吟高潮美腿白嫩在线观看| 在线能看的av| 亚洲美女动态图120秒| 高清电影一区| 五月天国产一区| 韩国视频一区二区| 清纯粉嫩极品夜夜嗨av| 亚洲大尺度美女在线| 亚洲欧美一区二区三区| 日韩免费三级| 精久久久久久久久久久| 在线免费日韩av| 亚洲а∨天堂久久精品喷水| 国产精品蜜芽在线观看| 欧美日韩亚洲免费| 九九热在线视频观看这里只有精品| 在线日韩国产网站| 欧美精品一区男女天堂| 亚洲最大成人| 一区二区视频在线播放| 国产成人8x视频一区二区| 91video| 日韩精品免费在线播放| 777午夜精品电影免费看| 国产av不卡一区二区| 成人午夜电影久久影院| 日本熟女毛茸茸| 波霸ol色综合久久| 国产精品久久久久久久久久白浆 | 久久激情综合网| 青青草成人免费| 亚洲欧美另类国产| 久久av日韩| 777精品久无码人妻蜜桃| 国产日韩亚洲欧美综合| 99视频免费看| 国产成人精品av在线| 欧美一区二区三区久久精品茉莉花| 亚洲国产欧美视频| 91精品国产91久久综合桃花| 亚洲天堂免费电影| 老汉色影院首页| 国产色产综合产在线视频| 精品美女www爽爽爽视频| 国产第一区电影|