精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

集成500+多模態現實任務!全新MEGA-Bench評測套件:CoT對開源模型反而有害?

人工智能 新聞
MEGA-Bench是一個包含500多個真實世界任務的多模態評測套件,為全面評估AI模型提供了高效工具。研究人員發現,盡管頂級AI模型在多個任務中表現出色,但在復雜推理和跨模態理解方面仍有提升空間。

隨著人工智能技術的進步,多模態大模型正逐漸應用于多個領域,極大地提升了機器在視覺、文本等多種信息模式下的理解和生成能力。這些模型不僅用于對話、圖片標注、視頻分析等較常見的任務,還被廣泛應用在復雜場景中,如程序編寫、醫療影像診斷、自動駕駛、虛擬助手中的多模態交互,甚至用于游戲策略分析與操作應用程序。

然而,全面、系統地評測多模態大模型的能力需要投入大量的資源。

最近,加拿大滑鐵盧大學TIGER Lab的MEGA-Bench團隊的研究人員提出了一個全新的評測套件,集成了500多種任務,涵蓋廣泛的多模態任務場景,支持多種輸入和輸出格式,以一個相對較低的測試成本為模型產生詳盡的多維度分析報告,旨在為多模態模型的全面能力評估提供一個更加高效且不失全面性的工具。

圖片

項目主頁:https://tiger-ai-lab.github.io/MEGA-Bench/

論文鏈接:https://arxiv.org/abs/2410.10563

數據鏈接:https://huggingface.co/datasets/TIGER-Lab/MEGA-Bench·

排行榜:https://huggingface.co/spaces/TIGER-Lab/MEGA-Bench

代碼鏈接:https://github.com/TIGER-AI-Lab/MEGA-Bench

更具體的,MEGA-Bench的505個任務來自8個廣義的任務大類(如信息提取、數學、規劃、感知、代碼等,詳見圖1),如圖2所示,這些任務涵蓋7種常見的視覺輸入類型(包括了單圖,多圖,以及視頻),6種不同的輸出格式,以及10種多模態核心能力;還根據任務的具體需求,定制了40余種測試metrics

圖片

研究人員在MEGA-Bench上評估了前沿的多模態大模型并得到了一些有趣的發現:

1. 頭部商用模型中,GPT-4o與新版Claude 3.5 Sonnet獲得了幾乎一樣的總分,且多維度分析顯示,新版Claude 3.5 Sonnet與舊版相比,在規劃任務以及處理圖形界面、信息圖表類視覺輸入上性能提升明顯,與Anthropics推廣的「computer use」的應用場景相符。

2. 在開源模型中,Qwen2-VL在各維度上的性能都有明顯的領先優勢,其總分相比其他開源模型有超過10分的優勢。

3. 「思維鏈提示」(Chain-of-Thought prompting)普遍對商用模型的效果有明顯提升,卻對大部分開源模型帶來負面的效果。

圖片

三大局限

現有的評測體系在三個方面仍存在明顯局限:

1. 輸出格式的真實性與多樣性

由于早期多模態大模型的指令跟隨能力有限,模型在回答問題時未必能按照規定格式輸出,這使得自動評估回答的準確性變得困難。為簡化評測過程,許多現有的多模態基準測試(如MMBench、MMMU)采用了選擇題形式,方便系統直接判斷回答是否正確。

然而在實際應用中,人們與模型的交互方式很少是選擇題形式,且隨著模型理解和生成能力的快速提升,這種設計顯得不夠真實。因此,評測體系需要支持更豐富且貼近實際的輸出格式,以更好地反映模型在真實場景中的表現。

2. 多模態任務的覆蓋廣度

大部分多模態數據集往往集中在單一類型的任務上,缺乏對多模態任務的廣泛覆蓋。

例如,MMMU的任務來自大學以上難度的各種不同學科的考題,MMBench、MMT-Bench主要集中于傳統視覺任務及其變種,MathVista、MathVision著重考察數學相關任務,等等。

這種局限性導致了評測時需要使用多個數據集才能涵蓋不同多模態任務,而無法通過一個統一評測集來全面且便捷地衡量模型的各方面能力。

3. 較高的測試成本

使用多個數據集進行測試不僅費時,還帶來了較高的成本。例如,不同數據集中重復性較高的樣本導致資源浪費。

類比考試測試,高考不需要對每個學科出1000道題的試卷來評估學生在這個學科的能力,只需選擇具有代表性的題目組成一份考卷,即可在有限時間內準確區分不同學生的水平。多模態模型的評測也應朝著高效與全面的方向發展,以減少冗余并優化資源利用。

Benchmark具體介紹

Benchmark構建過程

圖片

MEGA-Bench的構建過程始于任務分類樹的設計。首先定義了一個初步的分類樹,將任務按照大類劃分為“感知”、“規劃”和“推理”等頂層類別,每個大類下再細分為更具體的子類,如“文檔理解”、“應用理解”和“邏輯推理”等。這種自上而下的分類框架確保了任務覆蓋的廣度,并減少了重復任務的可能性。

接下來,MEGA-Bench團隊分配了不同的分類節點給標注專家進行具體任務的設計和創建。團隊的16位標注專家來自計算機科學、電子工程、生物統計等多個領域,負責在其分配的領域內精細化任務分類樹并添加具體任務。

每個標注專家可以對分類樹進行微調,例如新增或刪除任務節點,以保證任務的獨特性和多樣性。

為簡化標注過程,研究人員開發了一系列輔助工具,包括:

1. 交互式標注工具:該工具幫助標注人員定義任務格式,并自動生成標準化的JSON文件,從而確保所有任務的格式一致性。

2. 任務提交與審核平臺:通過GitHub平臺管理任務的提交、審核和討論流程,類似于NLP的BIG-bench的收集流程。標注人員可以通過提交拉取請求(Pull Request)的方式更新任務,核心貢獻者則負責審核并提供反饋。

3. 可視化工具:標注專家可以實時查看模型在各個任務上的表現,這不僅幫助他們理解任務的難度,還可以根據模型反饋改進任務質量。

整個標注過程分為兩個階段:

在第一階段中,每位標注專家被要求設計20個任務,確保數據源的多樣性并提供至少15個實例。團隊對提交的任務進行了初步審核,模型的表現結果也通過可視化平臺提供給標注人員,幫助他們調整任務的難度。

在第二階段中,團隊集體回顧了第一階段創建的任務,找出任務分布的偏差以指導后續的標注、平衡任務覆蓋,最終構建出505個高質量任務和約8,200個實例。

為了確保任務的標注質量,需要隨著新任務的增加,周期性的對最先進的多模態模型(如GPT-4o和Claude 3.5 Sonnet)進行評測,以便標注人員可以直觀了解每個任務的難度并適當調整。

例如,對于評分接近滿分的任務,要求標注人員增加任務的難度,以避免評測時無法區分模型能力的情況;對于平均評分幾乎為零分的任務,作者手動檢查是否存在標注錯誤或者不清晰的任務指令,并將這類標注樣本刪除。

經過多輪優化,MEGA-Bench最終成為一個涵蓋全面且高效的多模態評測套件,為研究人員提供了精確且豐富的模型能力分析。

多樣化的輸出格式評估指標

為了適應不同的輸出格式,MEGA-Bench開發了豐富的評估指標。主要包括:

1. 基于規則的評分:適用于單一答案或能夠通過規則驗證正確性的任務,包括選擇題,各種帶條件的文本匹配,代碼執行結果比較,等等。

2. LLM輔助評分:對于開放式任務,使用大型語言模型(LLM)輔助對模型生成的回答進行評分,以評估生成的準確性和流暢性。這種LLM-as-a-judge的評測方式在較新的大模型評測中已相當常見。

這種評估體系使MEGA-Bench能夠靈活應對多種輸出類型,并提高了評測的準確性和靈活性。所有任務被分成兩個子集,核心集(Core set)用基于規則的評分進行評測,開放集(Open-ended set)用LLM輔助評分。

下圖給出了一些任務輸出的例子以及對應的評測指標。在標注過程中,評測指標根據新增任務的需求而「按需實現」。

圖片

其他測評集的對比

圖片

MEGA-Bench包含505個真實任務,總計8,186個標注樣本。如上表所示,與現有多模態基準相比,其在數據源、輸入輸出格式、評估指標的多樣性和任務數量上都具備顯著優勢。

這種設計使得可以通過較小的成本得到詳盡的多維度模型分析報告,不僅提升了評測范圍的廣度,也讓模型評測更加經濟高效,為多模態模型的全面分析提供了可靠便捷的工具。

評測結果與分析

圖片

主要結果與多維度關鍵詞分析

在MEGA-Bench上,研究人員對22種多模態大模型進行了廣泛的評估,包括大型旗艦模型(Flagship models)和高效版模型(Efficienty models),深入分析了它們在不同任務和維度上的表現。以下是主要的評測結果和發現:

圖片

旗艦模型的表現

在旗艦級別的大模型中,新版的Claude 3.5 Sonnet和GPT-4o表現最為優異,兩者在多個任務中展現了極強的能力。

具體來說:

1. Claude 3.5 Sonnet在規劃、數學推理等任務中表現出色,尤其在規劃相關任務(如路徑規劃、邏輯推理)上略有優勢。

2. GPT-4o在信息提取和知識密集型任務中表現更好,展現了優異的自然語言理解和信息提取能力。總的來說,新版Claude 3.5 Sonnet和GPT-4o在整體評分上接近,差異小于0.1%

開源模型的競爭力

在開源模型中,Qwen2-VL的表現尤為突出。與部分閉源旗艦模型相比,Qwen2-VL在感知任務和信息提取方面的表現相當,甚至在信息提取類任務中超越了Gemini 1.5 Pro等部分閉源模型。

此外,Qwen2-VL在整體評分上領先其他開源模型約10%,成為當前開源多模態模型中的領先者。

高效版模型的表現

在參數較小的高效版模型中,Gemini 1.5 Flash總體表現最佳,尤其在科學和度量任務上取得了出色的分數。度量類任務包括對生成式AI結果質量的評分等,通常需要深層的多模態推理和常識判斷。

然而,Gemini 1.5 Flash在用戶界面相關的輸入和信息提取任務上的表現落后于GPT-4o mini。

盡管高效模型的性能不及旗艦級模型,但其較低的計算資源需求和高性價比使其在特定應用場景中具有重要應用價值。

思維鏈提示(CoT)的效果

評測顯示,思維鏈提示(Chain-of-Thought, CoT)對旗艦級閉源模型的推理能力有較顯著的提升。

具體而言,加入思維鏈提示后,Claude 3.5 Sonnet和GPT-4o等模型能夠生成更為詳盡的推理過程,從而提高了任務的完成質量。

然而,大部分開源模型在加入CoT提示后未能表現出明顯的改進,甚至在部分任務中因生成推理過程而影響了輸出格式的準確性。

總體上,CoT提示對閉源旗艦模型效果顯著,但對開源模型的幫助有限。

更多分析

圖片

任務樣本數量的影響

為了平衡評測的覆蓋廣度、標注成本,以及評測時的計算成本,MEGA-Bench在每個任務中平均包含約15個樣本,這一設置旨在優化評估效率,但是存在導致評測結果方差較大的可能性,作者對此進行更詳細的分析(上圖左)。

通過對任務樣本數量的實驗,可以發現隨著每個任務樣本數量的增加,模型評分的方差逐漸縮小。起初的下降速遞非常快,當樣本數量達到7個以上時,方差的下降幅度明顯減緩。

從11增加到15個樣本的過程中,方差減小已不明顯。這表明在現有樣本數量下,模型評分已具備較好的穩定性。

因此,MEGA-Bench通過增加任務的廣度而非單一任務的樣本數,在覆蓋范圍和評估成本之間找到了平衡,而且沒有因此影響到評測分數的穩定性。

錯誤分析

為了深入理解當前多模態模型的不足之處,作者手動對GPT-4o在255個任務的結果進行了詳細的錯誤分析。

上圖(右)的分析結果顯示,推理能力的缺失是模型在MEGA-Bench任務上失敗的主要原因。具體來說,模型在符號推理、空間和時間推理等復雜任務上表現較弱。

此外,模型還在感知任務中出現了較高比例的錯誤,這些任務通常涉及對視覺信息的精確理解和解析。并且,還可以觀察到模型在某些任務中未能遵循指令或缺乏知識背景,這些因素導致了錯誤的回答。

GPT-4o的錯誤分布揭示了當前的頂級多模態模型在復雜推理和跨模態理解方面的不足,為未來模型的改進提供了方向。

總結

MEGA-Bench是一個覆蓋廣泛、結構嚴謹的多模態評測套件,為全面評估多模態大模型的能力設立了新的標準。

通過多樣化的任務設計和多維度的評估指標,MEGA-Bench揭示了各類模型在實際應用中的優勢和不足。作者提供了交互式的可視化工具,便于研究者深入探索模型的表現。

此外,項目主頁提供了交互式可視化工具幫助分析,Hugging Face Space中的排行榜提供了最新的各模型詳細評分。


責任編輯:張燕妮 來源: 新智元
相關推薦

2009-05-11 15:53:39

開源LinuxUbuntu

2025-10-15 14:02:29

AI模型自動駕駛

2025-05-14 08:51:00

2025-05-28 11:55:56

模型開源框架

2025-07-31 02:00:15

谷歌測試AI模型

2025-11-11 13:50:17

2025-03-19 09:30:00

2024-10-14 14:10:00

大模型AI開源

2025-09-10 07:00:00

AIGenAI人工智能

2025-01-08 08:21:16

2025-06-16 14:39:56

模型開源框架

2015-04-23 16:28:06

開發項目編程習慣

2014-10-13 11:00:14

編程習慣不良開發項目

2014-09-24 10:18:29

開發者開發習慣

2023-12-04 13:40:09

AI訓練

2025-11-11 08:45:00

2024-01-22 13:59:00

模型訓練

2024-09-10 12:11:18

2024-08-30 15:19:22

2025-01-02 11:01:45

點贊
收藏

51CTO技術棧公眾號

26uuu亚洲综合色欧美 | 老牛嫩草一区二区三区日本| 亚洲国产精品女人久久久| 北条麻妃在线视频观看| 免费在线稳定资源站| 日韩精品一二区| 欧美成人sm免费视频| 国产精品一区二区人妻喷水| 欧美日韩免费观看视频| 国产精品久久二区二区| av蓝导航精品导航| 精品免费囯产一区二区三区 | 国产精品影视天天线| 久久影院中文字幕| 30一40一50老女人毛片| 视频欧美精品| 性感美女久久精品| 无码免费一区二区三区免费播放 | 欧美大片1688| 亚洲欧美日韩在线| 欧美高清性xxxxhd| 国内精品久久久久久久久久久| 宅男噜噜噜66一区二区| 日韩视频在线观看免费| 免费的av网站| 国产亚洲观看| 欧美亚洲综合久久| 成人午夜精品久久久久久久蜜臀| 午夜激情在线观看| 久久尤物电影视频在线观看| 亚洲va欧美va国产综合久久| 日本免费在线观看视频| 精品动漫3d一区二区三区免费| 中文字幕日韩在线观看| 国产精品久久无码| 97一区二区国产好的精华液| 欧美日韩国产综合一区二区| 国内外成人激情视频| 欧美videos另类精品| 欧美激情综合五月色丁香| 精品一区二区三区日本| 亚洲精品国产精品国| 六月婷婷色综合| 国产不卡一区二区在线播放| 一级免费在线观看| 欧美视频官网| 欧美成人精品一区二区三区| 长河落日免费高清观看| 久久av资源| 精品一区二区电影| 亚洲精品乱码久久久久久蜜桃图片| 91精品国产色综合久久不卡粉嫩| 欧美视频完全免费看| 成人久久久久久久久| 蜜桃av在线播放| 亚洲国产精品久久一线不卡| 日本久久久网站| 天堂av最新在线| 一区二区在线观看免费| 91九色国产ts另类人妖| 91精品久久| 亚洲精品久久嫩草网站秘色| 少妇久久久久久被弄到高潮| 羞羞视频在线观看免费| 一区二区三区久久| 欧美a级免费视频| 日本不卡影院| 亚洲成人免费av| 91成人在线观看喷潮教学| 黄色污网站在线观看| 色综合天天在线| 日本999视频| 男人亚洲天堂| 日韩一区二区三区四区五区六区| 麻豆免费在线观看视频| 精品丝袜久久| 亚洲全黄一级网站| 乱老熟女一区二区三区| 欧美在线三级| 高清一区二区三区日本久| 国产精品老女人| 日韩经典中文字幕一区| 91久久久久久久| 亚洲第一黄色片| 久久综合九色欧美综合狠狠| 亚洲午夜高清视频| 午夜成年人在线免费视频| 亚洲成av人影院在线观看网| 红桃av在线播放| 狠狠久久伊人中文字幕| 精品日韩在线观看| 91成年人网站| 欧美成人tv| 热99精品只有里视频精品| 亚洲天堂中文字幕在线| 福利91精品一区二区三区| 久久精品日产第一区二区三区精品版 | 国产精品毛片一区二区三区四区| 国产精品午夜免费| 日韩亚洲欧美一区二区| 成人欧美大片| 911国产精品| 91精品啪在线观看国产| 欧美一站二站| 国语自产精品视频在线看一大j8| 五月婷婷视频在线| 国产精品88888| 欧美性大战久久久久| 国产丝袜在线| 色综合久久天天| 一级黄色免费毛片| 精品久久精品| 欧美极品少妇xxxxⅹ喷水| 久久影视中文字幕| 成人综合婷婷国产精品久久蜜臀| 日韩理论片在线观看| 少女频道在线观看免费播放电视剧| 欧美日韩国产中文精品字幕自在自线| 777一区二区| 台湾佬综合网| 欧美激情2020午夜免费观看| 中文字幕日韩第一页| 99精品偷自拍| 亚洲乱码日产精品bd在线观看| 日本一道高清亚洲日美韩| 亚洲第一男人天堂| 国产又粗又长免费视频| 在线亚洲成人| 国产超碰91| 国产精品刘玥久久一区| 91国内精品野花午夜精品| 黄色免费看视频| 欧美成人69| 成人午夜两性视频| 一广人看www在线观看免费视频| 欧美日韩国产精品专区 | 2024国产精品视频| 久青草视频在线播放| 欧美高清一级片| 日韩在线不卡视频| 又骚又黄的视频| 欧美激情一区二区三区四区| av片中文字幕| 亚洲人成网亚洲欧洲无码| 午夜精品久久久久久99热软件| a天堂在线视频| 亚洲激情中文1区| 少妇性l交大片7724com| 欧美在线资源| 91av一区二区三区| 伊人手机在线| 欧美成人video| 欧美性猛交xxxxx少妇| 精品在线一区二区三区| 一区二区三区在线视频111| 高清欧美日韩| 日韩中文字幕亚洲| 国产精品久久久久久免费| 国产精品家庭影院| 成人亚洲免费视频| 亚洲一区色图| 成人黄色片视频网站| 久操av在线| 亚洲福利视频二区| 成人免费a视频| 久久美女艺术照精彩视频福利播放 | 国产高清av在线| 欧美午夜一区二区三区| 手机免费观看av| 国产在线观看免费一区| 男同互操gay射视频在线看| 精品精品视频| 国模视频一区二区三区| 艳母动漫在线看| 日本道精品一区二区三区| youjizz亚洲女人| 国产综合色在线视频区| 欧美视频在线第一页| 国产精品xxx在线观看| 人妖精品videosex性欧美| 成人精品一区二区| 91精品国产综合久久精品app| 久草视频免费播放| 久久久久久久一区| 天天做天天干天天操| 亚洲国产专区校园欧美| 麻豆av一区二区三区久久| 亚洲mmav| 久久成人亚洲精品| 亚洲人成色777777老人头| 欧美视频中文字幕| 亚洲一区 视频| 久久久99精品免费观看不卡| 色一情一区二区三区| 影音先锋中文字幕一区| 天堂精品视频| 成人看片爽爽爽| 国产精品美女主播| 国产精品国精产品一二| 国产一区二区三区在线| 国产高清视频免费| 91福利国产成人精品照片| 欧美人与禽zozzo禽性配| 久久综合久久综合亚洲| 日本一二三四区视频| 欧美亚洲自偷自偷| 国产精品视频一二三四区| 国产精品一区二区av日韩在线| 亚洲va国产va天堂va久久| 免费电影日韩网站| 欧美激情一区二区三区高清视频| 国产日本在线| 亚洲国产精品视频在线观看| 国产又黄又爽视频| 91国偷自产一区二区三区观看| 久久免费小视频| 中文字幕一区二区在线播放| 成人手机在线免费视频| 国产精品综合网| 午夜欧美福利视频| 亚洲一区亚洲| 国产va亚洲va在线va| 婷婷激情图片久久| 亚洲电影一二三区| 亚洲国产精品嫩草影院久久av| 亚洲影院污污.| 欧洲亚洲精品| 国产精品99久久99久久久二8| 51精品视频| 欧美国产亚洲视频| caopeng在线| 中文字幕久久精品| 国产一二三在线观看| 日韩电视剧免费观看网站| 亚洲欧美激情在线观看| 日韩午夜中文字幕| 国产男男gay网站| 欧美日韩国产精选| 中文字字幕在线中文乱码| 91国产丝袜在线播放| 精品国产乱子伦| 一本到高清视频免费精品| 国产精品免费av一区二区| 亚洲国产美女搞黄色| 久久婷婷综合国产| 亚洲综合在线免费观看| 欧美黄色免费在线观看| 亚洲男同性视频| www.xxxx日本| 亚洲精品福利视频网站| 亚洲色婷婷一区二区三区| 亚洲欧美另类久久久精品2019| 黑人狂躁日本娇小| 亚洲人成精品久久久久久| 麻豆明星ai换脸视频| 亚洲欧美一区二区三区国产精品 | 日本欧美国产在线| 手机看片久久| 国产精品高精视频免费| 99只有精品| 91九色国产视频| 日韩中文字幕| 国产日韩精品久久| 精品一区在线| 亚洲国产精品毛片| 久久久久亚洲| 精品国产一区二区三区无码| 亚洲精品乱码久久久久久蜜桃麻豆| 欧美 日韩 亚洲 一区| 先锋影音久久久| 色哟哟精品视频| 国产一区二区三区在线观看免费视频| 丰满少妇一区二区三区专区| 成年人网站91| www色com| 亚洲精品日产精品乱码不卡| 国产一级片久久| 日韩欧美成人免费视频| 中文在线字幕av| 日韩视频一区在线观看| 日韩一二三四| 色偷偷888欧美精品久久久| 中文字幕伦理免费在线视频| 久久久天堂国产精品女人| 欧美色网一区| 91社区国产高清| 色天下一区二区三区| 亚洲三级一区| 亚洲黄色精品| 狠狠操狠狠干视频| av一区二区久久| 欧美xxxx精品| 性做久久久久久久免费看| 成人免费视频国产免费| 日韩一区二区三免费高清| 欧美成人综合在线| 欧美精品日韩三级| 日韩av福利| 99在线看视频| 久久国产精品亚洲人一区二区三区| 真实国产乱子伦对白视频| 丝瓜av网站精品一区二区| 久久无码人妻一区二区三区| 久久久久久亚洲综合| 欧美黑吊大战白妞| 欧美日韩一区二区电影| 欧洲av在线播放| 日韩在线视频免费观看| 日本乱码一区二区三区不卡| 亚洲va电影大全| 久久成人综合| 久久精品网站视频| 成人激情免费电影网址| 国产三级精品三级观看| 日韩欧亚中文在线| 女人18毛片一区二区三区| x99av成人免费| 欧美91看片特黄aaaa| 岛国视频一区免费观看| 99成人超碰| 成人性生生活性生交12| 91在线观看污| 久久精品国产亚洲av无码娇色 | 韩国19禁主播vip福利视频| 4438五月综合| 在线观看一区二区三区三州| 久久精品网址| 亚洲一区二区三区无码久久| 亚洲综合自拍偷拍| www.色日本| 欧美乱大交做爰xxxⅹ性3| 亚洲伦理网站| 亚洲乱码一区二区三区| 日韩1区2区日韩1区2区| 亚洲精品视频久久久| 粉嫩老牛aⅴ一区二区三区| 欧美一级免费片| 欧美激情影音先锋| 日韩精品一级| 永久免费网站视频在线观看| 久久激情五月婷婷| 激情五月激情综合| 欧美久久久一区| 国产精品免费观看| 国产精品久久久久久久久久尿 | 久久99国产精品一区| 国精产品一区一区三区mba视频| 午夜激情福利电影| 欧美老肥妇做.爰bbww| 巨大荫蒂视频欧美大片| 成人精品久久久| 一本一道久久a久久精品蜜桃| 在线播放av中文字幕| 亚洲色图清纯唯美| 国产福利视频导航| 久久欧美在线电影| 色爱av综合网| 男人的天堂日韩| 国产精品丝袜久久久久久app| 亚洲天天综合网| 久久亚洲影音av资源网| 日韩有吗在线观看| www..com日韩| www国产精品av| 丁香社区五月天| 深夜福利国产精品| 精品视频在线观看网站| 亚洲精品久久久久久久蜜桃臀| 97精品久久久午夜一区二区三区| 精品免费囯产一区二区三区 | 精品国产一区二区三区免费 | 国内精品视频在线观看 | 日本一区二区欧美| 亚洲欧美在线一区| 欧美午夜三级| www.亚洲视频.com| 久久午夜免费电影| 在线视频播放大全| 欧美日本黄视频| 婷婷成人在线| 国内国产精品天干天干| 亚洲国产综合人成综合网站| 青青草在线免费观看| 国产一区二区丝袜| 精品动漫3d一区二区三区免费版| 成年人在线观看av| 91麻豆精品国产自产在线观看一区 | 成功精品影院| 国产三级日本三级在线播放| 亚洲少妇最新在线视频| 日韩一卡二卡在线| 国产精品久久久久久久av电影| 亚洲一区二区日韩| asian性开放少妇pics| 欧美日韩一区二区电影| 岛国在线视频网站| 在线无限看免费粉色视频| 99久久久无码国产精品| 国产乱叫456在线| 欧美在线一区二区三区四|