精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察

發布于 2025-7-31 07:21
瀏覽
0收藏

在AI應用不斷深入現實世界場景的當下,一個新問題開始浮出水面:計算機使用智能體,到底能為我們承擔多少真正的工作?面對日益復雜的桌面應用操作、人機協同任務,以及跨應用的使用習慣,傳統AI評估范式已顯力不從心。

過去,AI智能體多集中于網頁操作、自然語言生成或靜態任務執行,然而隨著VLM(視覺語言模型)與多模態技術的進步,系統開始具備理解界面元素、執行復合操作的能力。這類“計算機使用智能體”正在成為下一代人機協作工具的關鍵構件,應用范圍從辦公自動化到個人助手,再到RPA與低代碼開發,甚至擴展至教育、創意和安全領域。

然而,現有評測基準存在明顯短板。大多數基準要么過于抽象,無法反映真實操作難度;要么局限于特定平臺或單一任務類型,難以評估模型泛化能力與任務協同水平。更重要的是,它們缺乏對“自動化層級”的系統建模,無法揭示智能體在真實桌面場景中逐步接管任務所面臨的復雜挑戰。

7 月 28 日,復旦大學、上海AI實驗室、清華大學和香港大學的聯合研發團隊提出了一個看似簡單卻結構精妙的關鍵問題:智能體,能在“廣度”(不同任務和應用)與“深度”(自動化層級)上走多遠?這是一個兼顧擴展性與精細度的評估范式。

為回答這一問題,研究團隊構建了OS-MAP框架——一個兩維度的評估體系。第一維是自動化層級,從簡單的原子執行(L1)到復雜編排(L4),清晰刻畫任務結構與人機分工的演進過程;第二維是泛化范圍,評估模型在應用之間、任務類別之間的適應能力與穩健性。研究者將這一框架具體化為一套完整基準:涵蓋15款真實桌面應用、416項任務,涵蓋從文件管理到系統設置等典型用戶場景。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖1:OS-MAP定性評估矩陣,總結了不同類型的代理在兩個維度上的表現。通用模型顯示出很強的泛化能力,而場景專家擅長特定任務。主流計算機使用代理旨在平衡兩者,但仍面臨重大挑戰。

在這一廣泛覆蓋之下,團隊不僅執行了系統性的基線模型評估,還對失敗案例進行了深入分析,包括指令誤讀、目標識別錯位、回退策略缺失、工具使用能力不足等。這些分析不僅揭示了當前VLM模型在感知、邏輯推理和多步執行方面的結構性瓶頸,也為未來模型設計與任務分解機制的改進提供了寶貴洞察。

這項研發工作由來自中國大陸和香港的頂尖AI機構聯合完成。包括復旦大學、上海AI實驗室、清華大學和香港大學的多位研究者攜手合作,他們是Xuetian Chen, Yinghao Chen, Xinfeng Yuan, Zhuo Peng, Lu Chen, Yuekeng Li, Zhoujia Zhang, Yingqian Huang, Leyan Huang, Jiaqing Liang, Tianbao Xie, Zhiyong Wu, Qiushi Sun, Biqing Qi, Bowen Zhou,團隊成員橫跨視覺理解、語言建模、人機交互等多個領域。在開源精神的驅動下,他們還將全部代碼、數據集、實驗環境和任務腳本發布至GitHub(OS-Copilot/OS-Map),為學術界和產業界進一步推動桌面智能體發展提供了堅實基礎。

論文鏈接:https://arxiv.org/pdf/2507.19132

項目地址:https://github.com/OS-Copilot/OS-Map

1.評估框架設計?

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖2:OS-MAP構建在為日常計算機任務設計的可執行桌面環境上,集成了一套應用程序和工具。它通過處理任務初始化和成功驗證為可靠評估提供了基礎設施。代理通過GUI操作自主交互,由指令和屏幕截圖感知引導。

從淺到深:自動化層級的刻度尺

OS-MAP 所提出的自動化分級,是一次真正“貼近人類操作邏輯”的建模努力。它將所有智能體執行的任務操作劃分為四個層級,每一層的挑戰都愈加嚴峻。

L1 原子執行: 這是最基本的層級,涉及單步 GUI 操作,比如點擊按鈕、輸入文本、關閉窗口等。這一層主要考驗的是模型對界面元素的感知與動作映射能力。雖簡單,卻是構建更高層執行能力的地基。

L2 簡單規劃: 這里模型需要具備基本的任務規劃能力——能夠將多步操作串聯起來完成一個目標,但不會遇到動態條件或分支。例如,打開文件、復制內容、粘貼至新窗口。這一層開始引入邏輯鏈條,但仍在靜態路徑中活動。

L3 干擾適應: 現實世界里操作界面并不總是“干凈利落”,彈窗、全屏狀態、失效路徑等干擾接踵而至。此時模型需具備彈性執行能力,例如提前關閉彈窗、回退路徑、處理意外跳轉。這是對感知、判斷與回退策略的第一次綜合考驗。

L4 復雜編排: 這是一切高階桌面操作的“試煉場”。任務不僅跨應用,還需進行任務分解、依賴管理與工具協同。例如,打開郵件查找信息后,再填寫表單并進行數據計算。如果說前三層是“手、眼、腳”的協調練習,L4 則是“意識”的登場,它要求智能體能進行真正意義上的上下文融合與策略性操作。

從 L1 到 L4,構成了一條清晰、逐級遞進的能力曲線。而真正棘手的是,大多數現有智能體,在 L3 和 L4 上幾乎全軍覆沒。這不只是功能缺失,更暴露出智能架構在復雜任務結構下的系統性缺陷。

泛化范圍:能力的廣闊邊界

除了縱深的自動化層級,OS-MAP 還從“橫向廣度”進行能力建模,評估智能體在泛化上的適應能力。

應用內泛化關注同一桌面應用中不同任務的處理能力——例如,在 Chrome 中既要搜索信息,又要清理瀏覽記錄。而跨應用泛化則引入應用間的語境轉換,如從瀏覽器跳轉到文件管理器再完成上傳任務。這一維度對應的是“習慣遷移”和“語境切換”的能力。

同時,OS-MAP 涵蓋了極為多樣的任務類型,從系統設置、文件操作、網頁瀏覽、表單填寫到郵箱收發,真實反映了現代桌面使用的日常圖譜。這種“任務分布廣度”的設置不僅檢驗模型的知識能力,更考察其語義理解和界面感知的通用性。

OS-MAP 的兩維構架——縱向層級+橫向泛化,構成了覆蓋“深度”和“廣度”的能力雷達,也正是這個框架讓其成為對計算機使用智能體的最具實踐意義的評估基準。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖3:特定任務的自動化級別演示:每天旋轉壁紙。從用戶的角度來看,隨著自動化水平的提高,實現同樣的目標需要增加代理責任并減少用戶參與。任務執行變得更長、更復雜,反映了人類和智能體之間分工的轉變。

2.OS-MAP 基準構建

設計框架只是一部分,更關鍵的是如何將它落地成具備可執行性的評測系統。這就是 OS-MAP 基準的工程之美。

首先任務來源并非虛構,而是抽象自真實桌面使用場景,最終構建了416項明確可復現的任務,覆蓋15款常見應用,確保覆蓋面既廣又細。任務分類涵蓋瀏覽、文件管理、系統控制、文檔編輯等,是寫字樓和居家場景的真實縮影。

其次,實驗環境采用了動態桌面仿真系統,能精確模擬操作界面與行為反饋。每項任務配備原子動作接口,允許模型基于鼠標點擊、鍵盤輸入等基本操作完成流程,配合評測腳本實現標準化記錄與對比分析。

評估機制方面,研究者引入了明確的成功率定義——即任務是否按照目標完成,而不僅僅是是否做了某些動作。這點至關重要,因為它明確將“行為”與“結果”區分開來。此外,系統還記錄了失敗案例的分類與原因,這為后續的結構性改進提供了寶貴素材。

OS-MAP 不只是一個任務集合,更是一個具備高度復現性、擴展性和診斷能力的評測平臺。它打通了從場景抽象、動作建模到能力分析的全鏈條,為構建真正“能用、可控、有反饋”的智能體提供了可操作范式。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖4:OS-MAP基準測試中需求層次結構上的任務分配。

3.實驗設置與基線模型

各路智能體“集結上場”

研究團隊一共測試了三類智能體架構。

通用大模型如 GPT-4o、Gemini-2.5-Pro、Claude-3.7-Sonnet,它們擁有強大的語言理解和多模態能力,訓練數據廣泛,但往往不熟悉桌面操作的“肌肉記憶”。

GUI 專用模型比如 UI-TARS-72B 和 GUI-Actor-7B,則是為桌面交互而生——優化了感知與點擊路徑,有更高的視覺對齊精度和界面定位能力,但也容易在跨任務邏輯上“迷路”。

混合型架構(如 OS-ATLAS、UGround、Aguvis)采用了“規劃-執行”的分工,前端用 GPT-4o 等模型做任務規劃,后端 GUI agent 執行。這種設計在任務合理性上有所提升,但依然受到原始視覺模型執行力的約束。

怎么評?從成功率到人類對照組

評估指標分為兩個主維度。

自動化層級成功率:每個模型在 L1 到 L4 的任務上完成率

整體任務成功率:對 416 項任務的平均完成率

人類參考線:作為“頂配智能體”的對照標準,人類完成率為 71.9%,遠高于現有模型

這種設定不僅檢驗模型的局部能力,還對其在完整任務流程中的“持續表現”打分,相當于把 AI 拉到辦公室現場比拼——到底誰才是稱職的虛擬助理?

在實際運行中,研究者還需面對多種挑戰:

  • 部分任務需要高分辨率 GUI 截圖和原子操作控制,帶來計算資源的壓力
  • 模型 prompt 設計要針對每個任務進行微調,避免不合規指令和幻覺行為
  • 為了實現可復現性,任務環境需嚴格設定初始狀態與反饋機制

這是一場高保真、全鏈條的操作實測,而不是簡單的文本問答。

4.主要實驗結果

成績單來了,誰表現最好?

整體來看,智能體的“戰績”并不樂觀。

? GPT-4o 作為通用語言模型,在 L1 執行任務的成功率只有 12.0%,整體僅 1.9%

? Claude 和 InternVL 等模型更為低迷,有些在關鍵任務上幾乎顆粒無收

? Gemini-2.5-Pro 雖表現稍強,在 L2 達到 10.6%,但在 L4 編排任務上仍幾乎“熄火”

? 最亮眼的是 GUI-Actor-7B 和 UI-TARS-72B,在 L1 GUI 執行任務上接近人類表現(40–48%),但在 L3 和 L4 依然難以突破瓶頸

這也揭示出一個核心問題:當前智能體在表層執行力上已有成效,但缺乏真正的任務理解力與上下文協同能力。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

表:OS-MAP上計算機使用代理的成功率。我們展示了每個代理骨干在不同自動化級別的任務上的性能。專有VLM和開源VLM以顏色區分。在規劃接地設置中,GPT-4o用作規劃模型。

究竟“卡”在哪兒?

研究者對每個自動化層級都進行了失敗剖析。

L1 vs. L2 的落差:很多模型能執行單步點擊,但一旦涉及多步組合和路徑規劃,錯誤率陡升,說明短程邏輯的拼接尚未成熟

L3 適應性缺失:模型無法識別彈窗、全屏等環境干擾,也不具備回退機制。例如無法退出劇場模式導致控件無法訪問

L4 是終極難關:任務依賴關系錯亂,先填表后查郵件、跳過錢包余額直接交易等“反人類”操作頻頻發生。更甚者,模型還拒絕使用外部工具,選擇憑空計算數學問題——你沒看錯,是在瀏覽器里“內心演算”微積分!

最后這一組對比尤其醒目——在人類能完成 71.9% 的桌面任務的前提下,當前最佳模型也只能達到 11.5% 的成功率。這不僅是數量差距,更是能力斷層。

5.失敗案例深入分析

智能體的失敗表征

許多失敗,源自智能體無法像人類那樣“順手”完成操作。但更關鍵的是,它們錯的方式非常有代表性,幾乎可以歸結為兩個維度的通病。

首先,是通用性能力缺失。

有些模型完全忽略了操作指令的格式和范圍。例如,Claude 竟然嘗試執行 OPEN_FILE_EXPLORER 命令,而任務接口只接受原子鼠標鍵盤操作。這種行為像是把語言模型的直覺硬套到物理操作上——直覺雖強,規則卻不合。

另一個典型通病是幻覺現象:模型“相信”之前的步驟成功執行了,于是在錯誤狀態下繼續進行,甚至將系統窗口誤認為是網頁瀏覽器,并試圖搜索內容?;糜X不是簡單的識別錯誤,更像是“主觀編劇”,使整個任務流程誤入歧途。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖5-10:每個自動化級別的故障案例,反映了核心能力的瓶頸。

每個層級的“卡點”在哪里?

在 OS-MAP 中,每個自動化層級都有其專屬挑戰。

L1 層級:GUI 定位問題頻發 表面上看,執行一個按鈕點擊并不難。但研究發現,模型在識別非文本 UI 元素時很容易“翻車”。比如找不到圖標、拖拽區域不明確、按鈕位置錯亂……這都暴露了模型在 GUI 視覺 grounding 上的短板。

L2 層級:規劃有思路,卻?!芭芷?模型能制定計劃,卻容易陷入“相似迷宮”。比如,任務要求搜索 Taylor Swift 的所有專輯,但模型卻只搜索了其中一張專輯。此外,對于任務特定約束也常常忽略,比如只清除 YouTube 記錄,結果刪掉了全部瀏覽歷史。

L3 層級:適應力不足,回退機制缺失 這一層最大的問題在于抗干擾。模型面對彈窗時可能不知所措,面對全屏模式時無法退出以訪問菜單,甚至會在劇場模式下隱藏控制條導致任務無法繼續。更嚴重的是,對當前上下文狀態缺乏判斷,經常在錯誤窗口中執行無關操作。

L4 層級:邏輯結構松散,工具調用失敗 復雜任務如填寫表單前查看郵件、進行交易前查余額等,本應是流程規劃的高光時刻。但模型要么順序錯誤,要么不調用輔助工具,甚至用內部語言模型“頭腦算術”替代實際的網頁計算器——可以說是“拼湊式完成任務”,遠談不上策略性執行。

這些失敗,不是技術細節,而是能力架構的問題。它們揭示的是現有模型還沒有構建起對桌面環境的“動態心智”。

放在整個研究生態中,OS-MAP 有何獨特之處?

為了理解 OS-MAP 的位置,我們需要橫向看看業界已有的基準。

過去的桌面交互評測,多集中在靜態任務如網頁操作、命令行執行等。但 OS-MAP 提出了一個前所未有的完整視角:基于真實桌面環境、細致分級的自動化層次,并結合任務廣度,從操作“顆粒度”到任務“組織方式”,均有系統設計。這種兩維框架,前所未見。

更進一步,OS-MAP 還與當前智能體感知與規劃技術接軌。例如,它涵蓋了多模態識別(GUI視覺)、語言建模、上下文記憶、環境適應、層級規劃等多個子系統,這恰是新一代“agentic AI”的核心能力框架。

至于能力分級,本研究參考了自動駕駛的分級方法,融合了 AGI 能力廣度評估體系,最終構建出一個可量化、可對照、可復現的任務等級標準。這種方法論,使 OS-MAP 成為評估“通用桌面助手”性能的行業標桿。

6.未來方向

真實桌面世界,不是虛構的沙盒

盡管 OS-MAP 已覆蓋 416 項任務、15 款應用,其任務設計依然面臨一大挑戰,即如何持續擴展任務數量與類型,同時保持評測的科學性與可控性?

這類任務往往需要精準設定初始狀態,比如文件目錄結構、窗口排列、菜單位置等。要完成這樣的任務設計,研究團隊不得不進行大量“反向工程”,將真實任務轉化為仿真環境。這就像把復雜的辦公桌面一刀刀切割成實驗用場景——耗時耗力,也難以快速擴展。

其次,評測環境的現實感依舊受限。雖然當前 OS-MAP 環境支持模擬界面、操作反饋等元素,但真實桌面世界是高度個性化的——每位用戶有不同的賬戶信息、瀏覽習慣、內容定制?,F有的評測體系難以捕捉這種“人機共生”的復雜動態,也無法直接應用于如“文件命名習慣”或“多賬戶跳轉”等真實任務中。

還有一個不容忽視的問題:個性化場景的隱私性與可復制性沖突。許多高價值任務(例如微信文件共享、公司系統登錄)都牽涉用戶隱私,難以被廣泛收錄為開放基準。如何在安全、可復現的框架下設計“貼近現實”的任務,依然是一道技術與倫理的雙重考題。

讓智能體“更像人類助手”

突破以上限制,研究者提出了幾個未來的發展重點。

首先是引入強化學習與環境獎勵機制。現階段的智能體多依賴監督學習,但面對“彈窗干擾”“路徑失敗”等動態挑戰時,強化學習可以成為抗干擾與恢復策略的訓練利器。如果模型能根據環境反饋調整行為,那么它的適應性將更上一層樓。

其次是層級規劃機制的深入。OS-MAP 已在任務結構上實現分層評估,但智能體內部的規劃機制仍偏扁平。未來設計中,可以考慮類似任務樹、依賴圖等結構,讓智能體能像人類一樣“計劃并審查”自己每一步任務路徑。

最后,是多智能體系統的協同潛力。想象一個智能桌面助手由多個模塊組成:一個感知模塊識別界面元素,一個執行模塊負責點擊,一個策略模塊管理任務進度……如此“分工協作”將比單模型執行更高效、更穩健,也是大規模應用時的可擴展方案。(END)

參考資料:https://arxiv.org/pdf/2507.19132

本文轉載自???波動智能???,作者:FlerkenS

收藏
回復
舉報
回復
相關推薦
成年男女免费视频网站不卡| 成人av手机在线| 免费欧美一区| 欧美日韩大陆一区二区| 国产精品久久久久9999爆乳| 国产综合在线观看| 国产一区二区成人久久免费影院 | 美女视频在线免费| 国产人成亚洲第一网站在线播放| 成人在线播放av| 91午夜视频在线观看| 日韩在线观看| 亚洲国产欧美在线成人app| 黄色在线视频网| 国产99在线| 亚洲美女在线国产| 日韩精品在在线一区二区中文| 国产ts人妖调教重口男| 午夜影院日韩| 欧美激情国产高清| 9.1片黄在线观看| 青青草原在线亚洲| 欧美一区二区三区免费在线看| 久久久久人妻精品一区三寸| 久久国产精品黑丝| 亚洲欧美在线观看| 秋霞久久久久久一区二区| 后入内射欧美99二区视频| 久久国产生活片100| 欧美在线视频在线播放完整版免费观看| 182在线观看视频| 精品国产中文字幕第一页 | 国产玉足榨精视频在线观看| 成人网在线播放| 91亚洲精品久久久| 国产成人av免费| 免费日韩精品中文字幕视频在线| 久久91精品国产91久久久| 九九热久久免费视频| 激情五月综合| 亚洲免费视频网站| 久久午夜夜伦鲁鲁片| 精品福利一区| 亚洲精品在线免费播放| 手机看片国产精品| 电影一区中文字幕| 欧美区一区二区三区| 日本免费观看网站| 国产成人免费9x9x人网站视频| 欧美日韩在线另类| 国产一区二区网| 理论不卡电影大全神| 亚洲成人免费电影| 成年人网站国产| 国产白丝在线观看| 亚洲成人动漫在线观看| 国产免费一区二区视频| 丁香高清在线观看完整电影视频 | 中文字幕乱码在线观看| 日韩精彩视频在线观看| 国产精品电影在线观看| 波多野结衣影片| 蜜乳av一区二区三区| 成人黄色av网| 国产欧美一级片| 国产精品一卡二卡| 国产精品福利视频| 天天操天天爱天天干| 91在线观看高清| 欧美日韩精品免费观看视一区二区| 视频二区在线| 国产色婷婷亚洲99精品小说| 西游记1978| 麻豆视频在线| 一区二区三区久久| 777777av| 电影在线观看一区二区| 欧美高清激情brazzers| 佐佐木明希电影| 欧美男人操女人视频| 亚洲人av在线影院| 久久高清内射无套| 99国产精品久久久久久久| 欧美一区二区三区……| 亚洲 小说区 图片区| 国产一区二区三区四| 国产欧美日韩伦理| 国产大学生校花援交在线播放| 国产精品美女久久久久av爽李琼| 日本在线视频www色| 深夜在线视频| 欧美日本乱大交xxxxx| 国产精品嫩草69影院| 国语产色综合| 久久久久久久av| 欧美另类高清videos的特点| 国产丶欧美丶日本不卡视频| 欧美裸体网站| 性欧美videoshd高清| 日韩欧美主播在线| 亚洲福利精品视频| 精品国产午夜肉伦伦影院| 国产午夜精品全部视频播放| 国产这里有精品| 久久字幕精品一区| 成人影片在线播放| 国产小视频在线| 一区二区三区四区蜜桃| 激情网站五月天| 136福利精品导航| 中文字幕日韩av电影| 日本熟妇一区二区| 精品一区二区精品| 欧美一区二视频在线免费观看| caoporn97在线视频| 色菇凉天天综合网| 中文字幕人妻一区| 五月精品视频| 国产精品久久久久久搜索| 四虎永久在线精品免费网址| 亚洲欧美电影院| 91日韩视频在线观看| 欧美三级电影在线| 欧美激情手机在线视频 | 无码久久精品国产亚洲av影片| 丁香网亚洲国际| 在线播放 亚洲| 97精品国产综合久久久动漫日韩 | 拍真实国产伦偷精品| 91国偷自产一区二区开放时间 | 国产日本精品视频| 国产喷白浆一区二区三区| 国产一区二区在线视频播放| 欧美大片91| www高清在线视频日韩欧美| 国产性生活视频| 91在线免费播放| 91av资源网| 欧美网色网址| 91国自产精品中文字幕亚洲| 欧美自拍偷拍第一页| 一区二区三区四区不卡在线 | 中文字幕第一页在线播放| 久久综合av免费| 看av免费毛片手机播放| 美女视频亚洲色图| 91精品国产91久久久久| 三级网站免费观看| 精品久久久香蕉免费精品视频| 无码成人精品区在线观看| 黑人一区二区| 精品久久久三级| 日本不良网站在线观看| 日韩av在线网站| 黄色免费av网站| 国产亚洲自拍一区| 黄色三级视频片| 成人亚洲一区| 白浆视频在线观看| av不卡在线播放| 欧美成熟视频| xxxx黄色片| 怡红院在线播放| 7777精品伊人久久久大香线蕉完整版| av片在线免费看| 国产综合一区二区| 在线观看污视频| 999精品视频在这里| 欧美激情手机在线视频| 亚洲人妻一区二区| 一本一道久久a久久精品| 中文字幕网站在线观看| 美国欧美日韩国产在线播放| 日韩视频一二三| 成人h动漫精品一区二区器材| 久久久之久亚州精品露出| 五月天福利视频| 91久久精品一区二区二区| 亚洲少妇xxx| 丁香婷婷综合激情五月色| 欧美极品欧美精品欧美图片| 久久在线视频免费观看| 国产精品对白一区二区三区| 三级在线观看视频| 这里只有视频精品| 精品国产一级片| 欧美午夜影院在线视频| 开心激情五月网| www.日韩在线| 福利在线一区二区三区| 你懂的国产精品永久在线| 欧美福利精品| 国产精品一区二区三区av| 97涩涩爰在线观看亚洲| 97视频在线观看网站| 欧美va在线播放| 久久久久久无码精品大片| 亚洲女厕所小便bbb| 偷拍女澡堂一区二区三区| 国产综合色视频| 男人天堂1024| 欧美欧美天天天天操| 欧美一区1区三区3区公司 | 伊人久久大香线蕉综合四虎小说| 国产在线播放一区二区| 9999精品免费视频| 热久久99这里有精品| 永久免费网站在线| 一区二区三区www| 熟妇人妻一区二区三区四区 | 成人欧美在线视频| 蜜桃av在线| 欧美日本亚洲视频| 最新国产在线观看| 日韩不卡在线观看| 国内精品久久久久久久久久 | 亚洲成人黄色片| 欧美日韩久久一区| 久久久黄色大片| 性做久久久久久免费观看欧美| 天堂av免费在线| 国产日产精品1区| 亚洲观看黄色网| 国产91在线|亚洲| 成年人网站av| 麻豆精品国产91久久久久久| 情侣黄网站免费看| 国产亚洲精品久久久久婷婷瑜伽| 日韩一区二区高清视频| 女人天堂亚洲aⅴ在线观看| 亚洲精品中文字幕在线| 国产亚洲一区| 欧美日韩一区二| 最新精品国偷自产在线| 久久久com| 日韩欧美美女在线观看| 国产自产精品| 久久电影在线| 黑人另类av| 精品按摩偷拍| 免费99视频| 亚洲最大在线| 欧洲在线视频一区| 国产亚洲精品美女久久久久久久久久| 美女精品国产| 国产精品欧美日韩一区| 日本精品二区| 欧美偷拍自拍| 亚洲天堂电影网| 国产精品毛片一区二区在线看| 亚洲精品在线视频观看| 午夜国产一区二区| dy888午夜| 黄色日韩在线| 欧美亚洲国产成人| 麻豆亚洲精品| 天天色综合天天色| 韩国av一区二区三区| 自拍一级黄色片| 成人高清av在线| 亚洲黄色在线网站| 国产日韩精品久久久| 激情五月激情综合| 国产精品国模大尺度视频| 26uuu成人网| 亚洲自拍偷拍麻豆| 午夜精品三级久久久有码| 日本乱人伦aⅴ精品| 亚洲天堂男人网| 欧美一级一区二区| 天堂中文在线观看视频| 国产一区二区久久精品| 视频一区二区三区不卡| 欧美激情精品久久久久久大尺度 | 福利片在线观看| 爱福利视频一区| 国产理论电影在线| 国产精欧美一区二区三区| 国产原创一区| 成人黄动漫网站免费| 最近国产精品视频| 精品少妇人妻av一区二区| 一区二区三区精品视频在线观看| 久久综合久久色| 国产乱理伦片在线观看夜一区| 影音先锋黄色资源| 中文字幕亚洲一区二区va在线| 久久精品国产亚洲av麻豆色欲| 日本韩国欧美国产| 99久久夜色精品国产亚洲| 日韩毛片中文字幕| 欧美性天天影视| 日本精品久久久久久久| 99久久这里有精品| 久久综合九色99| 欧美1区视频| 奇米影音第四色| 99视频精品全部免费在线| 成人午夜免费影院| 欧美日韩国产黄| 国产视频一区二区三区四区五区| 亚洲精品国产品国语在线| 免费在线观看黄色网| 欧美在线视频观看| 日韩精品三级| 亚洲精品一区二区三区樱花 | 色猫av在线| 伦伦影院午夜日韩欧美限制| 欧美第一视频| 国产精品一区二区在线观看| 国产精品国产一区| 日韩av在线综合| 92精品国产成人观看免费| 国产97免费视频| 欧美三级中文字| 黄色av网址在线免费观看| 久久久久久久久国产| 黄色三级视频片| 日韩专区欧美专区| 黄色国产在线视频| 亚洲人123区| 一区二区乱子伦在线播放| 亚洲精品www久久久久久广东| 菠萝菠萝蜜在线视频免费观看| 国产精品第七十二页| 亚洲人成精品久久久| 无码人妻丰满熟妇区96| 成人午夜又粗又硬又大| 精品国产乱码久久久久久鸭王1| 欧美丝袜第三区| 九色视频在线观看免费播放| 91极品视频在线| 麻豆一区二区| 亚洲中文字幕无码av永久| 国产成人一级电影| 亚洲av无码一区二区三区在线| 欧美性感一类影片在线播放| 国产日产精品久久久久久婷婷| 97超碰国产精品女人人人爽| 成人爽a毛片| 国产综合中文字幕| 成人白浆超碰人人人人| 日本一区二区欧美| 亚洲成人aaa| 96av在线| 久久国产主播精品| 亚洲综合激情| 少妇大叫太粗太大爽一区二区| 色综合中文字幕国产| 国产在线免费观看| 国产精品男女猛烈高潮激情| 成人在线亚洲| 182午夜在线观看| 椎名由奈av一区二区三区| 国产精品一品二区三区的使用体验| 久久精品99无色码中文字幕| 国产不卡精品在线| 国产一二三区在线播放| 成人精品一区二区三区中文字幕| 四虎永久在线精品| 亚洲欧美日韩中文在线制服| 日本综合视频| 亚洲人成网站在线播放2019| 激情深爱一区二区| 五月婷婷一区二区| 亚洲国产精品va在线看黑人动漫 | 偷拍日韩校园综合在线| 无套内谢的新婚少妇国语播放| 青青草原成人在线视频| 欧美丝袜激情| 国产成人av片| 欧美性生交xxxxx久久久| 第九色区av在线| 91精品在线一区| 亚洲网站视频| 久久中文字幕精品| 日韩一区二区三区免费观看| hd国产人妖ts另类视频| 欧美日韩综合网| 国产资源在线一区| 日韩欧美亚洲视频| 综合网中文字幕| 视频一区日韩精品| 国产精品免费观看久久| 亚洲色图视频免费播放| 天堂中文在线资源| 国产啪精品视频网站| 亚洲国产免费| 青青青视频在线播放| 精品成a人在线观看| 国产a亚洲精品| 欧美视频在线观看网站| 国产精品女主播在线观看| 亚洲va欧美va| 国产精品主播视频| 99热这里只有精品8| 永久免费未视频| 亚洲激情自拍图| 亚洲欧美在线综合| 777米奇影视第四色|