精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

卷起來!讓智能體評估智能體,Meta發(fā)布Agent-as-a-Judge

人工智能 新聞
微軟發(fā)布了 Copilot,Apple 將 Apple Intelligence 接入了 OpenAI 以增強 Siri。多智能體也是 OpenAI 未來重要的研究方向之一,這家公司的最新成果 ——Swarm,一個實驗性質(zhì)的多智能體編排框架在開源后引起了熱烈討論,有網(wǎng)友表示這能幫助簡化許多潛在多智能體用例的工作流程。

本論文作者主要包括德國計算機科學(xué)家、LSTM 之父 Jürgen Schmidhuber;Meta AI 研究團隊(FAIR)研究科學(xué)家總監(jiān)田淵棟,他負(fù)責(zé)領(lǐng)導(dǎo)大語言模型(LLMs)在推理、規(guī)劃和決策方面的研究團隊,主導(dǎo)了 OpenGo、StreamingLLM 和 GaLore 項目,專注于提升大模型的訓(xùn)練和推理效率;Vikas Chandra,Meta Reality Lab AI 負(fù)責(zé)人;諸葛鳴晨,Meta 研究科學(xué)家實習(xí)生,同時在沙特阿卜杜拉國王科技大學(xué)(KAUST)攻讀博士三年級,師從Jürgen Schmidhuber,GPTSwarm 第一作者,MetaGPT 共同第一作者;Zechun Li,Meta Reality Lab 研究科學(xué)家,MobileLLM 的第一作者;Yunyang Xiong,Meta Reality Lab 高級研究科學(xué)家,EfficientSAM 第一作者。

如果說去年大廠的競爭焦點是 LLM,那么今年,各大科技公司紛紛推出了各自的智能體應(yīng)用。

微軟發(fā)布了 Copilot,Apple 將 Apple Intelligence 接入了 OpenAI 以增強 Siri。多智能體也是 OpenAI 未來重要的研究方向之一,這家公司的最新成果 ——Swarm,一個實驗性質(zhì)的多智能體編排框架在開源后引起了熱烈討論,有網(wǎng)友表示這能幫助簡化許多潛在多智能體用例的工作流程。

扎克伯格更是斷言:「AI 智能體的數(shù)量可能會達到數(shù)十億,最終甚至超過人類。」在 Meta Connect 2024大會上,Meta 推出了接入 Llama 3.2 的智能眼鏡 Orion 和升級版 Quest 3S,顯示出智能體正在迅速滲透進 Meta 的各個應(yīng)用領(lǐng)域。

圖片

近日,Meta 提出了 Agent-as-a-Judge 的概念,被視為智能體優(yōu)化方面的又一重要成果。傳統(tǒng)的智能體評估方式往往只關(guān)注最終結(jié)果,忽略了執(zhí)行過程中的關(guān)鍵細節(jié),或依賴大量人力進行評估。為了解決這一痛點,Meta 推出了用智能體評估智能體的新方法,使評估過程更加靈活且自動化。

圖片

該框架在 LLM-as-a-Judge 的基礎(chǔ)上進行了升級,增加了中間反饋功能,確保任務(wù)的每個環(huán)節(jié)都能得到精準(zhǔn)評估與優(yōu)化,同時還能有效模擬并接近人類反饋。

圖片

  • 論文標(biāo)題:Agent-as-a-Judge: Evaluate Agents with Agents
  • 論文地址:https://arxiv.org/pdf/2410.10934
  • 項目地址:https://github.com/metauto-ai/agent-as-a-judge

為了克服現(xiàn)有基準(zhǔn)存在的問題,并為 Agent-as-a-Judge 提供一個概念驗證測試平臺,研究者還提出了 DevAI,一個包含 55 項現(xiàn)實自動人工智能開發(fā)任務(wù)的新基準(zhǔn)。它包括豐富的手動注釋,如總共 365 個分層用戶需求。

Agent-as-a-Judge:智能體評估智能體

圖片

Agent-as-a-Judge 框架最大的亮點在于其與人類評估者的高度一致性。在實驗中,該框架的評估結(jié)果與人類專家的對齊率高達 90.44%,遠超 LLM-as-a-Judge 的 70.76%。這一結(jié)果表明,智能體在處理復(fù)雜任務(wù)時,能夠像人類一樣精確地判斷并修復(fù)問題,極大地減少了對人工評估的依賴,同時顯著提高了效率。

顯著的效率提升。實驗表明,Agent-as-a-Judge 在效率上也具有明顯優(yōu)勢。與人類評估者耗費 86.5 小時相比,Agent-as-a-Judge 僅需 118.43 分鐘就能完成相同任務(wù),大幅節(jié)省了時間和成本。評估 55 個任務(wù)的總成本僅為 30.58 美元,平均每個任務(wù)的評估費用僅為 0.55 美元,顯示了極高的性價比和工作效率。

填補評估中的反饋空白。當(dāng)前,智能體評估方法普遍缺乏中間反饋機制,只關(guān)注最終結(jié)果,忽視了任務(wù)執(zhí)行中的關(guān)鍵步驟。智能體在解決復(fù)雜問題時,通常像人類一樣,逐步思考并解決問題。因此,評估不僅應(yīng)該關(guān)注結(jié)果,還需考察每個步驟的思維過程和行為軌跡。Agent-as-a-Judge 通過提供中間反饋,填補了這一空白,標(biāo)志著智能體評估進入了一個新的階段。

數(shù)據(jù)集挑戰(zhàn)與系統(tǒng)表現(xiàn)。實驗還揭示,即使是表現(xiàn)較好的智能體系統(tǒng)(如 GPT-Pilot 和 OpenHands)也僅能滿足 DevAI 數(shù)據(jù)集中約 29% 的任務(wù)需求,任務(wù)完成率有限,凸顯了該數(shù)據(jù)集的挑戰(zhàn)性。在與人類專家評估的對比中,Agent-as-a-Judge 表現(xiàn)出色,達到了 90% 的對齊率,而 LLM-as-a-Judge 僅為 70%。更值得注意的是,Agent-as-a-Judge 的表現(xiàn)甚至優(yōu)于單個專家評估者,意味著在某些情況下,該框架不僅能夠替代人類評估,還可能更加有效。

高性價比與潛力。通過節(jié)省 97.72% 的時間和 97.64% 的成本,Agent-as-a-Judge 展示了其在 AI 評估中的巨大潛力。它為智能體技術(shù)的發(fā)展提供了強有力的支持,標(biāo)志著 AI 評估工具邁向了更高效和低成本的新紀(jì)元。

行業(yè)趨勢與 Cognition AI。值得注意的是,近期獲得融資的 Cognition AI 也采取了類似思路,即使用智能體來評估智能體,這顯示出這一概念正在成為業(yè)界的一個重要趨勢(更多信息請參見:https://www.cognition.ai/blog/evaluating-coding-agents)。

圖片

綜上,Agent-as-a-Judge 的提出有如下價值:

(1)智能體自我改進的中間反饋機制

Agent-as-a-Judge 的一個核心優(yōu)勢在于其提供的中間反饋,這對于實現(xiàn)智能體的高效優(yōu)化至關(guān)重要。盡管在本研究中這一潛力尚未被充分發(fā)掘,但它的作用已經(jīng)初見端倪。通過學(xué)習(xí)輔助獎勵函數(shù),能夠解決強化學(xué)習(xí)中的稀疏獎勵問題,提供關(guān)鍵的中間反饋。Agent-as-a-Judge 框架的亮點在于,它使智能體在處理復(fù)雜、多階段問題時,能夠?qū)崟r發(fā)現(xiàn)并修復(fù)解決方案中的問題,而傳統(tǒng)的延遲反饋機制難以做到這一點。引入 Agent-as-a-Judge 后,為構(gòu)建智能體版本的過程監(jiān)督獎勵模型(PRM)打開了大門,從而進一步提升智能體的優(yōu)化效率。

(2)由 Agent-as-a-Judge 驅(qū)動的飛輪效應(yīng)

Agent-as-a-Judge 和被評估智能體之間的相互改進,通過不斷的迭代反饋逐步演進,這一循環(huán)展示了廣闊的發(fā)展前景。通過將 Agent-as-a-Judge 作為核心機制,或許能夠催生出一種智能體自我博弈系統(tǒng)。隨著 Agent-as-a-Judge 與被評估智能體的持續(xù)交互,這種過程可能會產(chǎn)生飛輪效應(yīng) —— 每次改進相互強化,從而不斷推動性能的提升。這種迭代不僅能增強智能體系統(tǒng)的能力,還可能成為 LLM 推理數(shù)據(jù)的重要補充,有助于將智能體的能力更好地嵌入基礎(chǔ)模型中,進一步拓展智能體系統(tǒng)的潛力。

DevAI:從用戶角度出發(fā)的 AI 自動化數(shù)據(jù)集

過去一年中,LLM 智能體系統(tǒng)的能力顯著提升,從解決簡單的「玩具問題」逐步擴展到處理復(fù)雜的實際任務(wù)。然而,大多數(shù)現(xiàn)有的評估方法和數(shù)據(jù)集仍然基于為基礎(chǔ)模型設(shè)計的標(biāo)準(zhǔn),難以全面反映智能體在現(xiàn)實任務(wù)中的表現(xiàn)和挑戰(zhàn)。以 HumanEval 和 MBPP 等數(shù)據(jù)集為例,盡管它們在評估基礎(chǔ)模型的算法能力方面有效,但在代碼生成等領(lǐng)域,現(xiàn)有方法過于依賴最終結(jié)果,無法捕捉開發(fā)者在現(xiàn)實任務(wù)中遇到的復(fù)雜性和動態(tài)過程。

圖片

盡管 SWE-Bench 嘗試引入更接近現(xiàn)實的評估標(biāo)準(zhǔn),但它依然主要依賴「解決率」(resolve rate),這一指標(biāo)未能提供開發(fā)過程中每個階段的具體反饋,也難以捕捉智能體系統(tǒng)的動態(tài)表現(xiàn)。因此,這類評估標(biāo)準(zhǔn)無法準(zhǔn)確反映智能體在實際任務(wù)中的真實能力。

圖片

相關(guān)研究甚至表明,即使不具備智能體特性,模型也能達到 27% 的解決率。此外,激烈的競爭還引發(fā)了對 SWE-Bench 得分真實性的擔(dān)憂,許多高分可能通過對獨立任務(wù)的過擬合獲得,無法真實反映智能體的實際能力。

鑒于此,迫切需要新的評估方法來彌補這些不足。為此,Meta 推出了專門為智能體系統(tǒng)設(shè)計的 DevAI 數(shù)據(jù)集。DevAI 涵蓋了 55 個 AI 開發(fā)任務(wù),涉及監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、計算機視覺和自然語言處理等領(lǐng)域。每個任務(wù)包含用戶查詢、365 個任務(wù)需求和 125 個偏好標(biāo)準(zhǔn)。

與傳統(tǒng)評估方法不同,DevAI 不僅關(guān)注任務(wù)的最終結(jié)果,還跟蹤并評估任務(wù)執(zhí)行過程中的每個階段,從而提供更全面的反饋(圖 4 所示)。雖然這些任務(wù)規(guī)模相對較小,但它們真實反映了開發(fā)中的實際問題,且計算成本較低,適合廣泛應(yīng)用。值得注意的是,DevAI 不關(guān)注「玩具」數(shù)據(jù)集(如 FashionMNIST)上的高分表現(xiàn),而更注重智能體在處理現(xiàn)實任務(wù)中的能力。此外,DevAI 采用有向無環(huán)圖(DAG)結(jié)構(gòu)排列任務(wù)需求,確保評估具備層次性,不再依賴簡單的成功或失敗判斷,而是要求智能體具備更深入的解決問題能力。未來,代碼生成領(lǐng)域的標(biāo)準(zhǔn)評估方法可能會采用類似 DevAI 這樣的數(shù)據(jù)集,提供中間反饋,以模塊化提升智能體的能力;在能力提升后,使用 OpenAI 的 MLE-Bench 進一步評估智能體解決復(fù)雜問題的能力。

收集人類專家評估

人類評估設(shè)置

在完成基線執(zhí)行結(jié)果和基本統(tǒng)計分析后,研究團隊邀請了三位具備 5 年以上 AI 開發(fā)經(jīng)驗人類專家評估員(匿名為 231a、38bb 和 cn90)對 AI 開發(fā)者的基線輸出進行審查,評估每項需求是否得到了滿足。評估分為兩輪。為了盡量捕捉人類評估中常見的偏差(模擬實際部署場景),在第一輪中,評估員討論了基本標(biāo)準(zhǔn)。雖然允許評估員帶有個人偏好,但評估過程需基于統(tǒng)一的標(biāo)準(zhǔn)進行。在第一輪評估完成后(總計約 58 小時),評估員再次進行討論,進一步修正和達成一致意見,確保評估結(jié)果更加統(tǒng)一和一致。這一過程共耗時 28.5 小時,最終的共識作為每種方法的最終人類評估結(jié)果。

圖片

圖片

性能分析。實驗結(jié)果顯示(如表 2),表現(xiàn)最好的兩種方法 ——GPT-Pilot 和 OpenHands—— 僅能滿足約 29% 的需求(忽略前提條件后為 44%),且僅在一個任務(wù)中滿足了所有要求。這表明 DevAI 為當(dāng)前及未來的智能體方法設(shè)定了較高的挑戰(zhàn)性。此外,正如第 2 節(jié)所討論的,DevAI 不僅揭示了任務(wù)最終結(jié)果,還通過反饋揭示了智能體在任務(wù)過程中出現(xiàn)的問題,為評估提供了更豐富的層次。

錯誤分析。在實驗中,評估員在初步評估后進行了深入辯論,直到他們對每個任務(wù)的需求達成一致意見。共識評估(consensus)通過這種方式模擬實際情況,減少了個體評估中的偏差。在 Human-as-a-Judge 框架下,評估員可以通過討論和證據(jù)修正自己的判斷,從而調(diào)整評估結(jié)果。這種方式也用來近似估計個體的錯誤率。理論上,集體討論達成的共識應(yīng)比任何個體評估更接近真實結(jié)果。

圖片

雖然共識評估可能并不完美(某些錯誤仍然存在),但相較于個體評估,理論上共識評估應(yīng)更接近真實結(jié)果。如圖 5 所示,實驗結(jié)果證實了這一假設(shè)。盡管評估員之間的錯誤率有所不同,但多數(shù)投票有效地修正了大部分錯誤。例如,評估員 cn90 在評估 GPT-Pilot 時犯下了最多的錯誤(錯誤率達 23.77%)。然而,通過多數(shù)投票(majority vote),三位評估員的整體錯誤率降低至 6.01%,顯示了多數(shù)投票在減少評估偏差方面的優(yōu)勢。

結(jié)論。人類評估中的錯誤是不可避免的。為減少這些錯誤,研究提出了兩種策略。第一,像本研究一樣,在每次評估后引入討論環(huán)節(jié),評估員可以根據(jù)新的證據(jù)調(diào)整他們的判斷。這一方法在評估員數(shù)量較少時尤其有效,因為小組評估中的多數(shù)投票仍可能產(chǎn)生一定誤差(如圖 5 所示,相比共識評估大約有 5% 的錯誤率)。第二,組建更大的專家團隊來提高評估的準(zhǔn)確性。研究表明,當(dāng)評估員人數(shù)超過 5 人時,評估準(zhǔn)確性有望超過 50%。然而,由于動員更多專家的成本較高,實踐中這種方法并不總是可行。因此,本研究更傾向于通過討論和共識投票來減少評估中的偏差。

使用

目前,作者已在 GitHub 上提供了開源代碼,支持對任意工作區(qū)(workspace)進行提問,并通過 Agent-as-a-Judge 功能在 DevAI 數(shù)據(jù)集上進行自動評估。未來的開源智能體評估將進一步改進,首先利用 DevAI 對中間過程進行判斷和優(yōu)化,最終通過類似 MLE-Bench 的工具測試智能體的整體性能。

圖片

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-08-18 15:08:16

智能AI

2024-10-28 08:50:00

2021-12-16 09:52:18

云計算行業(yè)科技

2025-05-20 08:00:45

2025-05-27 02:00:00

2025-01-03 11:02:38

OpenAIAgent大模型

2025-05-19 09:10:00

2025-07-03 09:27:57

2023-12-26 12:12:01

模型訓(xùn)練

2025-07-15 04:00:00

AI智能體人工智能

2024-05-29 12:13:50

2025-04-01 08:05:00

智能體人工智能MCP
點贊
收藏

51CTO技術(shù)棧公眾號

日本a在线免费观看| 91精品啪在线观看麻豆免费| 丰满少妇一区二区| 欧美一级做一级爱a做片性| 亚洲视频在线一区| 国产日本一区二区三区| 国产美女www爽爽爽| 这里只有精品在线| 亚洲欧美日本另类| 三级黄色片免费观看| 国产精欧美一区二区三区蓝颜男同| 国产精品视频一二三| aa成人免费视频| 亚洲国产精品无码久久久| 91av精品| 伊人精品在线观看| 国产精品久久AV无码| www.久久久.com| 色狠狠av一区二区三区| 国产青草视频在线观看| 日本中文字幕在线看| 99九九99九九九视频精品| 成人a在线视频| 国产免费www| 国产日韩免费| 欧美多人乱p欧美4p久久| 人与嘼交av免费| 亚洲人成网www| 精品91自产拍在线观看一区| 亚洲一区二区在线视频观看| 欧美大片高清| 精品福利一区二区| 真人抽搐一进一出视频| www久久日com| 国产精品国产自产拍高清av王其 | 国语对白做受69| 91麻豆精品成人一区二区| 国产永久精品大片wwwapp| 亚洲精品少妇网址| 少妇一级淫片免费放播放| 91麻豆精品国产91久久久久推荐资源| 欧美男生操女生| 日韩精品你懂的| 亚洲www.| 在线观看91视频| 韩国一区二区av| 卡通欧美亚洲| 91豆麻精品91久久久久久| 人妻熟女一二三区夜夜爱| av中文字幕在线观看第一页| 亚洲国产精品自拍| 久久久性生活视频| av中文资源在线资源免费观看| 亚洲一区影音先锋| 福利视频一区二区三区四区| av影院在线免费观看| 红桃视频成人在线观看| 波多野结衣50连登视频| 美女100%一区| 欧美午夜不卡在线观看免费| 五月婷婷之婷婷| 国产视频网站一区二区三区| 欧美日韩国产高清一区二区三区| 草草久久久无码国产专区| 亚洲黄色网址| 欧美午夜免费电影| 手机免费看av网站| 亚洲精品一区二区三区在线| 亚洲国产小视频| 能免费看av的网站| 日韩一区电影| 欧美精品999| 国产成人无码精品久在线观看 | 国产美女视频免费看| 国产一区二区三区视频在线| 日韩精品一区二区三区老鸭窝| 完美搭档在线观看| 国产成人精品三级高清久久91| 伊人男人综合视频网| 91香蕉视频在线播放| 亚洲黄色免费| 国产精品美女无圣光视频| 91丨九色丨蝌蚪丨对白| 成a人片亚洲日本久久| 欧美成人蜜桃| av免费在线观| 欧美视频在线观看免费| 成 人 黄 色 小说网站 s色| 99久久香蕉| 国产一区二区三区精品久久久| 国产日韩欧美在线观看视频| 亚洲伊人网站| 91久久中文字幕| 视频在线观看你懂的| 国产精品久久久久久久裸模| 成年人网站国产| 8av国产精品爽爽ⅴa在线观看| 欧美一区二区三区视频| 亚洲第一香蕉网| 欧美在线看片| 国产精品久久久久久久久久久久久| 精品国自产拍在线观看| 久久九九国产精品| 大西瓜av在线| 人人玩人人添人人澡欧美| 亚洲黄色免费三级| 26uuu成人网| 久久综合网络一区二区| 国产传媒一区二区三区| 1024免费在线视频| 欧美性猛交xxxx乱大交3| 精品国产午夜福利在线观看| 欧美日本成人| 性欧美视频videos6一9| 亚洲一卡二卡在线| 国产亚洲欧洲997久久综合| 亚洲精品蜜桃久久久久久| 亚洲男人在线| 中文字幕久精品免费视频| 黄色片免费观看视频| 国产suv一区二区三区88区| 亚洲精品乱码久久久久久蜜桃91| 亚洲一级少妇| 精品对白一区国产伦| 成人自拍小视频| 久久精品免费观看| 日韩激情视频| 欧美7777| 亚洲精品永久免费| 国产精品久久久免费视频| 成人精品国产福利| 99久久久精品视频| 999久久久久久久久6666| 久久精品国产亚洲一区二区| 又骚又黄的视频| 国产精品午夜电影| 蜜桃免费在线视频| 日韩精品2区| 国产精品免费电影| 91最新在线| 欧美日韩精品一区二区三区| 天天操天天舔天天射| 老司机久久99久久精品播放免费| 看欧美日韩国产| 美女av在线免费看| 国产丝袜一区二区三区| 精品国产一区二区三区四| 久久久亚洲高清| 99免费视频观看| 成人一二三区| 国产精品香蕉国产| 久久久久久久久免费视频| 67194成人在线观看| 国产va在线播放| 国产xxx精品视频大全| 欧美综合在线播放| 天堂日韩电影| 国产精品黄色av| 日本免费视频在线观看| 欧美色爱综合网| 成人在线观看小视频| 国产精品亚洲视频| av网站大全免费| 久操成人av| 国产欧美日韩视频| jizz性欧美| 亚洲国产欧美一区二区丝袜黑人 | 亚洲不卡1区| 日本在线中文字幕一区二区三区| 这里只有精品在线播放| 国产三级第一页| 一级精品视频在线观看宜春院| 中文成人无字幕乱码精品区| 久久一区二区三区四区五区 | 国产精品一 二 三| 最新欧美色图| 久久伊人精品天天| 十八禁一区二区三区| 在线视频你懂得一区| 国产一二三区精品| 99久久精品久久久久久清纯| 天堂网在线免费观看| 黄色亚洲精品| 日韩av免费电影| 日韩精品成人在线观看| 2020国产精品视频| 免费大片黄在线观看视频网站| 欧美www视频| 51国产偷自视频区视频| 亚洲图片激情小说| 网站免费在线观看| 国产麻豆视频一区二区| 美女av免费在线观看| 国产精品国内免费一区二区三区| 国产乱人伦精品一区二区| av一区在线播放| 国语自产精品视频在免费| av一本在线| 亚洲精品国产精品国产自| 国产又粗又猛又黄又爽无遮挡| 亚洲国产一区二区视频| 精品视频第一页| 2欧美一区二区三区在线观看视频| 91在线第一页| 日韩电影在线一区二区三区| 欧美大黑帍在线播放| 色婷婷亚洲mv天堂mv在影片| 久久久亚洲综合网站| 国产亚洲高清在线观看| 国产精品第1页| 日韩激情电影| 久久久免费精品| 超碰在线最新| 色先锋资源久久综合5566| 日韩美女一级视频| 精品国产免费一区二区三区香蕉| 一级做a爱片性色毛片| 欧美天堂在线观看| www.youjizz.com亚洲| 亚洲欧美激情在线| 国产小视频你懂的| 国产精品色在线| 免费看91的网站| 久久精品视频一区二区三区| 色婷婷精品久久二区二区密| 国产黑丝在线一区二区三区| 网站在线你懂的| 久久国产精品99久久久久久老狼| 91看片就是不一样| 国产情侣一区| 欧美韩国日本在线| 香蕉国产精品偷在线观看不卡| 97视频久久久| 国产精品一页| 日本精品一区在线观看| 国产亚洲成人一区| 国产特级黄色大片| 国产亚洲精品久久久久婷婷瑜伽| 日韩人妻无码精品久久久不卡| 欧美日韩三区| 免费视频爱爱太爽了| 亚洲手机视频| 成人免费观看cn| 国产亚洲在线观看| 日韩精品一区二区三区色欲av| 香蕉久久a毛片| 美女一区二区三区视频| 日本成人在线一区| 91视频这里只有精品| 激情丁香综合五月| 亚洲男人天堂2021| 国产91高潮流白浆在线麻豆 | 国产裸体无遮挡| 日韩一区二区免费在线电影| 精品久久人妻av中文字幕| 精品欧美黑人一区二区三区| 免费观看黄色一级视频| 日韩av网址在线| 免费在线观看一级毛片| 国产一区二区三区毛片| 国产一二区在线| 欧美国产日韩一区二区在线观看| 国产高清中文字幕在线| 热久久免费国产视频| 黄色欧美视频| 亚洲自拍偷拍色图| 偷拍视屏一区| 一区二区精品免费视频| 欧美精品1区| 六月丁香婷婷激情| 精品亚洲国内自在自线福利| 一区二区三区人妻| 97久久久精品综合88久久| 天天干天天舔天天操| 亚洲日本青草视频在线怡红院| 久草免费在线视频观看| 欧美性猛交xxxx乱大交| a天堂视频在线| 日韩精品免费在线| 男人天堂久久久| 午夜精品久久久久久久99热| 国产精品蜜月aⅴ在线| 成人女人免费毛片| 欧洲激情综合| 欧美无砖专区免费| 日本aⅴ免费视频一区二区三区| 精品国产午夜福利在线观看| 久久美女高清视频| 日韩一级片av| 91久久精品一区二区二区| 国产黄色高清视频| 国产一区二区精品丝袜| 91制片在线观看| 91麻豆国产精品| 宅男在线一区| 菠萝蜜视频在线观看入口| 日韩成人av影视| 91传媒理伦片在线观看| 中文字幕中文字幕在线一区 | 日本中文在线视频| 欧美性69xxxx肥| 性做久久久久久久久久| 在线观看欧美日韩国产| 欧美三级网站| 91视频免费进入| 99久久夜色精品国产亚洲狼| 成年人免费在线播放| 国产成人8x视频一区二区| 亚洲精品天堂网| 精品久久久久久国产| 精品久久在线观看| 久久精品中文字幕免费mv| 成人看片网页| 欧美日本国产精品| 亚洲国产专区| 成人做爰69片免费| 亚洲欧美电影院| 一区二区视频网站| 亚洲视频自拍偷拍| 超碰aⅴ人人做人人爽欧美| 成人区精品一区二区| 天天色综合色| 国产精品自拍视频在线| 亚洲国产电影在线观看| 中文字幕xxxx| 亚洲四色影视在线观看| 伊人色综合一区二区三区影院视频| 国产精品手机视频| 国产精品第十页| 2018国产精品| 一区二区国产视频| 国产suv精品一区二区69| 久久视频在线观看免费| 亚洲aⅴ网站| 天天做天天爱天天高潮| 精品一区二区三区在线视频| 国产成人在线网址| 91精品国产丝袜白色高跟鞋| 毛片在线播放a| 亚洲综合在线做性| 欧美日韩国产欧| 欧美老女人bb| 亚洲国产一二三| 五月婷婷激情在线| 2020久久国产精品| 国产欧美日韩免费观看| 波多野结衣天堂| 国产精品嫩草影院av蜜臀| 夜夜嗨av禁果av粉嫩avhd| 久久天天躁狠狠躁夜夜躁2014| 国产一区二区三区精品在线观看| 99亚洲国产精品| 高清久久久久久| 五月婷婷中文字幕| 一区二区欧美激情| 美女视频一区| 成人小视频在线观看免费| 99精品久久只有精品| 亚洲综合图片网| 日韩一区二区福利| 人人爱人人干婷婷丁香亚洲| 18禁网站免费无遮挡无码中文| 99国产精品国产精品久久| 日韩一级片中文字幕| 久久精品精品电影网| 成人动态视频| 精品久久久久久久免费人妻| ...xxx性欧美| 亚洲精品国偷拍自产在线观看蜜桃| 91精品国产91久久久久久| 免费视频亚洲| 免费在线观看污网站| 亚洲国产精品久久久久婷婷884| 日韩黄色影片| 91在线免费视频| 亚洲欧美日韩精品一区二区| 人与动物性xxxx| 日韩精品在线视频观看| 欧洲亚洲精品| 又粗又黑又大的吊av| 国产精品美女久久福利网站| 亚洲成人第一区| 日韩美女在线观看| 亚洲国产精品成人| 泷泽萝拉在线播放| 欧美一级xxx| 欧美gay视频| 福利视频一区二区三区四区| 国产精品区一区二区三区| 天天综合永久入口| 成人xvideos免费视频| 在线一区免费观看| 精品一区在线观看视频| 亚洲欧美日韩直播| 视频在线亚洲| 色播五月综合网| 欧美日韩亚洲激情| 人妖欧美1区| 午夜一区二区三视频在线观看| 成人一区二区三区|