精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱! 原創(chuàng)

發(fā)布于 2024-8-14 14:05
瀏覽
0收藏


現(xiàn)在的大模型基準(zhǔn)評測,蘋果要重新定義了!

近日,蘋果公司的研究人員推出了ToolSandbox,這是一種全新的基準(zhǔn),旨在比以往更全面地評估人工智能助手的實(shí)際能力。這項(xiàng)研究發(fā)表在 arXiv 上,解決了使用外部工具完成任務(wù)的大型語言模型 (LLM) 的現(xiàn)有評估方法中的關(guān)鍵缺陷。

01、現(xiàn)有評估基準(zhǔn)有哪些關(guān)鍵缺陷?

現(xiàn)在大模型評估基準(zhǔn),更多還是從大模型本身的基本功出發(fā),諸如多語言理解、問答推理、數(shù)學(xué)邏輯等“文理科考試”,像MMLU、GSM8K、ARC、HumanEval、Math、BBH,這些都是大模型的通用能力的基準(zhǔn)測試,除此之外,還有行業(yè)能力的基準(zhǔn)測試,比如FinEval、PubMedQA、JEC-QA等。

但這些數(shù)據(jù)集存在一個(gè)很大的問題,即評估方式非?!白脏恕?,忽略了現(xiàn)在AI產(chǎn)品/應(yīng)用,已經(jīng)不能單單靠大模型來完成了,大模型還需要具備調(diào)用大量的外在工具才能完成真正的應(yīng)用。

像智能體這樣的應(yīng)用,需要大模型去按照用戶預(yù)定義的本體去完成復(fù)雜的任務(wù),就需要調(diào)用N多工具。

難點(diǎn)就在于,用戶表述問題的方式雖然變得更加簡化,但面向任務(wù)的對話仍然具有狀態(tài)性、會話性和交互性,這為系統(tǒng)且準(zhǔn)確地評估使用工具的大型語言模型帶來了重大挑戰(zhàn)

應(yīng)用方面,當(dāng)然也有。智能客服、數(shù)據(jù)分析、辦公助手、代碼助手、智能代理等方面,則有測評數(shù)據(jù)集GAIA、APPS、AgentBench等。

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

TOOLSANDBOX 提供了一個(gè)有狀態(tài)的、對話式的和交互式的評估基準(zhǔn),用于評估大型語言模型(LLM)的工具使用能力。通過有狀態(tài)和狀態(tài)依賴的工具、模擬的用戶以及具有里程碑和雷區(qū)的靈活評估方式,它展示了開源模型和專有模型之間顯著的性能差距,并揭示了即使是對于最先進(jìn)的模型(包括狀態(tài)依賴、規(guī)范化和信息不足等場景)也極具挑戰(zhàn)性的情況,為理解工具使用能力帶來了新的見解。

ToolSandbox 包含其他基準(zhǔn)測試中經(jīng)常缺少的三個(gè)關(guān)鍵元素:狀態(tài)交互、對話能力和動態(tài)評估。主要作者 Jiarui Lu 解釋說:“ToolSandbox 包括狀態(tài)工具執(zhí)行、工具之間的隱式狀態(tài)依賴關(guān)系、支持策略對話評估和動態(tài)評估策略的內(nèi)置用戶模擬器?!?/p>

這項(xiàng)新基準(zhǔn)旨在更貼近真實(shí)場景。例如,它可以測試人工智能助手是否理解在發(fā)送短信之前需要啟用設(shè)備的蜂窩服務(wù)——這項(xiàng)任務(wù)需要推理系統(tǒng)的當(dāng)前狀態(tài)并做出適當(dāng)?shù)母摹?/p>

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

TOOLSANDBOX評估軌跡示例

那么,TOOLSANDBOX究竟是怎么評估的呢?不妨來看論文中的示例??梢钥闯鲈u估軌跡分為消息總線(Message Bus)、世界狀態(tài)(World State)、里程碑(Milestones)三個(gè)關(guān)鍵要素。

其中,消息總線表示用戶、智能體和執(zhí)行環(huán)境之間的完整對話歷史。世界狀態(tài)表示在給定回合中可變數(shù)據(jù)庫的快照。里程碑表示在此軌跡中需要發(fā)生的預(yù)定義關(guān)鍵事件。

示例中,用戶打算發(fā)送消息,但蜂窩服務(wù)已關(guān)閉。智能體應(yīng)首先理解用戶的意圖,并向用戶提示必要的參數(shù)。在借助search_contacts工具收集所有參數(shù)后,智能體嘗試發(fā)送消息,在失敗后意識到需要啟用蜂窩服務(wù),并重新嘗試。為了評估此軌跡,研發(fā)團(tuán)隊(duì)在每個(gè)回合中,在保持拓?fù)漤樞虻耐瑫r(shí),在消息總線和世界狀態(tài)中找到與所有里程碑的最佳匹配。

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

據(jù)介紹,TOOLSANDBOX的核心是一個(gè)Python原生的大型語言模型(LLM)測試環(huán)境,它以執(zhí)行上下文作為世界狀態(tài)的抽象,并以Python函數(shù)作為工具。在這個(gè)環(huán)境中,用戶、智能體和執(zhí)行環(huán)境通過消息總線相互通信以完成任務(wù),該任務(wù)會根據(jù)預(yù)定義的里程碑和雷區(qū)進(jìn)行評估。如圖2所示,一個(gè)典型的測試用例從用戶與智能體對話開始。之后,被呼叫的角色將進(jìn)行下一步對話,直到達(dá)到最終狀態(tài)。

在收到用戶請求后,智能體可以選擇回應(yīng)用戶以獲取更多信息,或者通知執(zhí)行環(huán)境執(zhí)行一個(gè)工具,并提供所需的工具名稱和參數(shù)。執(zhí)行環(huán)境在InteractiveConsole(Foundation, 2024)中執(zhí)行工具,這取決于工具會修改存儲在執(zhí)行上下文中的世界狀態(tài),并向智能體做出響應(yīng)。

一旦用戶決定任務(wù)已完成,它會通知執(zhí)行環(huán)境執(zhí)行end_conversation工具,使系統(tǒng)進(jìn)入最終狀態(tài),準(zhǔn)備根據(jù)對話與里程碑和雷區(qū)的相似度進(jìn)行評估。本節(jié)的其余部分將更詳細(xì)地介紹每個(gè)組件的功能。

02、開源模型依舊落后

研究人員使用 ToolSandbox 測試了一系列 AI 模型,發(fā)現(xiàn)專有模型和開源模型之間存在顯著的性能差距。

研究發(fā)現(xiàn),在工具調(diào)用層面,專有模型和開源模型之間存在顯著的性能差距,即便是表現(xiàn)最好的開源模型Hermes,也依舊落后于倒數(shù)第二的專有模型Claude-3-Haiku Anthropic(2024)20多分。

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

據(jù)論文介紹,這部分原因是Gorilla、Command-R等模型根本無法處理工具響應(yīng)。

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

例如,Mistral經(jīng)常將工具使用場景誤認(rèn)為是代碼生成任務(wù)。這些模型的次優(yōu)性能出乎意料地導(dǎo)致它們在“信息不足”類別中獲得了更高的評級,該類別獎(jiǎng)勵(lì)模型在提供的工具不足以完成任務(wù)時(shí),沒有產(chǎn)生引起幻覺的工具調(diào)用或參數(shù)。論文中表示,這應(yīng)該被視為一種副作用,而不是積極的結(jié)果。

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

而在專有模型方面,GPT-4o、Claude3-Opus依舊強(qiáng)悍。具體來講,GPT-4o獲得了最高的相似度評分,緊隨其后的是Claude-3-Opus。這兩個(gè)模型各有優(yōu)勢。雖然GPT-4o獲得了更高的評分,但如附錄D.2所示,Claude-3-Opus保持了較低的平均回合數(shù),以更高的效率實(shí)現(xiàn)了用戶目標(biāo)。

蘋果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

這一發(fā)現(xiàn)挑戰(zhàn)了最近的報(bào)告,這些報(bào)告表明開源人工智能正在迅速趕上專有系統(tǒng)。就在上個(gè)月,初創(chuàng)公司Galileo 發(fā)布了一項(xiàng)基準(zhǔn)測試,顯示開源模型正在縮小與專有系統(tǒng)領(lǐng)導(dǎo)者的差距,而Meta和Mistral則宣布了他們聲稱可以與頂級專有系統(tǒng)相媲美的開源模型。

然而,蘋果的研究發(fā)現(xiàn),即使是最先進(jìn)的人工智能助手,在處理涉及狀態(tài)依賴、規(guī)范化(將用戶輸入轉(zhuǎn)換為標(biāo)準(zhǔn)化格式)和信息不足的場景等復(fù)雜任務(wù)時(shí),也會遇到困難。

作者在論文中指出:“我們表明,開源模型和專有模型在性能上存在顯著差距,而 ToolSandbox 中定義的狀態(tài)依賴、規(guī)范化和信息不足等復(fù)雜任務(wù)甚至對最強(qiáng)大的 SOTA LLM 也提出了挑戰(zhàn),從而為工具使用 LLM 功能提供了全新的見解?!?/p>

參數(shù)規(guī)模不代表一切

有趣的是,在新基準(zhǔn)之下,原始模型的參數(shù)即使再大,也并不總是能夠在復(fù)雜現(xiàn)實(shí)任務(wù)取得更好的性能。

在比較GPT、Claude和Gemini系列中最大和最小的模型時(shí),多工具調(diào)用和多用戶回合類別的表現(xiàn)“惡化”速度遠(yuǎn)快于單工具調(diào)用和單用戶回合類別,這表明對于復(fù)雜的工具調(diào)用序列和模糊的用戶請求進(jìn)行推理,需要更多的模型容量。

也就是說,在某些情況下,較大的模型有時(shí)表現(xiàn)得比較小的模型更差,尤其是涉及狀態(tài)依賴性的模型。這表明,原始模型大小并不總是與復(fù)雜的現(xiàn)實(shí)任務(wù)中更好的性能相關(guān)。

04、在最后

蘋果的研究提醒我們,創(chuàng)建能夠處理復(fù)雜的現(xiàn)實(shí)任務(wù)的人工智能系統(tǒng)仍然存在重大挑戰(zhàn)。

隨著該領(lǐng)域的持續(xù)快速發(fā)展,像 ToolSandbox 這樣的嚴(yán)格基準(zhǔn)對于區(qū)分炒作與現(xiàn)實(shí)以及指導(dǎo)真正有能力的人工智能助手的開發(fā)至關(guān)重要。

ToolSandbox 的推出可能對 AI 助手、Agent等AI應(yīng)用的開發(fā)和評估產(chǎn)生深遠(yuǎn)影響。通過提供更真實(shí)的測試環(huán)境,它可以幫助研究人員識別和解決當(dāng)前 AI 系統(tǒng)中的關(guān)鍵限制,最終為用戶提供更強(qiáng)大、更可靠的 AI 應(yīng)用。

隨著人工智能不斷深入融入我們的日常生活,像 ToolSandbox 這樣的基準(zhǔn)測試將在確保這些系統(tǒng)能夠處理現(xiàn)實(shí)世界交互的復(fù)雜性和細(xì)微差別方面發(fā)揮關(guān)鍵作用。

對于開發(fā)者,好消息是,ToolSandbox評估框架即將在Github上發(fā)布,邀請更廣泛的AI社區(qū)共同構(gòu)建和完善這一重要工作。

上鏈接:

??https://github.com/apple/ToolSandbox??

?

本文轉(zhuǎn)載自??51CTO技術(shù)棧??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    9999在线视频| 姝姝窝人体www聚色窝| 91日韩视频| 日韩欧美国产成人一区二区| 黄色大片在线免费看| 国产高清一区在线观看| 国产电影一区二区三区| 国产91在线播放精品91| 加勒比av在线播放| 国产91精品对白在线播放| 91精品国产综合久久精品性色| 中文字幕无码精品亚洲资源网久久| 免费看男男www网站入口在线| 激情综合网av| 日韩美女av在线免费观看| 五月天丁香激情| 国产精品嫩草影院在线看| 欧美成人精品高清在线播放 | 岛国最新视频免费在线观看| 国产乱国产乱300精品| 国产精品成人一区| 懂色av.com| 亚洲精品在线观看91| 亚洲欧美在线播放| 岛国大片在线免费观看| 成人交换视频| 色88888久久久久久影院野外| 激情六月天婷婷| 天堂中文а√在线| 国产午夜亚洲精品不卡| 精品亚洲第一| 丰满少妇在线观看bd| 精品亚洲欧美一区| 国产精品美女av| 亚洲va在线观看| 亚洲精品国产日韩| 欧美激情乱人伦一区| 强制高潮抽搐sm调教高h| 欧美日韩在线二区| 亚洲欧美日韩成人| 一女三黑人理论片在线 | 国产精品免费一区二区三区观看 | 欧美xxxxxxxx| 91蝌蚪视频在线| 先锋影音一区二区| 欧美精品色一区二区三区| 男人搞女人网站| 成人网ww555视频免费看| 欧美性色xo影院| 欧美韩国日本在线| 97se综合| 91久久精品国产91性色tv| 日韩欧美亚洲天堂| 麻豆国产在线| 欧美性精品220| 日韩精品xxxx| 五月天av在线| 一本大道av一区二区在线播放| 无码人妻精品一区二区三区在线 | 亚洲成人tv| 另类视频在线观看| 久久久久成人网站| 日韩午夜高潮| 57pao国产成人免费| 五月天激情国产综合婷婷婷| 久久精品二区三区| 国产精品高潮在线| ,一级淫片a看免费| 国产福利精品导航| 精品一区二区久久久久久久网站| 人人九九精品| 国产精品每日更新| 2021狠狠干| 成年人黄色大片在线| 一本久道久久综合中文字幕| 搡女人真爽免费午夜网站| 亚洲精品大片| 亚洲国产高潮在线观看| 国产精品毛片一区二区| 四季av一区二区凹凸精品| 九九视频直播综合网| 欧美日韩乱国产| 久久国内精品自在自线400部| 91超碰在线免费观看| 婷婷av一区二区三区| 国产免费久久精品| av日韩在线看| 日韩一区二区三区在线免费观看 | 成人无码一区二区三区| 日本黄色三级大片| 日韩在线观看视频网站| 91色视频在线| 亚洲图片小说在线| 国内高清免费在线视频| 色噜噜狠狠色综合欧洲selulu| 天天影视色综合| 欧亚精品一区| 久久国产精品影片| 免费av网站在线| 国产一区二区三区免费看| 久久精品第九区免费观看| 免费av毛片在线看| 欧美日韩国产中文字幕| 日本一本在线视频| 国产成人调教视频在线观看 | 69av视频在线| 日韩和欧美的一区| 国产精品一区二区三区免费观看| av网站在线免费观看| 亚洲国产精品久久久久秋霞影院| 99久久国产宗和精品1上映| 日本精品在线观看| 国产亚洲精品久久久久久777| 久草成人在线视频| 久久国内精品自在自线400部| 精品国产91亚洲一区二区三区www| 日本在线看片免费人成视1000| 精品久久中文字幕久久av| 亚洲综合123| 精品久久网站| 欧美专区中文字幕| 日本黄色三级视频| 亚洲黄色免费网站| 国产精品v日韩精品v在线观看| 韩国女主播一区二区三区| 久久亚洲精品毛片| 在线观看国产一区二区三区| 26uuu国产一区二区三区| 大胆欧美熟妇xx| 精品一区91| 日韩在线精品视频| 中文字幕第31页| 久久久亚洲午夜电影| 精品少妇人妻av免费久久洗澡| 欧洲精品99毛片免费高清观看 | 69久久夜色精品国产69蝌蚪网| 中文字幕人妻一区二区| 亚洲精品日韩久久| 国产欧美日韩一区二区三区| 欧美1—12sexvideos| 欧美一激情一区二区三区| 黑人操日本美女| 精品一区二区三区av| 在线一区高清| 4438五月综合| 久久成人精品一区二区三区| 国产乱色精品成人免费视频| 国产精品乱码人人做人人爱 | av在线这里只有精品| 免费在线看黄色片| 哺乳挤奶一区二区三区免费看| 久久91精品国产91久久久| av免费观看在线| 一区二区三区欧美日韩| 蜜臀av粉嫩av懂色av| 一区在线观看| 免费av一区二区三区| 欧美片第1页| 中文字幕欧美日韩精品| 一区二区三区免费在线| 亚洲男女毛片无遮挡| 国产sm在线观看| 亚洲另类黄色| 日韩精品极品视频在线观看免费| 国产精品黄色片| 久久天天躁狠狠躁夜夜躁| www.色视频| 精品久久久久久久久久| 韩国女同性做爰三级| 麻豆成人91精品二区三区| 免费久久久久久| 成人高潮a毛片免费观看网站| 国内偷自视频区视频综合 | 国产性色一区二区| www.国产福利| 亚洲一级二级| 日韩久久久久久久久久久久久| 国产日本亚洲| 668精品在线视频| 99中文字幕一区| 欧美成人a在线| 69国产精品视频免费观看| 中文字幕一区二区三区四区| 又黄又色的网站| 水蜜桃久久夜色精品一区的特点 | 亚洲精品123区| 日本精品免费| 亚洲三区欧美一区国产二区| 欧美在线视频网| 黄色免费在线网站| 精品偷拍一区二区三区在线看| 在线观看免费观看在线| 亚洲成av人影院| 亚洲精品自拍视频在线观看| 成人av网站在线观看| 亚洲另类第一页| 亚洲人成久久| 超碰在线免费观看97| 蜜臀久久99精品久久一区二区 | 一本久久青青| 亚洲一区二区三区四区视频| 亚洲欧美一区二区三区| 欧美成人免费全部| 韩国三级在线观看久| 精品国产一区二区三区久久影院| 日本丰满少妇做爰爽爽| 亚洲国产精品久久人人爱蜜臀| 战狼4完整免费观看在线播放版| 成人午夜在线免费| 国产又大又黄又粗又爽| 国产精品日本| 国产又粗又猛又爽又黄的网站| 残酷重口调教一区二区| 久久精品丝袜高跟鞋| 色妞ww精品视频7777| 国产欧美日韩精品在线观看| 水蜜桃在线视频| 久久久久这里只有精品| 国内精品久久久久久野外| 国产一区二区三区视频免费| 天天综合网天天综合| 欧美草草影院在线视频| 99视频免费看| 欧美精品在欧美一区二区少妇| 无码人妻久久一区二区三区不卡| 亚洲在线视频免费观看| 国产成人av免费在线观看| 国产精品萝li| 精品女人久久久| 中文字幕国产一区| 亚洲第一成人网站| 久久伊99综合婷婷久久伊| 精品人妻一区二区三区日产乱码卜| 国产乱人伦精品一区二区在线观看 | 国产精品九九九九九| 成人免费毛片片v| 亚洲熟妇一区二区| 国产精品一级黄| 无码人妻丰满熟妇区毛片蜜桃精品| 蜜臀av一区二区| 日韩大片一区二区| 男男成人高潮片免费网站| 日本a√在线观看| 日本aⅴ精品一区二区三区| 无人在线观看的免费高清视频 | 激情综合闲人网| 亚洲图片欧洲图片av| 九色蝌蚪在线| 亚洲最大在线视频| yiren22亚洲综合伊人22| 亚洲欧美日韩天堂| 成人综合影院| 日韩中文字幕在线精品| 老司机在线看片网av| 久久国产色av| 黄色羞羞视频在线观看| 久久久噜久噜久久综合| 日本午夜大片a在线观看| 欧美孕妇孕交黑巨大网站| 欧美色网一区| 国产精品一区二区久久| 精品国产一区二区三区2021| av电影成人| 亚洲欧美成人vr| 午夜精品亚洲一区二区三区嫩草 | 久久久成人精品视频| 最新国产在线拍揄自揄视频| 久久琪琪电影院| 亚洲校园激情春色| 国产欧美日韩专区发布| 在线精品自拍| 日本免费一区二区三区| 99久久影视| av之家在线观看| 秋霞av亚洲一区二区三| 国产一级二级av| 26uuu久久综合| h色网站在线观看| 午夜在线电影亚洲一区| 精品国产青草久久久久96| 91精品国产美女浴室洗澡无遮挡| 囯产精品一品二区三区| 国产亚洲精品久久久久动| 影音先锋中文在线视频| 欧美在线亚洲在线| 3d动漫一区二区三区在线观看| 国产在线资源一区| 色婷婷亚洲mv天堂mv在影片| 男人添女荫道口喷水视频| 视频一区视频二区在线观看| 在线成人免费av| 久久久午夜精品理论片中文字幕| 国产精品免费在线视频| 天天操天天色综合| 国产一区二区三区成人| 日韩久久免费视频| 91亚洲天堂| 国产精品麻豆va在线播放| caoporn成人| 一区精品在线| 久久久精品网| 亚洲乱妇老熟女爽到高潮的片| 欧美国产一区二区在线观看| 日韩欧美中文字幕一区二区| 欧美精品黑人性xxxx| 欧美偷拍视频| 欧美激情一区二区三区久久久| 97成人超碰| 久久精品日产第一区二区三区精品版| 影音先锋成人在线电影| 免费看黄色一级大片| av成人老司机| 久草视频中文在线| 欧美久久免费观看| 大片免费播放在线视频| 97福利一区二区| 日韩精品中文字幕吗一区二区| 日韩影院一区| 久久亚洲精选| 欧美黑人欧美精品刺激| 亚洲影院在线观看| 国产精品视频一区二区三区,| 国产亚洲精品日韩| 中文字幕 在线观看| 精品国产乱码久久久久久蜜柚| 欧美精品18| 亚洲av无一区二区三区久久| 国产精品毛片久久久久久久| 欧美另类高清videos的特点| 亚洲毛片在线看| 天堂电影一区| 久久另类ts人妖一区二区| 亚洲欧洲午夜| 天天躁日日躁狠狠躁免费麻豆| 亚洲综合一区二区精品导航| 国产三级漂亮女教师| www.日韩免费| 国产电影一区二区| 中文字幕中文字幕在线中一区高清| 蜜桃精品视频在线| 男人天堂资源网| 欧美日韩精品二区第二页| 91网页在线观看| 国产区亚洲区欧美区| 99久久婷婷| 久久出品必属精品| 一片黄亚洲嫩模| 国产成人手机在线| 久久免费视频观看| 亚洲小说图片| 又色又爽又高潮免费视频国产| 国产区在线观看成人精品| 波多野结衣影片| 日韩天堂在线视频| 亚洲第一二区| 日本a在线免费观看| 久久一区二区三区四区| 天天干天天插天天射| 最近免费中文字幕视频2019| crdy在线观看欧美| 亚洲精品蜜桃久久久久久| 99国产精品久久久久久久久久久| 国产精品一区二区三区四| 亚洲色图17p| 亚洲福利影视| 成人性生活视频免费看| 国产色一区二区| 国产精品久久久午夜夜伦鲁鲁 | 中文在线а√在线8| 视频一区视频二区视频| 国产一区二区精品久久| 国产成人啪精品午夜在线观看| 精品亚洲男同gayvideo网站| 国产精品久久亚洲不卡| 大桥未久一区二区| 99视频在线精品| 国产裸体美女永久免费无遮挡| 欧美精品一区二区三区国产精品| 懂色av一区二区| 可以免费在线看黄的网站| 亚洲女同一区二区| 人妻夜夜爽天天爽| 国产精品久久久久久久9999| 欧美影院一区| 免费黄色在线视频| 欧美福利视频一区| 亚洲欧洲日本韩国| 日本特级黄色大片| 91香蕉视频mp4| 国产免费黄色录像| 日本国产精品视频| 午夜激情一区| 妺妺窝人体色WWW精品| 欧美不卡123| 亚洲精品一区三区三区在线观看| 免费在线精品视频| 国产欧美一区二区三区在线看蜜臀 | 日韩精品中文字| 高清不卡一区| 成人精品视频一区二区|