精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

PersonaGym:評估角色agent與LLMs 原創

發布于 2024-8-15 09:21
瀏覽
0收藏

PersonaGym:評估角色agent與LLMs-AI.x社區

一、結論寫在前面

論文來自卡內基梅隆大學,伊利諾伊大學芝加哥分校,佐治亞理工學院,普林斯頓大學等等

論文標題:PersonaGym: Evaluating Persona Agents and LLMs

論文鏈接:??https://arxiv.org/pdf/2407.18416??

角色agent,即根據指定角色行事的LLMagent,已在各種應用中展現出令人印象深刻的上下文響應能力。這些角色agent在教育、醫療保健和娛樂等多個領域提供了顯著的增強功能,模型開發者可以針對不同用戶需求調整agent響應,從而擴大agent應用的范圍。然而,評估角色agent性能極其困難,因為評估角色遵守度在自由形式的跨環境交互中的復雜性,這些環境與每個角色agent相關。    

論文介紹了 PersonaGym,一個評估框架,旨在使用動態生成的角色特定問題評估跨多個agent任務的角色agent。與采用靜態角色、環境和問題的傳統方法不同,PersonaGym 在相關環境中動態初始化agent,并在五個不同任務上對其進行評估。基于決策理論,PersonaGym 旨在評估每個角色agent的多種交互模式。論文還提出了 PersonaScore,一個量化 LLM 作為給定角色agent的角色扮演熟練度的指標。

論文對6個開源和閉源LLM進行評估,使用包含200個角色和10,000個問題的基準測試,揭示了在現有最先進模型中角色agent能力提升的重大機遇。例如,盡管Claude 3.5 Sonnet是一個更先進的模型,但其PersonaScore相對于GPT 3.5僅提高了2.97%。重要的是,論文發現模型尺寸和復雜度的增加并不必然意味著角色agent能力的增強,從而突顯了在忠實和高效的角色agent方面迫切需要算法和架構的創新。

二、論文的簡單介紹

2.1 論文的背景

隨著LLM agent的應用持續快速多樣化,為了使不同應用和用戶能夠獲得高度個性化的體驗,需要讓agent根據不同的用戶需求進行調整。角色agent,即被賦予特定角色的語言模型agent,已成為實現大規模個性化和定制化用戶體驗的社區標準。這些角色agent能夠根據所賦予的角色行事,并通過從特定角色分布生成輸出,推斷出其角色的個性和經歷。這使得模型開發者能夠針對各種用戶需求對agent的響應進行定向調整。例如,在拖拉機制造環境中,當被問及“您個人在拖拉機中看重什么”時,Claude 3.5 Sonnet通常會回答說“作為AI助手”,它對拖拉機沒有意見。然而,當扮演農民角色時,它會回答:“首先,我看重的是強大的動力……燃油效率非常重要。柴油不便宜,省下的每一分錢都是賺到的。”    

PersonaGym:評估角色agent與LLMs-AI.x社區

圖1:比較一個沒有定義角色的通用LLM(本例中為GPT 3.5)與同一LLM扮演“牛仔”角色時對兩個問題的回答。

這些角色agent在各種情境下展示了在多樣化和個人化對話生成方面的潛力,在數學推理、物理學和軟件開發等任務中提升了性能,并在心理學等領域模擬人類行為,用于科學研究。

近期研究表明,角色agent的能力在不同場景和模型中存在差異。然而,針對這一問題的初步探索顯示出重大局限性:(1)它們使用預設角色的數據集來初始化角色agent,從而極大限制了對未包含在數據集中的角色agent的評估;(2)角色agent未在多個與agent相關的環境中進行初始化;(3)這些基準通常僅沿agent能力的一個維度(例如,語言能力)評估角色agent,未能全面洞察LLMagent在扮演角色時所有維度的交互。    

為解決這些問題,論文提出PersonaGym,這是首個針對角色agent能力的動態評估框架。該框架源于對角色agent多維度評估系統的需求,旨在評估agent在眾多與角色agent相關的環境中,沿著不同agent行動維度的能力。

2.2 如何評估

在角色agent評估的背景下,論文將環境定義為agent在其中操作和交互的外部設置或條件。理解agent如何與其環境交互對于評估其性能和能力至關重要。agent交互通常是agent做出決策的結果,因此,理解agent決策的方法可用于評估agent在其環境中的交互。為此,論文利用決策理論,該理論是研究在不確定性情況下合理化和選擇行動的領域,研究agent如何根據其目標、信念和不同行動的預期結果來做出決策并與環境交互。基于決策理論的三個類別,論文將評估任務分組如下:

規范性評估:在給定環境中選擇最優決策,其中“最優”是相對于完全理性的決策者而言的:基于上述理論,論文引入了預期行動任務,其中角色agent被置于一個環境中,并給出一個場景以促使agent根據場景選擇一個行動。然后根據提供給agent的角色和場景評估該行動的最優性。

規范性評估:決策理論中的規范性評估分支關注的是在給定環境下,AIagent應如何行動。論文將語言習慣、人格一致性和毒性控制等任務歸類為源自決策理論規范性評估分支的任務。在語言習慣任務中,人格agent的評估依據是其回應是否符合該人格預期的語言習慣。構成語言習慣的要素包括行話、句法、語氣和整體說話風格。在人格一致性方面,人格agent會被詢問其人格的不同屬性,以測試agent在回應查詢時是否忠于其人格屬性。最后,在毒性控制方面,人格agent被置于環境中,并以引發毒性反應的方式進行詢問。需要注意的是,在毒性控制中,得分越低表示回應越毒性,得分越高表示毒性越低。

描述性評估:描述性評估分支關注的是理解agent為何做出特定的決策。論文還包含了行動合理性任務,這與決策理論的描述性評估分支相關。在此任務中,人格agent被置于一個環境中,并給出一個場景以及agent據稱采取的行動。然后,agent被要求在其所處的環境中為采取該行動進行合理性說明。

這些決策理論的特征構成了研究、解釋和評估agent在環境中交互的不同軸線。因此,論文將PersonaGym基于決策理論,以建立特定環境中人格agent評估的有意義任務。    

2.3 PersonaGym

2.3.1 公式化

PersonaGym通過生成問題來評估人格(誘導)agent,這些問題針對五項評估任務,并在agent預期交互的環境中進行情境化。用p表示人格描述,用M_p表示分配了人格p的大型語言模型。論文將環境定義為agent存在和操作的設置及外部場景或條件。

PersonaGym:評估角色agent與LLMs-AI.x社區

圖 2:在 PersonaGym 中選擇相關環境并初始化角色agent以進行評估的過程。從 150 個多樣化的環境中,LLM 推理器根據要分配給agent的角色描述選擇相關環境。一旦選定這些環境,agent便在這些相關環境中初始化,并提出多個問題,旨在根據五個評估任務引導agent與其環境互動。隨后,兩個強大的 LLM 評估模型對這些agent響應進行評估,以產生agent的最終整體 PersonaScore

2.3.2 方法

PersonaGym 是一個動態角色agent評估框架,評估agent在五個任務(圖2)中的相關環境表現。該框架包括幾個關鍵組件:

動態環境選擇 一個 LLM 推理器根據agent的角色描述從150個多樣化選項池中選擇相關環境。環境分布如圖5所示。    

問題生成 對于每個評估任務,LLM推理器為每個選定的環境生成10個特定任務的問題,針對給定的agent。這些問題旨在評估agent在給定任務中按照預期角色行為進行響應的能力。

角色agent響應生成 agentLLM使用系統提示“你是[角色]。你的回答應緊密反映該角色的知識和能力。”來承擔給定角色,如(Gupta et al., 2024)中所做的。然后,角色agent對每個生成的任務問題進行響應。

推理示例 為了指導LLM評估,評估評分標準通過每個可能分數( 1-5 )的示例響應進行了增強。LLM推理器根據agent的角色描述、提出的問題以及特定任務的評分指南,生成能夠引發評分標準中每個可能分數的問題響應示例。這些示例針對每個角色agent的角色定制,并為每個問題生成一次。提示模板、評分標準概要及示例包含在附錄A.4中。

集成評估 兩個最先進的LLM評估模型對每個agent響應進行評估。它們提供了包含任務細節、評分標準、agent特定示例、角色描述、問題和響應的綜合評分標準。評估者生成一個帶有解釋的分數(1-5)。最終分數是兩個模型的平均值。盡管LLM評估可能引入偏見,但論文通過具有明確標準的詳細評分標準來緩解這一問題,遵循(Liu et al., 2023)。論文通過人工評估驗證LLM評估的有效性,并使用集成方法減少潛在的差異。

2.4 實驗

2.4.1 實驗設置

基準模型 本研究評估了三款開源和三款閉源LLM作為角色agent在種子環境中的表現。開源模型包括:LLaMA-2-13b、LLaMIA-2-70b和LLaMA-3-8b。閉源模型包括:GPT 3.5、Claude 3 Haiku和Claude 3.5 Sonnet。

環境和問題生成 論文采用GPT-4o(gpt-4o-2024-05-13)執行兩項主要功能:(1) 選擇與角色agent相關的環境,(2) 根據角色和選定設置為每個PersonaGym任務生成特定任務問題。論文將溫度和核采樣參數設置為0.9進行環境和問題生成。論文使用GPT-4o生成了200個角色進行評估。論文觀察到,超過200個角色后,GPT-4o的多樣性有限成為制約因素,導致角色屬性重疊,損害了整體多樣性。未來改進或修改角色列表的努力應考慮利用多樣化的LLM生成技術。    

評估模型 在論文的實驗中,論文采用兩款評估模型根據特定任務評分標準評估角色agent的響應:GPT-4o和LLaMA-3-70b。兩款評估模型均在溫度為0下運行,以獲得基本確定性的輸出。

2.4.2 主要結果

任務和模型間性能差異顯著 表1展示了模型在不同任務中的性能顯著差異。行動理由和角色一致性顯示出最高的模型間差異(分別為2.08和1 .34),而預期行動、語言習慣和毒性控制表現出較低的差異(分別為0.56、0.94和0.78)。值得注意的是,Claude 3 Haiku在行動理由和角色一致性方面表現不佳,與其他任務相比,這是由于其對特定角色agent的抗拒。沒有單一模型在所有任務中始終表現優異。盡管某些模型在特定領域表現出色(例如,GPT 3.5和Claude 3 Haiku在毒性控制方面),但它們在其他任務中的表現不一,表明缺乏全面能力作為特定方向的角色agent。這些發現強調了多維度評估在評估角色agent能力中的重要性。             
語言習慣作為共同挑戰

表1還顯示,語言習慣成為最具挑戰性的任務,所有模型的得分均低于4。從LLaMA-2-13b到LLaMA-2-70b,此任務的改進微乎其微,并且是唯一一個GPT 3.5表現不如LLaMA-2-13b的任務。這些結果表明,語言習慣任務存在顯著困難。

PersonaGym:評估角色agent與LLMs-AI.x社區

表1:6個大型語言模型在200個角色描述和每個任務10個問題(總計10K個問題)上的基準測試結果。作為PersonaGym的一部分,論文提出了5個評估任務,所有這些任務都基于決策理論,以適當地評估角色agent在不同環境交互軸上的表現。加粗的結果表示每個任務中得分最高的模型。每個任務和模型的標準偏差包含在括號內。最后一行展示了所有6個模型在每個任務上的平均得分的方差。    

PersonaGym:評估角色agent與LLMs-AI.x社區

表2:GPT 3.5、Llama2(13b)和Llama2(70b)模型與人類評估分數之間在隨機抽樣的100個角色上的平均相關性得分。每個條目中的分數格式為Spearman/ Kendall-Tau指標。從論文的結果來看,角色評分與人類在評估任務上的判斷高度相關,從而為論文的提出的框架評估LLM角色agent的有效性提供了證據。

角色agent任務中的模型大小與性能 盡管LLaMA _2 在所有任務中從13B 到 70B 版本顯示出明顯的改進(平均增加 0. 414),但 LLaMA 3 僅憑 8 億參數就表現出了非常強大的性能。在大多數任務中,LLaMA 3 超過了其他模型,除了毒性控制,這表明它作為角色agent的強大能力。相反,Claude 3 Haiku 盡管是一個先進的閉源模型,但不愿意采用角色,導致平均分數最低。

2.4.3 額外研究

角色評分與人類判斷高度相關 表 2 展示了角色評分與人類評估之間的Spearman和Kendall-Tau相關性得分,針對GPT3.5、LLaMA-2-13b和LLaMA-2-70b模型在100個隨機抽樣的角色上進行評估。兩個獨立的人類評估者對每個評估任務的角色進行了評估。結果顯示角色評分與人類評估之間存在很強的相關性。使用LLaMA-2-70b的語言習慣任務中,最高任務級別的Spearman得分達到84.59%,而Kendall-Tau的最高得分是9. 9%,觀察到使用LLaMA-2-70b的預期行動和使用LLaMA-2-13b的語言習慣。總體角色評分相關性在三個模型中平均為76.1%(Spearman)和73.3%(Kendall-Tau)。這些強相關性驗證了角色評分在大規模自動化評估角色agent方面的潛力,表明其與人類判斷的一致性。

在幾個關鍵任務中,特別是角色一致性方面,LLaMA-2-13b與人類評估的相關性高于GPT 3.5和LLaMA-2-70b。這種意外的性能表明較大模型在響應中可能存在潛在的模糊性,特別是在LLaMA-2-70b的角色一致性和預期行動的Spearman相關性得分較低中尤為明顯。    

Claude 3 對角色扮演的抗拒性(Claude 3 Resistant to Role Playing) 論文的實驗揭示了Claude 3 Haiku強烈不愿承擔角色agent任務。圖4顯示,Claude拒絕以角色agent身份回答問題的比率約為第二高拒絕率模型(LLaMA-3-8b)的8.5倍,并且比所有其他基準模型合計的拒絕率高約2.6倍。Claude經常以缺乏“個人經驗”作為“AI助手”的理由來解釋拒絕以角色agent身份回應。Claude 3 傾向于將問題標記為“敏感”,這可能源于其對安全措施的重視,以防止有害或有毒的回應。論文假設 Claude 3 的拒絕可能是因為角色扮演可能繞過大型語言模型(LLM)的安全措施并引發倫理問題(Deshpande 等人,2023)。相比之下,Claude 3.5 Sonnet 在大多數任務中并未表現出這種抵抗性,而是展現出穩健的性能,從而引發了對 Claude 3.5 Sonnet 是否比 Claude 3 Haiku 擁有更少安全限制的擔憂。未來的工作應致力于確定 Claude 3.5 Sonnet 在維持安全考慮的同時,能夠啟用角色agent的程度。    

PersonaGym:評估角色agent與LLMs-AI.x社區

   

圖 3:(頂部)PersonaGym 中靜態環境的分布,有助于可視化從給定角色中選擇的相關環境的多樣性。(底部)實驗中使用的角色屬性分布。

2.5 定性分析

環境與角色分布 PersonaGym 采用了多樣化的環境,如圖 3 所示,包括社交活動(例如,“生日派對”、“婚禮”)、娛樂活動(例如,“徒步旅行徑”、“高爾夫球場”)以及各種聚會(例如,“會議”、“黑客馬拉松”)。這種全面分布涵蓋了日常生活場景和專業情境,為評估角色agent提供了堅實的基礎。圖 3 中的詞云可視化揭示了豐富的角色屬性,突出強調了職業角色(例如,“教師”、“醫生”、“工程師”)、地點(例如,“紐約”、“悉尼”、“東京”)和個人興趣(例如,“徒步”、“倡導”、“烹飪”)。這一系列多樣化的屬性,包括更具體的特征如“復古車愛好者”和“環保活動家”,表明實驗采用了廣泛的角色類型,使得能夠全面評估大型語言模型在不同角色類型和情境下的角色扮演能力。

模型-人類一致性案例 附錄C提供了一個示例,展示了PersonaGym框架與人類評估在不同大型語言模型(LLMs)上對給定人格和任務的高度一致性。36歲的澳大利亞環境律師這一人格在各個模型的回應中得到了一致的體現,每個模型都調整了其語言風格以適應法庭環境和律師的角色。值得注意的是,LLaMA-2-13b模型從PersonaGym和人類評估者那里都獲得了最高分(4.5分),可能是因為它特別提到了原住民并使用了澳大利亞口語("G'day"),這與給定的人格高度吻合。GPT 3.5和LLaMA-2-70b模型都獲得了4.0分,表明它們的表現雖然competent但稍顯不夠貼合。所有模型都能夠使用適合法庭的語言風格來代表代理人,而不是使用更為非正式的澳大利亞口語。這種在不同模型之間以及PersonaGym與人類評估者之間的評分一致性表明,該框架能夠對角色扮演任務中的語言習慣進行背景感知的細致評估,捕捉到與人類判斷一致的細微人格體現差異。

模型-人類分歧案例 盡管PersonaScore在大多數情況下與人類判斷高度一致,論文在附錄C中展示了一個例子,突顯了PersonaGym框架與人類評估之間的差異,以促進未來對改進PersonaGym的研究。該角色被描述為一個22歲的倫敦作家,喜歡繪畫,然而所有三個模型的回應都未能一致地反映這一特定背景。值得注意的是,PersonaGym對這些回應給予了高分(4.5, 4.5, 和 4.0),而人類評估者給出的分數則低得多(分別為2.0, 2.0, 和3.0)。例如,只有LLaMA-2-70b模型包含了任何英式俚語("mate," "bubbly"),而其他回應則缺乏獨特的倫敦或英國語言標志。此外,沒有一個回應展現出作為描述藝術作品的作家所預期的更為復雜或分析性的語言。這種差異表明,PersonaGym在懲罰未能建立和保持特定角色預期語言習慣的agent回應方面存在改進空間。    

PersonaGym:評估角色agent與LLMs-AI.x社區

圖 4:LLMs 對角色扮演請求的拒絕次數。Claude 3 Haiku 強烈反對角色扮演指令。

?

本文轉載自 ??AI帝國???,作者: 無影寺


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
亚洲性生活大片| 中文字幕乱码在线| 日本激情视频在线观看| 奇米精品一区二区三区在线观看| 中文字幕一区电影| 在线免费黄色小视频| 好看的中文字幕在线播放| 91麻豆swag| 成人黄色大片在线免费观看| 国产亚洲小视频| 国产探花一区二区| 日韩欧美一卡二卡| 日韩视频在线免费看| a级毛片免费观看在线| 91丝袜国产在线播放| 成人午夜一级二级三级| 国产69精品久久久久久久久久| 成人在线免费小视频| 亚洲第一区在线观看| 日本三级黄色网址| 中文字幕乱码在线播放| 亚洲欧洲一区二区三区| 精品无人乱码一区二区三区的优势| 国产无遮挡又黄又爽又色视频| 欧美日本中文| 在线看日韩欧美| 中国xxxx性xxxx产国| 91麻豆精品一二三区在线| 欧美视频13p| 成人在线视频一区二区三区| 91高清在线| www.色综合.com| 亚洲最大av网| 91国偷自产中文字幕久久| 久色成人在线| 午夜精品国产精品大乳美女| 九九精品视频免费| 欧美日中文字幕| 日韩精品在线观| 99精品一区二区三区无码吞精| 天堂久久一区| 欧美日韩国产精品自在自线| 国产免费视频传媒| a国产在线视频| 亚洲图片一区二区| 97久久国产亚洲精品超碰热| 黄色精品免费看| 中文字幕日本不卡| 中文字幕色一区二区| av中文资源在线| 国产午夜精品久久久久久免费视| 久久国产精品-国产精品| 国产91免费在线观看| 国产高清久久久| 444亚洲人体| www.日韩在线观看| 成人一级黄色片| 国产精品国模大尺度私拍| 亚洲精品免费在线观看视频| 国产91色综合久久免费分享| 成人9ⅰ免费影视网站| 午夜精品久久久久久久99热黄桃 | 国模私拍一区二区三区| 精品肉丝脚一区二区三区| 欧美特黄一区| 高清视频欧美一级| 久久黄色精品视频| 水野朝阳av一区二区三区| 日本欧美在线视频| 亚洲 国产 日韩 欧美| 免费成人在线视频观看| 国产日韩精品电影| 国产夫妻在线观看| 成人动漫中文字幕| 欧美日韩精品不卡| 在线观看免费网站黄| 亚洲日本在线天堂| 97在线国产视频| 久久sese| 51精品久久久久久久蜜臀| 国产伦精品一区二区三区妓女下载 | 国产精品一区专区欧美日韩| 国产精品视频a| 丰满亚洲少妇av| 极品销魂美女一区二区三区| 91sao在线观看国产| 无码视频一区二区三区| 美女视频第一区二区三区免费观看网站 | 97精品在线播放| 欧美日韩专区| 国产成人精品最新| 99这里有精品视频| 91捆绑美女网站| 伊人久久大香线蕉成人综合网| 图片区小说区亚洲| 91福利在线免费观看| 在线观看免费视频污| 欧美人妖在线观看| 日韩在线观看网址| 亚欧视频在线观看| 久久精品国产77777蜜臀| 国产精品久久久久久久久婷婷 | 国产精品福利一区二区三区| 国产又粗又猛又爽又黄的网站| 伊人久久视频| 日韩午夜电影av| 日本性高潮视频| 欧美视频在线观看| 国产精品亚发布| 国产高清视频免费| 欧美激情在线看| 缅甸午夜性猛交xxxx| 国产日本久久| 国产丝袜高跟一区| 劲爆欧美第一页| 青青青爽久久午夜综合久久午夜| 国产精品手机视频| 二区在线播放| 欧美视频完全免费看| 天堂www中文在线资源| 婷婷伊人综合| 国产精品视频精品| 久久精品蜜桃| 欧美视频在线免费| www.com日本| 亚洲色图网站| 国产中文字幕日韩| 992tv免费直播在线观看| 天天综合色天天综合| 爱情岛论坛亚洲自拍| 日韩免费av| 欧日韩不卡在线视频| 秋霞视频一区二区| 一区二区国产视频| 伊人成人免费视频| 99视频精品全国免费| 国产精品久久久久久久久久尿| 亚洲欧美日韩动漫| 精品高清美女精品国产区| 波多野结衣电影免费观看| 99久久www免费| 国产精品一区二区久久精品| 国产三级视频在线看| 欧美性高潮在线| 中文字幕在线播放一区| 伊人激情综合| 国产亚洲一区在线播放| 欧美家庭影院| 欧美成人女星排行榜| 福利所第一导航| 国产精品一二三四五| 免费日韩在线观看| 午夜久久av| 久久久免费观看| 色婷婷av一区二区三| 五月天网站亚洲| 中文乱码人妻一区二区三区视频| 亚洲激情不卡| 久久草.com| 91伊人久久| 在线精品91av| 国产情侣自拍小视频| 亚洲同性同志一二三专区| av在线免费看片| 欧美喷水视频| 九九九九九精品| 欧美gay视频| 日韩在线观看免费网站 | 亚洲一区资源| 一区二区三区天堂av| 一级片免费观看视频| 伊人婷婷欧美激情| 国产精品扒开腿做爽爽爽a片唱戏 亚洲av成人精品一区二区三区 | 色老头在线视频| 亚洲欧美国产一本综合首页| 国产第一页视频| sdde在线播放一区二区| 成人黄在线观看| 色屁屁www国产馆在线观看| 欧美成人猛片aaaaaaa| 亚洲欧美在线观看视频| 久久精品视频免费| 日韩精品视频在线免费观看| 久久午夜无码鲁丝片午夜精品| 成人不卡免费av| 日本成人在线免费视频| 91亚洲国产高清| 国产精品xxx在线观看www| 日韩精品av| 手机av在线免费观看| 国产精品乱战久久久| 91精品国产高清自在线| 成人在线免费视频| 日韩欧美一区电影| 日韩中文字幕在线观看视频| 国产精品久久夜| 中国黄色片视频| 免费不卡在线视频| 国产免费黄色一级片| 精品国产一区探花在线观看 | 日韩天堂在线| 免费成人高清视频| 国产一区二区三区福利| 欧美成人综合网站| 亚洲图片在线播放| 午夜精品福利一区二区蜜股av| 18啪啪污污免费网站| 91啪亚洲精品| 曰本三级日本三级日本三级| 天堂一区二区在线免费观看| 国产片侵犯亲女视频播放| 精品视频免费在线观看| 国产精品我不卡| 99热这里有精品| 国产精品久久久久久亚洲调教| 波多野结衣在线观看| www.亚洲人.com| 国模吧精品人体gogo| 亚洲福利视频二区| a在线观看视频| 欧美日本一区二区在线观看| 国产精品久久久久久久久久久久久久久久久 | 超碰精品在线观看| 91网站在线免费观看| 日韩在线观看不卡| 亲爱的老师9免费观看全集电视剧| 手机在线免费看av| 久久精品国产精品亚洲| 成人午夜影视| 国产亚洲精品va在线观看| 亚洲 另类 春色 国产| 精品成人佐山爱一区二区| 国产精品视频第一页| 欧美剧情片在线观看| 精品国产www| 欧美在线视频全部完| 国产成人无码一区二区在线播放| 亚洲国产wwwccc36天堂| 欧美精品一区二区蜜桃| 亚洲精品欧美激情| 亚洲二区在线播放| 亚洲日本青草视频在线怡红院| 国产精品成人在线视频| 国产日产欧美一区| 在线观看免费小视频| 国产亚洲欧洲997久久综合| 强伦人妻一区二区三区| 久久亚洲精品国产精品紫薇| 亚洲国产第一区| 久久综合九色综合欧美亚洲| 亚洲国产精品成人综合久久久| www.亚洲精品| 黄色正能量网站| 久久久九九九九| 日本高清www| 国产亚洲va综合人人澡精品 | 精品色999| 亚洲精品一卡二卡三卡四卡| 日韩精品影视| av磁力番号网| 亚洲图片在线| 18禁男女爽爽爽午夜网站免费 | 亚洲一二三av| 国产一区久久久| 又黄又色的网站| 91色porny| 永久免费观看片现看| 亚洲视频每日更新| 日本三级欧美三级| 色婷婷av一区二区| 国产乱码精品一区二区| 精品久久免费看| 日本中文字幕电影在线观看| 夜夜嗨av一区二区三区四区| 激情影院在线观看| 欧美激情视频在线观看| 亚洲精品88| 国产精品丝袜久久久久久不卡| 国产午夜久久av| 国产一区二区三区免费不卡| 国产欧美日韩| 久久久天堂国产精品| 国产乱码精品| gai在线观看免费高清| 成人午夜免费电影| 懂色av蜜桃av| 亚洲福利视频一区二区| 欧美一级做a爰片免费视频| 欧美一区二区三区成人| 日韩三级电影网| 久久精品亚洲热| 成人免费看视频网站| 成人午夜激情网| 蜜桃a∨噜噜一区二区三区| 日本一区二区免费高清视频| 亚洲黄色成人| 中文字幕资源在线观看| 99久久99久久精品免费观看| xxxxx99| 天天射综合影视| 国产精品毛片久久久久久久av| 亚洲第一视频网站| 黄色动漫在线观看| 国产精品国产三级国产aⅴ9色| 一区二区日韩| 一本一本a久久| 噜噜噜躁狠狠躁狠狠精品视频| 可以看的av网址| 国产精品久久久一区麻豆最新章节| av资源免费观看| 精品美女一区二区| 国内外激情在线| 国产精品视频免费观看www| 任你躁在线精品免费| 成年人三级视频| 久久精品国产一区二区三| 大地资源二中文在线影视观看| 亚洲免费毛片网站| 中文字幕制服诱惑| 亚洲无av在线中文字幕| 色婷婷激情视频| 国产综合久久久久影院| 天天躁日日躁aaaxxⅹ| 亚洲综合999| 国产精品午夜福利| 中文字幕亚洲自拍| 中文字幕av一区二区三区佐山爱| 国产视频一区二区不卡| 最新精品国产| 91 视频免费观看| 国产精品久久看| 又污又黄的网站| 亚洲性线免费观看视频成熟| 日本免费一区二区六区| 国产精品日韩一区二区三区| 国语精品一区| 熟女人妻一区二区三区免费看| 中文字幕佐山爱一区二区免费| 一本到在线视频| 北条麻妃一区二区三区中文字幕 | 亚洲人成高清| 三级视频网站在线观看| 亚洲综合丁香婷婷六月香| 亚洲成人第一区| 久久久久久久久久亚洲| 国产精品巨作av| 人妻熟妇乱又伦精品视频| 91丨九色丨尤物| 4438国产精品一区二区| 亚洲人成绝费网站色www| 日韩精品专区| 天堂资源在线亚洲资源| 免费看日韩精品| 一级性生活免费视频| 欧美精品黑人性xxxx| 中文av资源在线| 俄罗斯精品一区二区| 99精品福利视频| 亚洲久久久久久久| 欧美日韩免费观看一区二区三区| 在线播放毛片| 99国产超薄丝袜足j在线观看 | 777米奇影视第四色| 久久九九影视网| 中文字幕一区二区三区波野结| 日韩一区二区精品视频| 亚洲欧美日本国产| 欧美 日韩 国产在线观看| 久久久国产综合精品女国产盗摄| 伊人网视频在线| 欧美成人剧情片在线观看| 久久99精品国产自在现线| 日韩a在线播放| 国产精品久久网站| 好男人www在线视频| 日本精品免费一区二区三区| 热久久天天拍国产| 伦伦影院午夜理论片| 午夜精品久久久久久久99樱桃| 免费在线看v| 92福利视频午夜1000合集在线观看 | 精品国产麻豆| 欧美性久久久久| 亚洲欧美在线视频| 天天综合天天综合| 国产日韩视频在线观看| 亚洲国产免费看| 欧美人与禽zoz0善交| 精品国产凹凸成av人导航| 久久久成人av毛片免费观看| 福利在线小视频| 久久色视频免费观看| 国产伦精品一区二区三区四区| 久久久久久国产精品美女| 欧美天天综合| 97精品人妻一区二区三区蜜桃| 欧美三级韩国三级日本一级| 欧美午夜大胆人体| 亚洲一区二区三区加勒比| www.视频一区|