精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent) 原創

發布于 2025-10-22 09:55
瀏覽
0收藏

編者按: 隨著大語言模型應用從簡單的文本生成,發展到復雜的多輪對話機器人、檢索增強生成(RAG)系統乃至智能體(Agent),我們應如何科學、有效地評估它們的性能,確保其穩定可靠?

我們今天為大家帶來的文章,作者的觀點是,對現代 LLM 應用的評估,必須超越傳統的 NLP 評估指標,轉向一個分場景、系統化的評估體系,綜合運用新興的評價指標與自動化框架,從而全面地衡量系統的綜合表現。

作者系統梳理了從傳統 NLP 評估指標(如 BLEU、ROUGE)到現代 LLM 基準測試(如 MMLU)的演進,并重點闡釋了“LLM-as-a-judge”這一新興評估范式。文章進一步深入探討了多輪對話系統、RAG 系統及智能體的關鍵評估維度,并對比了主流評估框架(如 RAGAS、DeepEval、OpenAI Evals)的功能差異與適用場景,為開發者構建可靠、可追蹤的 LLM 應用提供了清晰指引。

作者 | Ida Silfverskiold

編譯 | 岳揚

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

Agentic AI 評估主要在于測試 LLM 應用,以確保其表現穩定。

這或許不是很吸引人的話題,但正受到越來越多企業的重視。因此,有必要深入探討應追蹤哪些指標來有效衡量性能。

此外,在每次推送代碼變更時實施恰當的評估,也有助于避免系統出現混亂。

為此,本文研究了多輪對話機器人、RAG 及 Agentic 應用的常用評估指標。

我還簡要梳理了 DeepEval、RAGAS 和 OpenAI 評估庫等框架,助您根據使用場景選擇合適的工具。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

本文分為兩部分。新手可從第一部分讀起,其中介紹了 BLEU、ROUGE 等傳統評估指標,提及了一些 LLM 的基準測試,并講解在評估中使用另一個大語言模型來充當“裁判”或“評判者”的理念。

若您已熟悉上述內容,可直接跳到第二部分閱讀。該部分將深入解析不同類型 LLM 應用的評估方法。

01 先前的評估方法

如果你已熟知 NLP(自然語言處理)任務的評估方式以及公共基準測試的運作機制,那么可以跳過這一部分。

如若不然,了解早期評估指標(如準確率、BLEU)的最初用途與工作原理,并理解 MMLU 等公共基準測試的運作方式,將是很有益處的。

02 評估 NLP 任務

在評估分類、翻譯、摘要等傳統 NLP 任務時,我們通常會借助準確率(accuracy)、精確率(precision)、F1 值、BLEU 和 ROUGE 這類傳統指標。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

這些指標至今仍在沿用,但主要適用于模型輸出單一、易于比對“標準答案”的場景。

以文本分類任務為例,其目標是為每個文本分配一個唯一的標簽。測試時,我們可以使用準確率指標,通過比較模型分配的標簽與評估數據集中的參考標簽,來判斷其是否正確。

判斷標準非常明確:如果分配了錯誤的標簽,則得分為 0;如果分配了正確的標簽,則得分為 1。

這意味著,如果我們為一個包含 1000 封郵件的垃圾郵件數據集構建分類器,并且模型正確標記了其中的 910 封,那么準確率就是 0.91。

針對文本分類場景,我們還經常使用 F1 值、精確率和召回率。

在文本摘要和機器翻譯等 NLP 任務中,人們通常使用 ROUGE 和 BLEU 來衡量模型生成的譯文或摘要與參考文本的匹配程度。

這兩種分數都基于 n-gram 的重疊程度進行計算。盡管比較的側重點不同(例如,BLEU 更側重精確率,ROUGE 更側重召回率),但其核心思想都是:共享的詞語片段越多,得分就越高。

這種方式相對簡單,因為如果輸出文本使用了不同的措辭,得分就會較低。

所有傳統指標最適用于存在標準答案的應答場景,但對于如今我們構建的 LLM 應用而言,它們往往并非最合適的選擇。

03 大語言模型基準測試

如果您關注相關新聞,可能會注意到:每次新版本的大語言模型發布時,總會提及 MMLU Pro、GPQA 或 Big-Bench 等基準測試結果。

它們屬于通用性評估,其正確術語應是“基準測試”而非“評估”(后者我們將在后續討論)。

盡管針對每個模型還會進行多種評估(測試毒性、幻覺和偏見等內容),但最受關注的往往是這些更類似標準化考試或排行榜的基準測試。

像 MMLU 這樣的數據集采用多選題的形式,并且已存在相當長的時間。我曾粗略地瀏覽過其中的內容,發現其內容質量參差不齊。

部分問題和答案相當模糊,這讓我認為 LLM 提供商很可能通過針對性訓練來確保模型在這些數據集上取得佳績。

這種現象引發了公眾的擔憂:多數 LLM 在基準測試中的優異表現可能只是過擬合的結果,這也解釋了為何我們需要更高質量的新數據集與獨立的第三方評估。

04 將 LLM 用作評估器

對這些數據集進行評估時,通常仍可使用準確率和單元測試。但如今的不同之處在于,新增了所謂的“LLM-as-a-judge”方法。

為了對模型進行基準測試,團隊大多仍會采用傳統方法。

因此,只要是多選題或僅存在一個正確答案的情況,除了將答案與參考答案進行精確匹配外,無需其他操作。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

像 MMLU 和 GPQA 這類包含多項選擇題答案的數據集便屬此類。

對于編程類測試(如 HumanEval、SWE-Bench),評估器可直接運行模型生成的補丁或函數。若所有測試用例通過則判定問題已成功解決,反之則失敗。

然而,不難想象,當問題存在歧義或屬于開放式問題時,答案可能會出現波動。這一差距催生了“LLM-as-a-judge”的興起,即使用像 GPT-4 這樣的大語言模型來為答案打分。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

MT-Bench 就是采用 LLM 評分的基準測試之一,它將兩個相互競爭的多輪對話答案提供給 GPT-4,并要求其判斷哪個更好。

原采用人工評分的 Chatbot Arena 平臺,據我了解現也已擴展融合了“LLM-as-a-judge”模式。

為了透明起見,也可使用 BERTScore 等語義評分工具進行語義相似度比對。為保持內容精煉,此處未詳述現有方案。

因此,團隊雖仍會使用 BLEU 或 ROUGE 這類重疊度指標進行快速校驗,或在可能時采用精確匹配解析(exact-match parsing),但新的趨勢是讓另一個大語言模型來評判輸出結果。

05 當前對 LLM 應用的評估方式

現在主要的變化是,我們不再僅僅測試 LLM 本身,而是評估整個系統。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

在條件允許時,我們仍會像以前一樣使用程序化的方法進行評估。

若需更精細的評估結果,可先采用成本低廉且確定性的指標(如 BLEU 或 ROUGE)來分析 n-gram 的重疊程度,不過,當前主流框架普遍采用大語言模型作為評分器進行評估。

有三個領域的評估方法和評估指標值得探討:多輪對話系統、RAG(檢索增強生成)以及智能體。

如下所示,在這三個領域已經定義了大量的評估指標。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

接下來我們將簡要討論這些指標,然后再介紹那些能為我們提供幫助的不同評估框架。

06 評估多輪對話系統

首先需要構建針對多輪對話的評估體系,這類對話場景常見于聊天機器人。

與聊天機器人交互時,我們期望對話過程自然流暢、體現專業性,且能準確記住關鍵信息。我們希望它在整個對話過程中不離題,并切實解答用戶提出的問題。

目前業界已形成一系列標準的評估指標。首要關注的是相關性(連貫性)與完整性。

相關性指標用于追蹤 LLM 是否恰當地處理了用戶的查詢并保證不偏離主題;而若最終結果真正達成了用戶目標,則完整性得分就高。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

也就是說,若能追蹤整個對話過程中用戶的滿意度,我們也能驗證該系統是否真正“降低了支持成本”、增加了用戶信任度,同時保持較高的“自助解決率”。

該評估體系的第二個核心維度,是知識留存能力(Knowledge Retention)與應答可靠性(Reliability)。

即:它是否記住了對話中的關鍵細節?能否確保不會“迷失方向”?僅記住細節還不夠,它還需要能夠自我糾正。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

這類問題常見于智能編程工具:它們會忘記自己犯過的錯誤,然后一犯再犯。我們應將其記錄為低可靠性或低穩定性表現。

第三部分可追蹤的是角色一致性與提示詞遵循度,用于檢驗 LLM 是否始終遵循預設角色設定,是否嚴格執行系統提示詞中的指令。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

接下來是涉及安全性的指標,例如幻覺和偏見/毒性。

追蹤幻覺雖重要但也相當困難。常見做法包括設置網絡搜索驗證輸出內容,或將輸出拆分為多個可獨立驗證的論點后交由更大模型評判(采用 LLM-as-a-judge 模式)。

此外還有像 SelfCheckGPT 的這類方法:它通過多次調用模型處理同一提示詞,檢查其是否堅持原始答案以及出現分歧的次數,以此檢驗模型的一致性。

對于偏見/毒性檢測,可采用微調分類器等 NLP 技術。

根據具體應用場景,可能還需其他定制化指標,例如代碼正確性、安全漏洞數、JSON 格式合規性等。

至于如何進行評估,雖然在這些情況下標準解決方案確實常用 LLM,但并非總是必須使用它。

在可以提取正確答案的場景(例如解析 JSON),我們自然不需要使用 LLM。如我之前所說,許多 LLM 提供商也會使用單元測試對代碼相關指標進行基準測試。

需要說明的是,用于評判的 LLM 并非總是超級可靠,就像它們所測量的應用一樣,但此處無法提供具體數據佐證,建議您自行查閱相關研究。

07 評估檢索增強生成(RAG)系統

承接多輪對話系統的評估思路,我們再來探討 RAG 系統需要衡量的指標。

針對 RAG 系統,我們需要將評估流程拆分為兩部分:分別衡量檢索環節與生成環節的質量。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

首先要評估的是檢索環節,檢驗系統為特定查詢抓取的文檔是否精準。

若檢索環節得分偏低,可通過以下方式進行優化:制定更合理的文本分塊策略、更換嵌入模型、引入混合搜索與重排序技術、使用元數據進行過濾等方法。

評估檢索效果時,我們既可采用依賴標注數據集的傳統指標,也可以使用無需參考答案、以 LLM 作為評判者的方法。

我必須先介紹這些經典的信息檢索指標,因為它們是該領域的奠基者。使用這些指標的關鍵在于,我們需要一套“標準答案” —— 即針對每一個預設的查詢,我們都已事先為每個文檔標注好了它與該查詢的相關性等級。

雖然可以使用 LLM 來構建評估所需的數據集,但評估過程無需 LLM 參與,因為數據集中已經包含了用于比對的基準分數。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

最著名的 IR 指標包括 Precision@k、Recall@k 和 Hit@k。

這三個指標分別從不同角度衡量檢索系統的表現:實際檢索到的前 k 個文檔中,有多少個是真正相關的、所有應該被檢索到的相關文檔(在標準答案里的)中,有多少個出現在了你檢索到的前 k 個結果里、在前 k 個結果里有沒有“命中”至少一個相關文檔。

而 RAGAS、DeepEval 等新興框架,則引入了一種無需參考答案且使用 LLM 對檢索結果進行評判的評估指標,如上下文召回率與上下文精確度。

這些指標通過使用 LLM 作為評估者,來統計:針對給定查詢,系統返回的前 k 個結果中,究竟包含了多少真正相關的文本塊。

也就是說,針對給定查詢,系統是否真正返回了相關文檔?是否混入了過多不相關的內容以致于無法正確回答問題?

構建檢索評估數據集時,可從真實日志中挖掘問題并由人工標注。

也可以利用 LLM 輔助的數據集生成器,這類工具存在于多數評估框架中,或者有獨立的工具提供此功能,如 YourBench。

如果要用 LLM 搭建自己的數據集生成器,可參考以下實現方案:

# Prompt to generate questions
qa_generate_prompt_tmpl = """\
Context information is below.
 
---------------------
{context_str}
---------------------
 
Given the context information and no prior knowledge
generate only {num} questions and {num} answers based on the above context.
 
...

接下來看 RAG 系統的生成部分,這部分評估的是系統利用所提供文檔回答問題的質量。

若此環節表現不佳,可采取以下措施:調整提示詞模板、優化模型參數(如溫度值)、更換基礎模型或針對特定領域進行微調。還可引入思維鏈推理循環、驗證答案自洽性等方法。

這方面,RAGAS 框架提供的 Answer Relevancy、Faithfulness 和 Noise Sensitivity 等指標非常實用。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

這些指標分別驗證:答案是否切中用戶問題核心、答案中每個論斷是否都有檢索文檔支撐、以及少量無關上下文是否會誤導模型輸出。

以 RAGAS 為例,它在衡量第一個指標(Answer Relevancy)時,很可能通過以下方式計算:向 LLM 提供問題、答案及檢索到的上下文,要求其“評判該答案在 0-1 分范圍內對問題的直接回應程度”,這個過程會返回一個原始的 0-1 分值,該分值可被用于計算整體平均值。

綜上所述,我們將 RAG 系統拆分為檢索和生成兩個獨立環節進行評估。雖然可以沿用依賴標準答案的傳統信息檢索指標,但也可以選擇依賴大語言模型進行評分的無參考答案方法。

最后,我們需要探討的是,智能體(Agent)技術如何擴展了我們所需追蹤的指標范圍,這超出了我們之前已討論的所有內容。

08 評估智能體

對于智能體,我們的評估范疇不再局限于輸出結果、對話內容或上下文質量。

如今還需評估其“行為能力”:能否完成特定任務或工作流、執行效率如何,以及是否能在適當時機調用正確的工具。

盡管各評估框架對這些指標的命名可能不同,但最核心的兩項追蹤指標是任務完成度工具調用準確率

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

對于工具使用的追蹤,我們需要驗證智能體是否根據用戶查詢準確選擇了對應的工具。

這需要預先編寫包含真實場景的基準測試腳本,該腳本可一次性創建,并在每次系統變更時重復用于驗證。

對于任務完成度,評估方法是讀取完整的執行軌跡和任務目標,然后返回一個 0 到 1 之間的分數,并附上評估理由。該指標應有效衡量智能體達成任務的執行效果好壞程度。

對于智能體,你仍然需要根據您的具體應用,測試我們前面已經討論過的其他評估維度。

需要特別說明:盡管現有框架已有不少定義好的評估指標,但你的實際使用場景可能會有所不同。了解通用評估指標是有價值的,但切勿直接假定它們完全適用于你的應用場景。

接下來,我們將概覽當前主流的輔助評估框架。

09 主流評估框架概覽

目前已有不少框架能協助進行評估工作,本文將重點介紹幾個熱門選擇:RAGAS、DeepEval、OpenAI 的 Evals 庫以及 MLFlow 的 Evals,并分析它們各自的優勢及適用場景。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

完整的評估框架清單可在此倉庫(??https://github.com/ilsilfverskiold/Awesome-LLM-Resources-List/blob/main/README.md\[#evaluation]()-frameworks-and-add-ons?? )中查看。

你也可以使用許多框架內置的評估系統(如 LlamaIndex 提供的工具),特別適合快速原型驗證。

OpenAI 的 Evals 和 MLFlow 的 Evals 更像是附加組件而非獨立框架,而 RAGAS 最初是專為 RAG 應用設計的指標庫(盡管后續也擴展了其他指標)。

DeepEval 可能是現有框架中功能最全面的評估庫。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

但需要指出的是,所有框架都支持對自有數據集進行評估,以不同方式兼容多輪對話、RAG 和智能體場景,都支持 LLM-as-a-judge 模式,都允許配置自定義指標,并且都能無縫接入持續集成流程。

正如前文所述,它們的差異主要體現在功能完備度上。

MLFlow 最初為傳統機器學習 pipelines 設計,因此針對 LLM 應用的預置指標較少。OpenAI 提供非常輕量的解決方案,需要用戶自行設定評估指標(盡管它提供了一個示例庫幫助入門)。

RAGAS 提供了豐富的評估指標,并且與 LangChain 集成,便于快速部署。

DeepEval 則提供了大量開箱即用的功能,其功能集完全覆蓋 RAGAS 指標。

LLM 應用評估綜合指南(多輪對話系統、RAG、AI Agent)-AI.x社區

上述對比表格的詳細內容可在此 Github 倉庫(??https://github.com/ilsilfverskiold/Awesome-LLM-Resources-List/blob/main/README.md\[#evaluation]()-frameworks-and-add-ons?? )中查看。

通過分析各框架提供的評估指標,我們可以大致了解這些解決方案的覆蓋范圍。

值得注意的是,這些框架的指標命名尚未形成統一標準。相同含義的指標可能具有不同名稱。

例如,某個框架中的“忠實度(faithfulness)”可能等同于另一框架的“事實性(groundedness)”。“答案相關性(Answer relevancy)”與“響應相關性(response relevance)”可能指向同一概念,等等。

這使得從業者需要花費額外的心力去理解和管理這些術語差異,而不是專注于更重要的評估設計和結果分析工作。

盡管如此,DeepEval 仍以超過 40 項預置指標脫穎而出,同時提供名為 G-Eval 的框架,能快速創建自定義指標,成為從指標構思到可運行指標的最快捷路徑。

OpenAI 的 Evals 框架則更適合需要高度定制化邏輯的場景,而不僅僅是需要一個快速評判器。

根據 DeepEval 團隊反饋,開發者最常使用的是自定義指標功能。因此不必糾結于框架預置了哪些指標,您的應用場景獨一無二,評估方式也應如此。

那么,在什么情況下應該選擇哪種框架呢?

當我們需要專為 RAG pipeline 設計、開箱即用的專項指標時,請選用 RAGAS;若追求功能完整的全場景評估套件,DeepEval 是最佳選擇。

若您已深度集成 MLFlow 生態或偏好內置追蹤與可視化界面,MLFlow 值得考慮;OpenAI 的 Evals 框架最為輕量,最適合深度依賴 OpenAI 基礎設施且追求靈活定制的用戶。

最后,DeepEval 還通過其 DeepTeam 框架提供紅隊測試功能,可自動化對 LLM 系統進行對抗性測試。雖存在其他具備類似功能的框架,但實現深度通常不及此方案。

未來我將專門探討 LLM 系統對抗測試與提示詞注入防護這一有趣領域。

10 幾點補充說明

數據集業務利潤豐厚,這也反襯出當前我們能利用其他 LLM 進行數據標注或測試評分的可貴之處。

但需要注意的是,LLM 評估器并非萬能 —— 正如我們開發的任何 LLM 應用一樣,我們搭建的評估系統也可能出現不穩定的狀況。根據業界普遍做法,大多數團隊和公司會每隔幾周進行人工抽樣審核,以確保評估結果真實可靠。

我們為 LLM 應用定制的評估指標很可能需要進行個性化設置。因此,盡管本文介紹了大量現有指標,但最終你大概率需要構建自己的評估體系。

不過了解行業內的標準評估指標仍然很有價值。

希望本文能對你有所啟發。

END

本期互動內容 ??

?你有沒有遇到過“評估性能很好,但用戶體驗很差”的情況?你是怎么解決的?

本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。

原文鏈接:

??https://www.ilsilfverskiold.com/articles/agentic-ai-on-evaluations??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
欧美日韩性在线观看| 中文日产幕无线码一区二区| 国产在线视视频有精品| 欧美激情按摩在线| 亚洲一区二区三区综合| 久久电影tv| 亚洲欧美日韩中文播放| 国产精品一级久久久| 尤物视频免费观看| 午夜精品免费| 亚洲欧美成人在线| 视频区 图片区 小说区| 韩国成人免费视频| 91年精品国产| 亚洲一区二区在线| 亚洲黄色激情视频| 欧美1区2区视频| 亚洲欧美精品中文字幕在线| 91pony九色| 欧美成人ⅴideosxxxxx| 一区二区三区在线视频播放| 欧美xxxx黑人又粗又长密月| 国产精品欧美激情在线| 久久蜜桃精品| 高清欧美性猛交| 欧美风情第一页| 欧美精品momsxxx| 精品久久久久久久久久久久久久久| 国产日韩一区二区在线观看| 尤物在线网址| 中文字幕中文字幕一区二区| 好吊妞www.84com只有这里才有精品| 中文字幕在线播出| 天堂久久一区二区三区| 国外成人免费在线播放| 手机毛片在线观看| 最新亚洲精品| 亚洲第一免费网站| 自拍视频第一页| 亚洲老司机网| 欧美日韩精品综合在线| 阿v天堂2017| 黄色美女视频在线观看| 亚洲激情综合网| 男人j进女人j| 成人福利网站| 亚洲日本电影在线| 在线成人av电影| 最新国产在线观看| 国产精品天天摸av网| 欧美精品亚洲精品| 青青色在线视频| 91麻豆精品一区二区三区| 成人欧美一区二区三区在线观看 | 久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 欧美性生活一级片| 亚洲第一福利网| 国产日韩视频一区| 精品国产乱子伦一区二区| 欧美成人乱码一区二区三区| 免费国偷自产拍精品视频| 精品国产亚洲一区二区三区大结局| 欧美人牲a欧美精品| 国产一区二区在线观看免费视频| 欧美成人免费全部网站| 欧美日本在线观看| 波多野结衣免费观看| 日本免费精品| 亚洲国产精品嫩草影院久久| 人妖粗暴刺激videos呻吟| 国产一区二区三区不卡av| 精品sm在线观看| 亚洲成人日韩在线| 免费欧美激情| 久久精品电影网站| 欧美日韩精品一区二区三区视频播放| 欧美激情日韩| 91精品国产91久久久久| 天干夜夜爽爽日日日日| 蜜臀av一区二区在线免费观看| 国产主播在线一区| 黄色片一区二区三区| 成年人午夜久久久| 欧美h视频在线| 男女啪啪在线观看| 亚洲午夜影视影院在线观看| 无码人妻h动漫| 久久久免费人体| 日韩免费在线观看| 玖玖爱在线观看| 久久亚洲国产| 久久久久久国产三级电影| 91浏览器在线观看| 毛片基地黄久久久久久天堂| 亚洲a成v人在线观看| 天天干,夜夜爽| 国产精品丝袜在线| 轻点好疼好大好爽视频| 亚洲四虎影院| 欧美mv日韩mv国产| 人人爽人人爽人人片| 欧美a级在线| 国产成人精品日本亚洲| 国产av精国产传媒| 久久久99久久精品欧美| 久久久国内精品| 亚洲精品粉嫩美女一区| 欧美xxxxxxxx| 久久精品在线观看视频| 欧美综合国产| 成人国产1314www色视频| 国产专区在线| 亚洲成人一区二区| 天美一区二区三区| 国产精品密蕾丝视频下载| 欧美国产高跟鞋裸体秀xxxhd| 狠狠狠狠狠狠狠| 国产v综合v亚洲欧| 一区二区三区在线视频看| 色是在线视频| 精品国免费一区二区三区| 亚洲不卡的av| 久久精品一区二区三区中文字幕| 99re在线国产| 求av网址在线观看| 色88888久久久久久影院野外| 久久久精品人妻一区二区三区| 日韩午夜电影网| 国产精品99一区| 全色精品综合影院| 精品久久久久久| caopor在线| 在线成人激情| 成人激情视频在线播放| 福利在线视频导航| 日本韩国精品一区二区在线观看| 国产人成视频在线观看| 欧美激情1区| 亚洲一区二区在线| www在线免费观看视频| 欧美日韩久久一区| 成年人视频软件| 美女mm1313爽爽久久久蜜臀| 欧美久久电影| 日韩毛片免费观看| 亚洲欧美综合v| 国产污视频网站| 久久久久久免费毛片精品| 久久久一本二本三本| 国产欧美自拍一区| 97国产精品人人爽人人做| 天堂在线观看视频| 大伊人狠狠躁夜夜躁av一区| 日批在线观看视频| 亚洲精品综合| 美女视频久久| 欧美一区久久久| 亚洲视频777| 国产成人精品一区二区色戒| 国产亚洲va综合人人澡精品| 男女视频一区二区三区| 欧美人与物videos另类xxxxx| 日韩av免费一区| aiai在线| 在线播放一区二区三区| 欧洲第一无人区观看| 国产福利一区二区三区| 国产真实老熟女无套内射| 欧美大胆视频| 国产97在线|亚洲| 97在线观看免费观看高清| 欧美日韩免费不卡视频一区二区三区 | 久久久天堂国产精品| 久久久91麻豆精品国产一区| 久久久久久av| 男女视频在线观看免费| 欧美色男人天堂| 国产精品久久久久久久精| 成人一区二区三区视频| 亚洲 高清 成人 动漫| 宅男噜噜噜66一区二区66| 国产精品久久久免费看| 国产一区视频在线看| 久久久久久久久影视| 91成人在线精品视频| 97热在线精品视频在线观看| 男女网站在线观看| 欧美精品v日韩精品v韩国精品v| 国产天堂av在线| 成人av电影在线| 在线观看的毛片| 午夜精品偷拍| 日韩av电影免费在线| 91精品国产色综合久久不卡粉嫩| 欧美激情第6页| 欧美高清电影在线| 制服丝袜一区二区三区| 国产亚洲第一页| 国产欧美精品一区| 一级黄色高清视频| 午夜一级在线看亚洲| 中文字幕一区二区三区乱码| 国语一区二区三区| 91精品久久久久久久久久久| 国产精品—色呦呦| 中文字幕免费精品一区| 亚洲精品人妻无码| 欧美视频自拍偷拍| 国产无遮挡又黄又爽在线观看| 国产欧美精品一区二区色综合| 亚洲性图第一页| 青草av.久久免费一区| 欧美日韩不卡在线视频| 日本女优一区| 精品无人区一区二区三区竹菊| 欧美激情不卡| 欧美一级免费视频| 欧美色图天堂| 日韩在线资源网| 裸体xxxx视频在线| 精品久久人人做人人爽| 一级爱爱免费视频| 色婷婷香蕉在线一区二区| 久久久久久久久久久网| 国产精品理论片在线观看| 日韩中文字幕电影| jlzzjlzz国产精品久久| 中文字幕色网站| 日本一区中文字幕| 91av在线免费播放| 免费日韩一区二区| 日韩av在线播放不卡| 一区二区三区在线观看免费| 亚洲欧洲一区二区在线观看| 久操成人av| 免费在线观看一区二区| 国产精品超碰| 国产精品.com| 91成人在线精品视频| 亚洲r级在线观看| 欧美日韩免费电影| 奇米4444一区二区三区 | 91蝌蚪porny九色| 中文字幕天堂网| 成人晚上爱看视频| 日本精品一二三| 岛国精品在线观看| 黄色在线免费播放| 粉嫩aⅴ一区二区三区四区| 亚洲在线观看网站| 国产精品一区一区三区| 伊人色在线观看| 国产最新精品精品你懂的| 手机版av在线| 国产一区二区免费在线| 国产精品中文久久久久久| 国产激情91久久精品导航 | 中文字幕亚洲欧美在线| 丁香在线视频| 色噜噜狠狠色综合网图区| 日韩伦理在线观看| 久久99久国产精品黄毛片入口| 1区2区3区在线视频| 欧美精品18videosex性欧美| av资源在线播放| 国产91成人video| 亚洲第一会所001| 成人黄色短视频在线观看| 欧美日韩午夜电影网| 国产98在线|日韩| 秋霞影院一区二区三区| 欧美日韩精品一区| 久久要要av| 欧美乱大交xxxxx潮喷l头像| 在线视频免费在线观看一区二区| 日韩视频免费在线播放| 久久99精品国产麻豆婷婷洗澡| 亚洲 自拍 另类 欧美 丝袜| 成人精品亚洲人成在线| 加勒比一区二区| 国产精品久久久久久福利一牛影视| 国产又粗又硬又长又爽| 香蕉影视欧美成人| 中国黄色一级视频| 日韩欧美久久久| 三级av在线| 精品国产一区二区三区四区在线观看 | 亚洲男人天堂九九视频| 最新电影电视剧在线观看免费观看| 免费av一区二区| 亚洲欧美电影| 91精品在线一区| 九九视频免费观看视频精品| 一区二区不卡在线视频 午夜欧美不卡'| 欧美日韩精选| 丁香婷婷激情网| 成人午夜碰碰视频| 精品熟妇无码av免费久久| 夜夜精品视频一区二区| 99re这里只有精品在线| 日韩欧美专区在线| 国产高清一区在线观看| 久久97久久97精品免视看| 亚洲黄色网址| 不卡视频一区| 欧美日韩性在线观看| 国产精品久久..4399| 美国av一区二区| 成人免费网站黄| 亚洲影视在线播放| 夜夜躁很很躁日日躁麻豆| 日韩www在线| 午夜成年人在线免费视频| 国产精品v日韩精品| 成人黄色av网址| 亚洲精品偷拍视频| 日本系列欧美系列| 野外性满足hd| 亚洲福利国产精品| 国产成人毛毛毛片| 中文字幕日韩专区| 日本欧美日韩| 精品国产一区二区三区日日嗨| 亚洲精品电影| 成人综合久久网| 欧美国产日韩亚洲一区| 毛片基地在线观看| 欧美精品一区视频| 色呦呦在线观看视频| 国产日韩欧美综合| 欧美色图在线播放| 黑鬼大战白妞高潮喷白浆| 99久久精品国产网站| 久久久久黄色片| 日韩视频免费观看高清完整版在线观看 | 国产成人无码精品久久久久| 日韩午夜电影av| av网站导航在线观看免费| 国产综合色香蕉精品| 日韩精品免费一区二区在线观看| 欧美日韩亚洲一二三| 久久日一线二线三线suv| 天天综合网入口| 日韩黄色av网站| 欧美男人天堂| 国产三区精品| 一本色道久久综合| 右手影院亚洲欧美| 日韩欧美在线第一页| 三级在线播放| 国产成人高清激情视频在线观看| 美女毛片一区二区三区四区| 日本免费黄视频| 久久亚洲精品小早川怜子| 亚洲熟妇无码乱子av电影| 亚洲欧美成人网| 国产91欧美| 中文字幕一区二区三区乱码| 国产一区免费电影| 久久久久久久久精| 日韩精品一二三四区| 黑人巨大精品| 在线观看日本一区| 丁香婷婷深情五月亚洲| 五月婷婷激情网| 亚洲日韩第一页| 另类一区二区| 免费观看亚洲视频| 9人人澡人人爽人人精品| 久久久久久久久黄色| 中文字幕在线亚洲| 日本一区精品视频| av7777777| 欧美国产国产综合| 国产av一区二区三区| 久久久久久久国产精品视频| 欧美丝袜美腿| 深夜黄色小视频| 亚洲综合男人的天堂| 头脑特工队2在线播放| 国产精品一二三视频| 欧美国产综合| 一级片视频免费看| 91精品国产91久久久久久一区二区 | 国产欧美日韩视频在线观看| 国产精品无码久久av| 97精品一区二区三区| 成人三级视频| 又黄又色的网站| 在线欧美日韩精品| 欧美人与动牲性行为| 欧美极品色图| 国产乱码精品一品二品| 久热这里只有精品6| 久久精品91久久久久久再现| 加勒比色老久久爱综合网| 激情黄色小视频| 欧美色图在线视频| 三级资源在线| 日韩av一级大片|