精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

摸底谷歌Gemini:CMU全面測評,Gemini Pro不敵GPT 3.5 Turbo

人工智能 新聞
谷歌的 Gemini 到底幾斤幾兩?和 OpenAI 的 GPT 模型相比表現如何?CMU 這篇論文測明白了。

前段時間,谷歌發布了對標 OpenAI GPT 模型的競品 ——Gemini。這個大模型共有三個版本 ——Ultra(能力最強)、Pro 和 Nano。研究團隊公布的測試結果顯示,Ultra 版本在許多任務中優于 GPT4,而 Pro 版本與 GPT-3.5 不相上下。

盡管這些對比結果對大型語言模型研究具有重要意義,但由于確切的評估細節和模型預測尚未公開,這限制了對測試結果的復現、檢測,難以進一步分析其隱含的細節。

為了了解 Gemini 的真正實力,來自卡內基梅隆大學、BerriAI 的研究者對該模型的語言理解和生成能力進行了深入探索。

他們在十個數據集上測試了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文本理解和生成能力。具體來說,他們在 MMLU 上測試了模型回答基于知識的問題的能力,在 BigBenchHard 上測試了模型的推理能力,在 GSM8K 等數據集中測試了模型解答數學問題的能力,在 FLORES 等數據集中測試了模型的翻譯能力;在 HumanEval 等數據集中測試了模型的代碼生成能力;在 WebArena 中測試了模型作為遵循指令的智能體的能力。

下表 1 展示了對比的主要結果。總體而言,截至論文發稿日,在所有任務中,Gemini Pro 在準確性上接近 OpenAI GPT 3.5 Turbo,但仍然稍遜一籌。此外,他們還發現,Gemini 和 GPT 比開源競品模型 Mixtral 表現要好一些。

在論文中,作者對每項任務都進行了深入的描述和分析。所有結果和可復現的代碼可參閱:https://github.com/neulab/gemini-benchmark

論文鏈接:https://arxiv.org/pdf/2312.11444.pdf

實驗設置

作者選擇了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 四個模型作為測試對象。

圖片

由于此前有研究在評估時存在實驗設置方面的差異,為確保測試公平,作者采取了完全相同的提示詞和評估協議重新運行了實驗。在大多數測評中,他們采用了提示詞和來自標準資源庫的評價標準。這些測試資源來自模型發布時附帶的數據集以及測評工具 Eleuther 等。其中,提示詞通常包含查詢、輸入、少量示例和思維鏈推理等。在某些特殊測評中,作者發現有必要對標準實踐進行小幅調整。調整偏差已在對應的代碼儲存庫中執行,請查閱論文原文。

這項研究的目標如下:

1. 通過可復現的代碼和完全透明的結果,提供對 OpenAI GPT 和 Google Gemini 模型能力的第三方客觀比較。

2. 深入研究測評結果,分析兩個模型在哪些領域中的表現更加突出。

基于知識的問答(Knowledge-based QA)

作者從 MMLU 數據集中選擇了 57 個基于知識的多項選擇問答任務,涵蓋了 STEM 以及人文社科等各種主題。MMLU 共有 14,042 個測試樣本,已經廣泛用于對大型語言模型的知識能力進行整體評估。

作者比較并分析了四個測試對象在 MMLU 上的整體表現(如下圖所示)、子任務表現以及輸出長度對表現的影響。

圖 1:使用 5 個樣本提示和思維鏈提示,各個模型在 MMLU 上的總體準確率。

從圖中可以看到,Gemini Pro 的準確性低于 GPT 3.5 Turbo,并且遠低于 GPT 4 Turbo。在使用思維鏈提示時,各模型表現差異不大。作者推測這是由于 MMLU 主要收錄的是基于知識的問答任務,這些任務可能不會從更強的推理導向提示中顯著受益。

值得注意的是,MMLU 中的所有問題都是單選題,有 A 到 D 四個按順序排列的潛在答案。下圖中展示了每個模型選擇每個答案選項的比例。從圖中可以看到 Gemini 的答案分布非常傾斜,偏向于選擇最后的 D 選項。這與各版本的 GPT 給出的更加平衡的結果形成了對比。這可能表明,Gemini 沒有接受與多選題相關的大量指令調整,導致模型在答案排序方面存在偏見。

圖 2:被測模型預測的單選題答案的比例。

下圖展示了被測模型在 MMLU 測試集的子任務上的表現。與 GPT 3.5 相比,Gemini Pro 在大多數任務上的表現不佳。思維鏈提示降低了子任務之間的方差。

圖 3:被測模型在每個子任務上的準確率。

作者深入探討了 Gemini Pro 的強項和弱項。從圖 4 中可以觀察到,Gemini Pro 在人類性別(社會科學)、形式邏輯(人文科學)、初等數學(STEM) 和專業醫學(專業領域)任務中落后于 GPT 3.5。在 Gemini Pro 更擅長的兩個任務中,領先優勢也很微弱。

圖 4:Gemini Pro 和 GPT 3.5 在 MMLU 上的優勢任務。

Gemini Pro 在特定任務上的表現不佳可以歸因于兩個原因。首先,在某些情況下,Gemini 無法返回答案。在大多數 MMLU 子任務中,API 響應率超過 95%,但在道德(響應率 85%)、人類性別(響應率 28%)這兩個任務的相應率明顯較低。這表明 Gemini 在一些任務中性能較低可能是由于輸入的內容過濾器。其次,Gemini Pro 在解決形式邏輯和基礎數學任務所需的基本數學推理方面的表現稍差。

作者還分析了思維鏈提示中的輸出長度如何影響模型性能,如圖 5 所示。一般來說,更強大的模型傾向于進行更復雜的推理,因此會輸出更長的回答。與「對手」相比,Gemini Pro 有一個值得注意的優勢:它的準確性受輸出長度的影響較小。當輸出長度超過 900 時,Gemini Pro 甚至優于 GPT 3.5。然而,與 GPT 4 Turbo 相比,Gemini Pro 和 GPT 3.5 Turbo 很少能輸出長推理鏈。

圖片

圖 5:被測模型在 MMLU 上的輸出長度分析。

通用推理(General-purpose Reasoning)

在 BIG-Bench Hard 測試集中,作者對被測對象展開了通用推理能力的測評。BIG-Bench Hard 包含 27 個不同的推理任務,如算術、符號和多語言推理、事實知識理解等任務。大多數任務由 250 個問題 - 答案對組成,少數任務的問題數量稍少一些。

圖 6 中展示的是被測模型的整體準確率。可以看出,Gemini Pro 的準確率略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。相比之下,Mixtral 模型的準確率還要低得多。

圖 6:被測模型在 BIG-Bench-Hard 上的整體準確率。

作者更深入地探討了為什么 Gemini 通用推理整體表現不佳。首先,他們按問題的長度檢查了準確率。如圖 7 所示,Gemini Pro 在更長、更復雜的問題上表現不佳。而 GPT 模型,特別是 GPT 4 Turbo,即使在非常長的問題中, GPT 4 Turbo 的退步也非常小。這表明它的魯棒性很強,能夠理解更長和更復雜的提問和查詢。GPT 3.5 Turbo 的魯棒性一般。Mixtral 在問題長度方面表現穩定,但整體準確率較低。

圖 7:被測模型在 BIG-Bench-Hard 上按問題長度劃分的準確率。

作者分析了被測模型在 BIG-Bench-Hard 具體任務中是否存在準確率的差異。圖 8 中展示了 GPT 3.5 Turbo 在哪些任務上比 Gemini Pro 表現更好。

在「追蹤變換物體的位置」的任務中,Gemini Pro 的表現特別糟糕。這些任務涉及人們交換物品并追蹤誰是某項物品的擁有者,但 Gemini Pro 經常難以保持正確的順序。

圖片

圖 8:GPT 3.5 Turbo 優于 Gemini Pro 的 BIG-Bench-Hard 子任務 。

在需要多步解的算術題、查找翻譯中的錯誤等任務中,Gemini Pro 遜于 Mixtral。

也有 Gemini Pro 優于 GPT 3.5 Turbo 的任務。圖 9 展示了 Gemini Pro 以最大優勢領先于 GPT 3.5 Turbo 的六個任務。這些任務是異構的,包括需要世界知識的(sports_understanding)、操作符號堆棧(dyck_languages)、按字母順序對單詞進行排序(word_sorting)以及解析表格(penguins_in_a_table)等。

圖 9:Gemini Pro 優于 GPT 3.5 的 BIG-Bench-Hard 子任務。

作者進一步分析了被測模型在不同答案類型中的魯棒性,如圖 10 所示。Gemini Pro 在「Valid/Invalid」答案類型中的表現最差,該答案類型屬于任務 formal_fallacies。有趣的是,該任務有 68.4% 的問題沒有回答響應。然而,在其它(由 word_sorting 和 dyck_language 任務組成)的答案類型中,Gemini Pro 表現優于所有 GPT 模型與 Mixtral。即 Gemini Pro 特別擅長重新排列單詞和按正確順序生成符號。另外,對于 MCQ 答案,有 4.39% 的問題被 Gemini Pro 阻止回應。GPT 模型在這方面表現出色,Gemini Pro 難以與它們競爭。

圖片圖 10:被測模型在 BIG-Bench-Hard 上按答案類型劃分的準確性。

總之,似乎沒有哪個模型在特定任務上一馬當先。因此,在執行通用推理任務時,不妨在 Gemini 和 GPT 模型中都嘗試一下,然后再決定使用哪個模型。

數學能力

為了評估被測模型的數學推理能力,作者選擇了四個數學問題基準測試集:

(1)GSM8K:小學數學基準測試;

(2)SVAMP :通過改變單詞順序生成問題來檢查魯棒推理能力;

(3)ASDIV:具有不同的語言模式和問題類型;

(4)MAWPS:包含算術和代數詞問題。

作者比較了 Gemini Pro 、GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 在四個數學問題測試集上的準確性,檢查了它們的整體性能、不同問題復雜度下的性能以及不同思維鏈深度下的性能。

圖 11 呈現了整體結果,Gemini Pro 在包含不同語言模式的 GSM8K、SVAMP 和 ASDIV 的任務中,準確性略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。對于 MAWPS 中的任務,盡管所有被測模型的準確性都超過 90%,但 Gemini Pro 仍然略遜于 GPT 模型。在這個任務中,GPT 3.5 Turbo 以微弱的優勢勝過了 GPT 4 Turbo。相比之下,Mixtral 模型的準確性遠低于其他模型。

圖片

圖 11:被測模型在四個數學推理測試集任務中的整體準確性。

圖 12 中展示了每個模型對問題長度的魯棒性。與 BIG-Bench Hard 中的推理任務類似,被測模型在回答較長的問題時,準確性有所下降。GPT 3.5 Turbo 在較短的題目上表現優于 Gemini Pro,但退步的速度更快,Gemini Pro 在較長的題目的準確性上與 GPT 3.5 Turbo 類似,但仍稍稍落后。

圖片

圖 12:被測模型在四個數學推理測試集任務中,對于不同問題長度的生成答案的準確性。

此外,作者還觀察到當答案需要更長的思維鏈時,被測模型的準確性也有不同。如圖 13 所示,即使使用長推理鏈時,GPT 4 Turbo 也非常魯棒,而 GPT 3.5 Turbo、Gemini Pro 和 Mixtral 在 COT 長度不斷增加時表現出力不從心。通過分析,作者還發現,在 COT 長度超過 100 的復雜例子中,Gemini Pro 優于 GPT 3.5 Turbo,但在較短的例子中表現不佳。

圖片

圖 13:不同思維鏈長度下,各模型在 GSM8K 上的準確性。

圖 14 顯示了被測模型對于不同數字數量在生成答案時的準確性。作者根據答案中的數字數量是 1 個、2 個還是 3 個以上創建了三個「桶」(除了 MAWPS 任務,該任務的答案沒有超過兩位數的數字)。如圖所示,GPT 3.5 Turbo 似乎對多位數的數學問題更加魯棒,而 Gemini Pro 在更多數字的問題上有所退化。


圖片

圖 14:各個模型在四個數學推理測試集任務中在答案數字數量不同時的準確性。

代碼生成

在這一部分,作者使用兩個代碼生成數據集 ——HumanEval 和 ODEX—— 來檢驗模型的編碼能力。前者測試模型對 Python 標準庫中有限的一組函數的基本代碼理解能力,后者測試模型使用整個 Python 生態系統中更廣泛的庫集的能力。這兩個問題的輸入都是用英語編寫的任務說明(通常帶有測試用例)。這些問題用來評估模型的語言理解能力、算法理解能力和初等數學能力。總的來說,HumanEval 有 164 個測試樣本,ODEX 有 439 個測試樣本。

首先,從圖 15 所示的總體結果中,可以看到 Gemini Pro 在兩項任務上的 Pass@1 分數均低于 GPT 3.5 Turbo,也遠低于 GPT 4 Turbo。這些結果表明,Gemini 的代碼生成能力還有待提高。

圖片

圖 15:各個模型在代碼生成任務中的總體準確性。

其次,作者在圖 16 (a) 中分析了 gold solution 長度與模型性能之間的關系。解的長度可以在一定程度上說明相應代碼生成任務的難度。作者發現,Gemini Pro 在解的長度低于 100 時(如較容易的情況),實現了與 GPT 3.5 相當的 Pass@1 分數,但當解的長度變長時,它就會大幅落后。這與前幾節的結果形成了有趣的對比,在前幾節中,作者發現一般情況下,Gemini Pro 在英語任務中對較長的輸入和輸出都能表現穩健。

圖片

作者還在圖 16 (b) 中分析了每個解所需的庫對模型性能的影響。在大多數庫用例中,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。不過,在 matplotlib 的用例中,它的性能要優于 GPT 3.5 和 GPT 4,這表明它在通過代碼執行繪圖可視化時具有更強的能力。

最后,作者展示了幾個具體的失敗案例,在這些案例中,Gemini Pro 在代碼生成方面的表現比 GPT 3.5 差。首先,他們注意到 Gemini 在正確選擇 Python API 中的函數和參數方面略遜一籌。例如,給定以下提示:  

圖片

Gemini Pro 生成了以下代碼,結果出現了類型不匹配錯誤:   

圖片

相比之下,GPT 3.5 Turbo 使用了以下代碼,達到了預期效果:  

圖片

此外,Gemini Pro 的錯誤比例較高,在這種情況下,執行的代碼在語法上是正確的,但不能正確地與更復雜的意圖相匹配。例如,關于以下提示:   

圖片

Gemini Pro 創建了一種實現方法,只提取唯一的數字,而不刪除那些出現多次的數字。

圖片

機器翻譯

這組實驗使用 FLORES-200 機器翻譯基準評估了模型的多語言能力,特別是在各種語言對之間的翻譯能力。作者將重點放在 Robinson et al. (2023) 的分析所使用的 20 種語言的不同子集上,這些語言涵蓋不同程度的資源可用性和翻譯難度。作者對所有選定語言對的測試集中的 1012 個句子進行了評估。

在表 4 和表 5 中,作者對 Gemini Pro、GPT 3.5 Turbo 和 GPT 4 Turbo 與谷歌翻譯等成熟系統進行了比較分析。此外,他們還對 NLLB-MoE 進行了基準測試,NLLB-MoE 是領先的開源機器翻譯模型,以其廣泛的語種覆蓋而著稱。結果表明,谷歌翻譯總體上優于其他模型,在 9 種語言上表現出色;其次是 NLLB,在 0/5-shot 設置下,在 6 種 / 8 種語言上表現出色。通用語言模型顯示出具有競爭力的性能,但在翻譯成非英語語言方面尚未超越專用機器翻譯系統。

圖片

表 4:各模型使用 0-shot 提示對所有語言進行機器翻譯的性能(chRF (%) 分數)。最佳分數以粗體顯示,次佳分數以下劃線顯示。

表 5:各模型使用 5-shot 提示對所有語言進行機器翻譯的性能(chRF (%) 分數)。最佳分數以粗體顯示,次佳分數以下劃線顯示。

圖 17 顯示了通用語言模型在不同語言對中的性能比較。與 GPT 3.5 Turbo 和 Gemini Pro 相比,GPT 4 Turbo 與 NLLB 表現出一致的性能偏差。GPT 4 Turbo 在低資源語言方面也有較大改進,而在高資源語言方面,兩種 LLM 的性能相似。相比之下,在 20 種語言中的 8 種語言上,Gemini Pro 的性能優于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 種語言上取得了最高性能。不過,Gemini Pro 在大約 10 種語言對中表現出強烈的屏蔽響應(block response)傾向。

圖片

圖 17:按語言對劃分的機器翻譯性能(chRF (%) 分數)。

圖 18 顯示,Gemini Pro 在這些語言中的性能較低,這是因為它傾向于在置信度較低的場景中屏蔽響應。如果 Gemini Pro 在 0-shot 或 5-shot 配置中產生「Blocked Response」錯誤,則該響應被視為「屏蔽」。

圖片

圖 18:被 Gemini Pro 屏蔽的樣本數量。

仔細觀察圖 19 可以發現,Gemini Pro 在置信度較高的無屏蔽樣本中略微優于 GPT 3.5 Turbo 和 GPT 4 Turbo。具體來說,它在 5-shot 和 0-shot 設置下分別比 GPT 4 Turbo 多出 1.6 chrf 和 2.6 chrf,比 GPT 3.5 Turbo 多出 2.7 chrf 和 2 chrf。不過,作者對 GPT 4 Turbo 和 GPT 3.5 Turbo 在這些樣本上的性能進行的初步分析表明,這些樣本的翻譯通常更具挑戰性。Gemini Pro 在這些特定樣本上表現不佳,尤其明顯的是,Gemini Pro 0-shot 會屏蔽響應,而 5-shot 則不會,反之亦然。

圖片

圖 19:屏蔽和非屏蔽樣本的 chrf 性能(%)。

在對模型的整個分析過程中,作者觀察到,few-shot 提示一般都能適度提高平均性能,其 variance pattern 依次遞增:GPT 4 Turbo < GPT 3.5 Turbo < Gemini Pro。雖然 Gemini Pro 的 5-shot 提示在置信度高的語言中比 0-shot 提示有進步,但在某些語言中,如 hau_Latin,該模型的置信度明顯降低,導致應答受阻(參見表 5)。

圖 20 顯示了按語系或 script 分類的明顯趨勢。一個重要的觀察結果是,Gemini Pro 在西里爾文字上的表現與其他機型相比具有競爭力,但在其他文字上的表現卻不盡如人意。GPT-4 在各種 script 上的表現突出,優于其他模型,其中 few-shot 提示尤為有效。這種效果在使用梵文的語言中尤為明顯。

圖 20:各個模型在不同 script 上的表現 (chrf (%))。

Web 智能體

最后,作者考察了每個模型作為網絡導航智能體的能力,這是一項需要長期規劃和復雜數據理解的任務。他們使用了模擬環境 WebArena,該環境成功的標準是執行結果。賦予智能體的任務包括信息搜索、網站導航以及內容和配置操作。任務涉及各種網站,包括電子商務平臺、社交論壇、協同軟件開發平臺(如 gitlab)、內容管理系統和在線地圖。

作者測試了 Gemini-Pro 的總體成功率、不同任務的成功率、響應長度、軌跡步數以及預測任務無法完成的傾向。表 6 列出了總體性能。Gemini-Pro 的表現與 GPT-3.5-Turbo 接近,但略遜一籌。與 GPT-3.5-Turbo 類似,當提示提到任務可能無法完成時(UA hint),Gemini-Pro 的表現更好。在有 UA hint 的情況下,Gemini-Pro 的總體成功率為 7.09%。

表 6:各個模型在 WebArena 上的表現。

如果按網站類型進行細分,如圖 21 所示,可以看到 Gemini-Pro 在 gitlab 和地圖上的表現不如 GPT-3.5-Turbo,而在購物管理、reddit 和購物網站上的表現則接近 GPT-3.5-Turbo。在多站點任務上,Gemini-Pro 的表現優于 GPT-3.5-Turbo,這與之前的結果一致,即 Gemini 在各種基準的更復雜子任務上表現更好一些。


圖片

圖 21:模型在不同類型網站上的 Web 智能體成功率。

如圖 22 所示,一般來說,Gemini-Pro 把更多的任務預測為無法完成,尤其是在給出一個 UA hint 的情況下。Gemini-Pro 在給出 UA hint 的情況下,預測 80.6% 以上的任務無法完成,而 GPT-3.5-Turbo 只預測了 47.7%。需要注意的是,數據集中僅有 4.4% 的任務實際上是無法完成的,因此兩者都遠遠高估了無法完成的任務的實際數量。

圖片

圖 22:UA 預測數量。

同時,作者觀察到,Gemini Pro 更傾向于用較短的短語做出回應,在得出結論前采取較少的步驟。如圖 23 (a) 所示,Gemini Pro 有一半以上的軌跡少于 10 步,而 GPT 3.5 Turbo 和 GPT 4 Turbo 的大多數軌跡在 10 到 30 步之間。同樣,Gemini 的大部分回復長度不到 100 個字符,而 GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 的大部分回復長度超過 300 個字符(圖 23 (b))。Gemini 傾向于直接預測行動,而其他模型則會先進行推理,然后給出行動預測。

圖片

圖 23:模型在 WebArena 上的行為。

更多細節請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2023-12-24 13:56:37

2024-05-20 07:50:00

谷歌模型

2025-02-14 08:00:00

人工智能Gemini 2.0LLM

2024-05-20 15:40:00

AI數學

2024-08-02 14:58:00

2024-04-25 08:57:04

2023-12-22 12:41:01

模型訓練

2024-03-08 14:18:04

谷歌GPT3.5Gemini Pro

2025-06-17 08:40:44

2024-01-02 14:07:00

2023-07-10 15:22:29

OpenAIGPT-3.5

2024-02-27 11:46:40

2023-12-14 13:04:00

訓練數據

2023-03-02 22:46:48

2025-11-19 08:10:51

2025-08-19 08:08:05

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-12-08 08:10:34

谷歌GeminiOpenAI

2025-11-21 09:09:22

點贊
收藏

51CTO技術棧公眾號

超碰在线97观看| 国产又黄又猛又粗又爽的视频| www.av在线.com| 136国产福利精品导航网址| 精品国产人成亚洲区| 日韩精品xxxx| 午夜小视频在线| 国产精品自拍三区| 欧美做爰性生交视频| 亚洲av毛片基地| 亚洲视频一起| 在线看日韩精品电影| 日韩精品第1页| 激情综合闲人网| 国产91在线看| 国产精品吹潮在线观看| 九九视频免费观看| 日韩精品导航| 欧美天堂一区二区三区| 日本a在线免费观看| 日本一级在线观看| 国产sm精品调教视频网站| 日韩免费在线播放| 久热这里只有精品在线| 国产精品21p| 日韩一级片免费观看| 久久精品一本| 久久久久久久国产精品| 中文天堂资源在线| 麻豆精品99| 日韩视频中午一区| 国产三级三级看三级| 国产激情视频在线看| 欧美久久精品一级c片| 欧美电影影音先锋| 欧美国产日韩在线播放| a天堂资源在线| 亚洲黄色尤物视频| 亚洲精品成人a8198a| 手机在线观看毛片| 国产sm精品调教视频网站| 国产日产欧美精品| 亚洲高清视频免费观看| 国产婷婷精品| 欧美精品久久久久a| 三上悠亚在线观看视频| 国产一区二区三区站长工具| 欧美精品一区二区三区高清aⅴ| 一级黄色在线播放| 精品三级在线| 欧美中文字幕不卡| 国产精品亚洲二区在线观看| 亚洲精品日产| 黄色成人av网| 日本少妇高潮喷水视频| 黄色激情在线播放| 精品欧美aⅴ在线网站| 国产欧美精品aaaaaa片| 18视频在线观看网站| 日韩毛片在线免费观看| 一区二区不卡在线观看| 思思99re6国产在线播放| 欧美激情综合五月色丁香小说| 久久影视中文粉嫩av| 色视频精品视频在线观看| 99精品视频一区二区三区| 亚洲美女精品一区| 国产精品三级网站| 中文在线观看免费高清| 日本不卡视频在线观看| 国产欧美 在线欧美| 一区二区视频网| 韩国av一区二区三区四区| 成人午夜一级二级三级| 午夜精品久久久久久久99热黄桃| 国产91在线看| 日韩在线一区二区三区| 久久天堂电影网| 三上悠亚在线观看视频| 欧美日韩岛国| 性欧美xxxx视频在线观看| 国产一级做a爱片久久毛片a| 在线一区欧美| 国产精品福利小视频| 精品乱码一区内射人妻无码| 久久精品国产99| 91久久爱成人| 无码h黄肉3d动漫在线观看| 91网站在线播放| 亚洲精品视频一二三| av观看在线| 欧美日韩免费区域视频在线观看| 国产在线青青草| 中韩乱幕日产无线码一区| 337p亚洲精品色噜噜狠狠| 嫩草视频免费在线观看| 日韩国产在线不卡视频| 亚洲精品中文字幕有码专区| 97人人模人人爽人人喊38tv| 91香蕉一区二区三区在线观看| 欧美精品18| 欧美亚洲在线观看| 91精品国产综合久| 99在线精品观看| 一区二区三区欧美成人| 99爱在线视频| 欧美日韩国产综合一区二区| 精品人妻一区二区免费| 久久av免费看| 欧美成人精品在线| 无码一区二区三区在线观看| 国产美女娇喘av呻吟久久| 精品视频第一区| 成人影院在线观看| 色婷婷国产精品| 一级黄色大片免费看| av中文字幕一区二区| 国模精品视频一区二区三区| 中文字幕 自拍偷拍| www.亚洲国产| 中文字幕色呦呦| 国产麻豆一区| 国产视频精品自拍| 国产亚洲色婷婷久久99精品| 激情综合亚洲精品| 日韩中文字幕一区| 国产精品蜜芽在线观看| 3d动漫精品啪啪1区2区免费| 国产精品高清无码在线观看| 激情丁香综合| 亚洲一区二区三区视频播放| www日韩tube| 欧美丝袜一区二区| 国内自拍偷拍视频| 欧美一区二区三区另类| 国产一区深夜福利| melody高清在线观看| 欧美视频精品一区| 丰满岳乱妇一区二区| 欧美一区在线看| 国产日韩欧美在线视频观看| 精品欧美不卡一区二区在线观看| 午夜精品久久久久久不卡8050| 99精品视频免费版的特色功能| 日韩精品一区二区久久| 青青久久aⅴ北条麻妃| 污污网站在线免费观看| 亚洲大片精品永久免费| 精品人妻伦一二三区久| 极品日韩av| 国产精品区一区二区三在线播放| 麻豆传媒在线完整视频| 精品视频资源站| 网站永久看片免费| 久久91精品国产91久久小草| 亚洲欧美日韩另类精品一区二区三区 | 国产精品分类| 99超碰麻豆| 五月天激情在线| 欧美v国产在线一区二区三区| 极品颜值美女露脸啪啪| 国产不卡视频在线播放| 中文字幕日韩精品无码内射| 亚洲乱码一区| 久久青草福利网站| 午夜视频免费看| 欧美色道久久88综合亚洲精品| 亚洲成人av免费在线观看| 一区二区三区国产在线| 免费看成人av| 88xx成人网| 米奇精品一区二区三区在线观看| 精品人妻一区二区三区四区不卡 | 日韩不卡中文字幕| 在线免费观看国产精品| 国产精品三级在线观看| 日韩欧美理论片| 黄色日韩在线| 欧美1o一11sex性hdhd| 另类中文字幕国产精品| 久久久精品999| 国产香蕉在线观看| 精品日本高清在线播放| 日本少妇高潮喷水xxxxxxx| 蜜桃av一区二区| 老司机午夜网站| 日韩高清三区| 国产做受高潮69| 中文无码精品一区二区三区| 国产精品久久久久久户外露出| 中文字幕资源在线观看| 国产综合激情| 日韩国产欧美一区| 久久九九精品视频| 欧美一区二三区| 日本高清视频在线观看| 日韩精品一区二区三区蜜臀| 性无码专区无码| 国产精品国产三级国产| 国产在线不卡av| 久久精品72免费观看| 日韩av新片网| 91欧美在线| 国产日产精品一区二区三区四区 | 欧美亚洲一级片| 国产原厂视频在线观看| 日韩电影大全免费观看2023年上| 中文字幕乱码人妻二区三区| 亚洲国产精品一区二区久久恐怖片| 性猛交娇小69hd| 国产宾馆实践打屁股91| 三级视频中文字幕| 亚洲作爱视频| 国产欧美自拍视频| 精品久久国产| 国产一区在线看| 国产精品免费一区二区| 国产成人免费精品| 热久久这里只有精品| 国产色婷婷在线| 蜜臀久久99精品久久久久久宅男 | 国产性生活视频| 亚洲一区在线视频| 久久精品亚洲a| 国产欧美综合色| 特级西西人体wwwww| 懂色av中文字幕一区二区三区| 亚洲欧美国产日韩综合| 亚洲一区二区三区高清| 久艹在线免费观看| 欧美在线不卡| 在线观看免费黄色片| 日韩在线视频精品| 欧美一区二区在线| 天堂成人娱乐在线视频免费播放网站 | 精品无码一区二区三区电影桃花| 国产精品国产自产拍高清av| japanese中文字幕| 2023国产精品视频| 国内精品久久99人妻无码| av电影天堂一区二区在线 | 玖玖精品一区| 国产欧美精品在线| 成人视屏在线观看| 欧美高清视频免费观看| 国产手机视频在线观看| 456成人影院在线观看| 97国产在线视频| 欧美xxxx做受欧美88bbw| 欧美精品免费在线| 精品美女在线观看视频在线观看| 亚洲天堂男人的天堂| 午夜精品小视频| 欧美一级免费大片| www.午夜激情| 日韩精品一区二区三区三区免费| 一级做a爱片久久毛片| 欧美日韩国产在线播放网站| 奴色虐av一区二区三区| 91久久精品午夜一区二区| 少妇一级淫片免费放中国 | 熟妇人妻久久中文字幕| 国产精品亚洲成人| 中文字幕一二三| 九色porny丨国产精品| 天天色天天综合网| 久久99国产精品尤物| 九九精品久久久| 国产福利一区二区三区视频在线 | 亚洲精选久久| 久久99久久99精品| 在线日本成人| 国产一区二区网| 石原莉奈一区二区三区在线观看| 白嫩少妇丰满一区二区| 日韩电影在线免费看| 国产精品igao网网址不卡| 国产经典欧美精品| 亚洲一二三四五| 久久精品视频一区二区三区| 手机看片福利视频| 中文字幕一区二区不卡| 国产午夜视频在线| 欧美视频在线观看免费| www.久久网| 亚洲第一色在线| 美女做暖暖视频免费在线观看全部网址91 | 久久综合色影院| 丰乳肥臀在线| 国产精品色婷婷视频| 国产日韩在线观看视频| 国产精品青青草| 91欧美大片| 欧美午夜性视频| 日韩成人精品在线观看| 蜜桃色一区二区三区| 久久综合久久99| 色哟哟一一国产精品| 欧美日韩亚洲天堂| 国产原创中文av| 亚洲精品一区二区三区影院| 99视频在线观看地址| 欧美人在线视频| 日韩成人影音| 国产成人亚洲欧美| 成人女性视频| 超级碰在线观看| 日本中文字幕不卡| 日本黄色录像片| 亚洲日本一区二区三区| 在线免费观看国产精品| 欧美成人高清电影在线| 黄色小视频在线免费观看| 欧美黑人xxx| 日韩黄色三级在线观看| 国产三级精品在线不卡| 亚洲成人二区| 久久国产乱子伦免费精品| 国产99精品国产| 日韩一卡二卡在线观看| 天天操天天色综合| 欧美视频在线观看一区二区三区| 中文字幕欧美精品日韩中文字幕| 黄网在线免费看| 亚洲bt欧美bt日本bt| 不卡在线一区二区| 黄页免费在线观看视频| 国产成人aaaa| 在线观看天堂av| 午夜电影一区二区| 免费a视频在线观看| 久久精品国产亚洲| 国产69精品久久久久9999人| 国产区二精品视| 欧美午夜国产| 久草福利在线观看| 中文字幕一区二区不卡| 中文区中文字幕免费看| 一区二区三欧美| 蜜桃视频动漫在线播放| 成人免费黄色网| 亚洲激情五月| 亚洲综合婷婷久久| 国产精品久久久久久久久动漫 | 欧美精品激情视频| 99热这里只有精品首页| 中国老女人av| 国产成人综合亚洲网站| 永久av免费网站| 精品视频一区 二区 三区| 尤物网在线观看| 国产精品一区=区| 成人一区二区| 亚洲精品综合在线观看| 国产精品婷婷午夜在线观看| 国产精品va无码一区二区三区| 亚洲精品短视频| 免费毛片b在线观看| 六十路精品视频| 国产美女诱惑一区二区| 亚洲综合自拍网| 色综合视频一区二区三区高清| 亚洲人在线观看视频| 国产综合在线看| 日韩精品丝袜美腿| 成人综合视频在线| 中文字幕的久久| 亚洲图片小说视频| 这里只有精品在线观看| 久久伊人国产| 国产奶头好大揉着好爽视频| 国产v日产∨综合v精品视频| 国产亚洲精品久久久久久无几年桃| 日韩精品资源二区在线| 两个人看的在线视频www| 久久久久久久久一区| 午夜在线一区| 成年人二级毛片| 日韩三级视频在线观看| 日韩脚交footjobhdboots| 色狠狠久久av五月综合| 国产成人av电影免费在线观看| 久久精品国产成人av| 伊人av综合网| 福利片一区二区| 欧美极品欧美精品欧美图片| 综合中文字幕亚洲| 丰满大乳国产精品| 国产精品视频成人| 欧美片第1页综合| yjizz视频| 欧美另类z0zxhd电影| 欧美xxxx黑人又粗又长| 欧美日韩综合另类| 精品一区二区三区免费观看 | 91caoporm在线视频| 爱情岛论坛亚洲入口| 日本特黄久久久高潮| 国产无套内射又大又猛又粗又爽| 中文字幕欧美精品在线|