精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AlphaGo之父找到創造強化學習算法新方法:讓AI自己設計

人工智能 新聞
近日,谷歌 DeepMind 團隊在 Nature 上發表的一篇論文探索了這一可能性。并且,他們得到了非常積極的結果:機器確實能夠自主發現性能達到 SOTA 的強化學習規則,并且其表現優于人工設計的規則。

強化學習是近來 AI 領域最熱門的話題之一,新算法也在不斷涌現。

那么,問題來了:AI 能不能自己發現強大的強化學習算法呢?

近日,谷歌 DeepMind 團隊在 Nature 上發表的一篇論文探索了這一可能性。并且,他們得到了非常積極的結果:機器確實能夠自主發現性能達到 SOTA 的強化學習規則,并且其表現優于人工設計的規則。

標題:Discovering state-of-the-art reinforcement learning algorithms

地址:https://www.nature.com/articles/s41586-025-09761-x

值得注意的是,該團隊的負責人、通訊作者是強化學習領域的引領研究者 David Silver,他也曾領導了著名的 AlphaGo 項目,常被稱為「AlphaGo 之父」。截至目前,David Silver 的引用量已接近 27 萬。本研究共有四位共同一作:Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。

具體到方法上,該團隊的思路是:在大量復雜環境中,基于大量智能體的經驗積累,進行元學習(meta-learning)。這個方法能夠發現智能體在更新策略與預測時所遵循的強化學習規則。

該團隊還進行了大規模實驗,結果發現這一「自動發現的規則」在經典的 Atari 基準測試上超越了所有現有方法,并且在若干它從未見過的高難度基準測試上也優于多種 SOTA 強化學習算法。

這一研究結果可謂意義重大。它意味著,未來實現高級 AI 所需的強化學習算法或許將不再依賴人工設計,而是能夠從智能體自身的經驗中自動涌現與進化。

發現方法

該團隊的發現方法涉及兩種類型的優化:智能體優化和元優化。智能體參數通過將其策略和預測更新至強化學習規則所產生的目標來進行優化。與此同時,強化學習規則的元參數則通過更新其目標來進行優化,以最大化智能體的累積獎勵。

智能體網絡

許多強化學習研究考慮的是智能體應該做出什么預測(例如,價值),以及應該使用什么損失函數來學習這些預測(例如,TD 學習)和改進策略(例如,策略梯度)。

該團隊沒有采用手工設計的方式,而是定義了一個沒有預定義語義、富有表現力的預測空間,并通過使用元網絡進行元學習,來找出智能體需要優化的內容。他們希望在保留表征現有強化學習算法中核心思想能力的同時,也支持廣闊的新穎算法可能性空間。

為此,該團隊讓由 θ 參數化的智能體除了輸出策略 π 之外,還輸出兩種類型的預測:一個基于觀測的向量預測  y (s)  和一個基于動作的向量預測 z (s,a) ,其中 s 和 a 分別是觀測和動作 (見下圖)。

這些預測的形式源于「預測」與「控制」之間的根本區別。例如,價值函數通常被分為狀態函數 v (s) (用于預測) 和動作函數 q (s,a) (用于控制)。強化學習中的許多其他概念,例如獎勵和后繼特征,也同樣具有一個基于觀測的版本 s??^m 和一個基于動作的版本 s,a??^m.  因此,這對預測 (y,z) 的函數形式足夠通用,可以用來表示 RL 中的許多現有基本概念,但又不僅限于此。

除了這些有待發現的預測之外,在我們的大多數實驗中,智能體還會做出具有預定義語義的預測。具體來說,智能體會產生一個動作價值函數 q (s,a) 和一個基于動作的輔助策略預測 p (s,a)。這樣做是為了鼓勵發現過程能更專注于通過 y 和 z 來發現新概念。

元網絡

很大一部分現代強化學習規則采用了 RL 的「前向視圖」。在這種視圖下,RL 規則接收一個從時間步 t 到 t+n 的軌跡,并利用這些信息來更新智能體的預測或策略。它們通常會將預測或策略朝著「引導目標」更新,即朝著未來的預測值更新。

相應地,該團隊的 RL 規則使用一個元網絡(圖 1c)作為函數,來決定智能體應將其預測和策略更新至的目標。為了在時間步 t 產生目標,該元網絡會接收從時間步 t 到 t+n 的一段軌跡作為輸入,這段軌跡包含了智能體的預測、策略、獎勵以及回合是否終止的信息。它使用一個標準的 LSTM 來處理這些輸入,當然也可以使用其他架構。

元網絡的輸入和輸出選擇保留了手工設計的 RL 規則所具備的一些理想特性:

首先,元網絡可以處理任何觀測信息,以及任何大小的離散動作空間。這是因為它不直接接收觀測作為輸入,而是通過智能體的預測間接獲取信息。此外,它通過在不同動作維度間共享權重來處理特定于動作的輸入和輸出。因此,它可以泛化到截然不同的環境中。

其次,元網絡與智能體網絡的設計無關,因為它只接收智能體網絡的輸出。只要智能體網絡能產生所需形式的輸出 (π, y, z),被發現的 RL 規則就可以泛化到任意的智能體架構或規模。

第三,由元網絡定義的搜索空間包含了「引導」這一重要的算法思想。

第四,由于元網絡同時處理策略和預測,它不僅可以元學習輔助任務,還可以直接使用預測來更新策略(例如,為減少方差) 提供一個基線。

最后,輸出目標這種方式比輸出一個標量損失函數具有更強的表達能力,因為它將 Q 學習這樣的半梯度方法也納入了搜索空間。

在繼承標準 RL 算法這些特性的基礎上,這個參數豐富的神經網絡使得被發現的規則能夠以可能高得多的效率和更精細的上下文感知方式來實現算法。

智能體優化

智能體的參數 (θ) 會被更新,以最小化其預測和策略與來自元網絡的目標之間的距離。智能體的損失函數可以表示為:

其中 D (p,q)  是 p 和 q 之間的一種距離函數。團隊選擇 KL 散度作為距離函數,因為它足夠通用,并且先前已被發現在元優化中有助于簡化問題。這里的 π_θ,y_θ,z_θ 是智能體網絡的輸出,而 ?π, ?y,? 是元網絡的輸出,每個向量都應用了 softmax 函數進行歸一化。

輔助損失 L_aux 用于那些具有預定義語義的預測,即動作價值 (q) 和輔助策略預測 (p) ,具體如下:

其中 ?q 是來自 Retrace 算法的動作價值目標,并被投影到一個 two-hot 向量 2; 而 p?=π_θ(s′) 是下一步的策略。為了與其他損失保持一致,團隊同樣使用 KL 散度作為距離函數 D。

元優化

該團隊的目標是發現一個 RL 規則(由元參數 η 表示的元網絡來代表),它能讓智能體在各種訓練環境中最大化獎勵。這個發現目標 J (η) 及其元梯度 可以表示為:

其中 表示從一個分布中采樣的環境,θ 表示由初始參數分布誘導、并在使用 RL 規則學習過程中不斷演變的智能體參數。是期望折扣獎勵總和,即典型的 RL 目標。元參數 η 遵循上述方程,使用梯度上升進行優化。

為了估計元梯度,團隊在一套采樣的環境中實例化一個智能體集群,它們根據元網絡進行學習。為了確保這種近似接近團隊感興趣的真實分布,團隊使用了大量來自挑戰性基準的復雜環境。這與先前的工作集中在少數簡單環境上形成對比。因此,這個發現過程會面臨多種多樣的 RL 挑戰,例如獎勵的稀疏性、任務的長度,以及環境的部分可觀測性或隨機性。

每個智能體的參數都會被定期重置,以鼓勵更新規則在有限的智能體生命周期內取得快速的學習進展。與先前關于元梯度 RL 的工作一樣,元梯度項 可以通過鏈式法則分為兩個梯度項:。第一項可以被理解為對智能體更新過程 的梯度,而第二項是標準 RL 目標的梯度。

為了估計第一項,該團隊迭代地更新智能體多次,并通過整個更新過程進行反向傳播 ,如圖 1d 所示。為了使其易于處理,團隊使用滑動窗口對 20 次智能體更新進行反向傳播。最后,為了估計第二項,團隊使用優勢演員 - 評論家 (A2C) 方法。為了估計優勢 ,團隊訓練了一個元價值函數,這是一個僅用于發現過程的價值函數。

實驗結果

該團隊在一套復雜的環境中,通過一個大型智能體集群實現了新發現方法。

該團隊將發現的 RL 規則稱為 DiscoRL。在評估中,該團隊使用歸一化分數的四分位均值 (IQM) 來衡量聚合性能,該基準由多個任務組成。IQM 之前已被證明是一種統計上可靠的指標。

Atari

Atari 基準是 RL 歷史上研究最多的基準之一,由 57 款 Atari 2600 游戲組成。它們需要復雜的策略、規劃和長期 credit 分配,這使得 AI 智能體難以精通。在過去的十年中,已有數百種 RL 算法在該基準上進行了評估,其中包括 MuZero 和 Dreamer。

為了觀察直接從該基準中發現的規則能有多強大,該團隊元訓練 (meta-trained) 了一個 RL 規則,命名為 Disco57,并在同樣的 57 款游戲上對其進行了評估(見下圖 a)。

Disco57 的各個實驗基準上的表現

在此評估中,該團隊使用的網絡架構的參數數量與 MuZero 使用的數量相當。這是一個比發現過程中使用的網絡更大的網絡;因此,被發現的 RL 規則必須能泛化到這種設置。Disco57 取得了 13.86 的 IQM 分數,在 Atari 基準上超越了所有現有的 RL 規則,并且其運行效率 (wall-clock efficiency) 遠高于當前最先進的 MuZero(見下圖)。

這表明:該團隊的新方法可以從此類具有挑戰性的環境中自動發現強大的 RL 規則。

泛化能力

該團隊進一步研究了 Disco57 的泛化能力,方法是在一系列其在發現過程中從未接觸過的留存基準上對其進行評估。

這些基準包括未曾見過的觀測和動作空間、多樣化的環境動態、各種獎勵結構以及未曾見過的智能體網絡架構。元訓練的超參數僅在訓練環境(即 Atari)上進行了調整,以防止該規則被隱式地針對保留基準進行優化。

在 ProcGen 基準上的結果顯示,Disco57 優于所有現有的已發表方法,包括 MuZero 和 PPO,盡管它在發現期間從未與 ProcGen 環境交互過。ProcGen 由 16 個程序生成的 2D 游戲組成。

此外,Disco57 也在 Crafter 上取得了有競爭力的表現,在 Crafter 中智能體需要學習廣泛的能力才能生存。Disco57 在 NetHack NeurIPS 2021 挑戰賽的排行榜上獲得了第 3 名,該比賽有 40 多個團隊參加。

與比賽中排名靠前的提交智能體不同,Disco57 沒有使用任何領域特定知識來定義子任務或進行獎勵塑造 (reward shaping)。為了進行公平比較,該團隊使用與 Disco57 相同的設置,通過 IMPALA 算法訓練了一個智能體。IMPALA 的表現要弱得多,這表明 Disco57 發現了一種比標準方法更高效的 RL 規則。

除了環境之外,Disco57 在評估中還對一系列智能體特定設置(如網絡大小、重放比例 (replay ratio) 和超參數)表現出了魯棒性。

復雜多樣的環境

為了理解復雜多樣的環境對于發現過程的重要性,該團隊使用額外的環境進一步擴大了元學習的規模。

具體來說,該團隊使用了由 Atari、ProcGen 和 DMLab-30 基準組成的 103 個更具多樣性的環境,發現了另一個規則 Disco103。該規則在 Atari 基準上表現相似,同時之前所示的每一個已見和未見的基準上都提高了分數。特別是,Disco103 在 Crafter 上達到了人類水平的表現,并在 Sokoban 上接近了 MuZero 的 SOTA 性能。

這些結果表明,用于發現的環境集越復雜、越多樣化,發現的規則就越強大、越通用,即使在發現期間未曾見過的保留環境上也是如此。與 Disco57 相比,發現 Disco103 除了環境集不同之外,不需要對發現方法進行任何更改。這表明發現過程本身是穩健的、可擴展的和通用的。

為了進一步研究使用復雜環境的重要性,該團隊在 57 個從先前工作 9 擴展而來的網格世界 (grid-world) 任務上運行了該團隊的發現過程,使用了與 Disco57 相同的元學習設置。新規則在 Atari 基準上的表現明顯更差(見下圖 c)。

這驗證了該團隊關于直接從復雜且具有挑戰性的環境中進行元學習的重要性的假設。雖然使用這樣的環境至關重要,但并不需要精心策劃正確的環境組合;該團隊只是簡單地使用了文獻中流行的基準。

效率與可擴展性

為了進一步了解該團隊方法的可擴展性和效率,該團隊在發現過程中評估了多個 Disco57(見上圖 a)。最佳規則是在每個 Atari 游戲約 6 億步 (內發現的,這相當于在 57 個 Atari 游戲上僅進行了 3 次實驗。這可以說比手動發現 RL 規則更有效率,后者通常需要執行更多的實驗,此外還要花費人類研究員的時間。

此外,隨著用于發現的 Atari 游戲數量的增加,DiscoRL 在未見過的 ProcGen 基準上表現得更好(見上圖 b),這表明最終得到的 RL 規則隨著用于發現的環境數量和多樣性的增加而表現出良好的擴展性。換句話說,被發現規則的性能是數據(即環境)和計算量的函數。

發現新預測的效果

為了研究被發現的預測 (圖 1b 中的 y, z) 其語義的效果,該團隊通過改變智能體的輸出(包含或不包含某些類型的預測)來比較不同的規則。上圖 c 中的結果表明,使用價值函數可極大地改善發現過程,這突顯了 RL 這一基本概念的重要性。

另一方面,上圖 c 的結果也表明,在預定義預測之外發現新預測語義( y 和 z )的重要性。總的來說,與先前的工作相比,擴大發現的范圍是至關重要的。在下一節中,該團隊將提供進一步的分析,以揭示發現了哪些語義。

分析

定性分析

該團隊以 Disco57 為案例,分析了被發現規則的性質(見下圖)。

從定性上看,被發現的預測在諸如收到獎勵或策略熵發生變化等顯著事件之前會出現峰值(圖 a)。

該團隊還通過測量與觀測的每個部分相關的梯度范數,研究了觀測中的哪些特征會導致元學習的預測產生強烈反應。圖 b 的結果顯示,元學習的預測傾向于關注未來可能相關的物體,這與策略和價值函數所關注的地方不同。這些結果表明,DiscoRL 已經學會了在一個適度的范圍內識別和預測顯著事件,從而補充了諸如策略和價值函數等現有概念。

信息分析

為了證實定性分析的發現,該團隊進一步研究了預測中包含哪些信息。該團隊首先在 10 款 Atari 游戲上從 DiscoRL 智能體收集數據,并訓練一個神經網絡,使其從被發現的預測、策略或價值函數中預測該團隊感興趣的量。

圖 c 中的結果顯示,與策略和價值相比,被發現的預測包含更多關于即將到來的高額獎勵和未來策略熵的信息。這表明,被發現的預測可能捕獲了策略和價值未能很好捕獲的、與任務相關的獨特信息。

引導機制的涌現

該團隊還發現了 DiscoRL 使用引導 (bootstrapping) 機制的證據。當元網絡在未來時間步的預測輸入受到擾動時,它會強烈影響當前的目標圖 d)。這意味著未來的預測被用來構建當前預測的目標。

事實證明,這種引導機制和被發現的預測對于性能至關重要(圖 e)。如果在計算 y 和 z 的目標時,將輸入到元網絡的 y 和 z 設置為零(從而阻止引導),性能會大幅下降。如果將 y 和 z 的輸入設置為零以計算包括策略目標在內的所有目標,性能會進一步下降。這表明,被發現的預測被大量用于為策略更新提供信息,而不僅僅是作為輔助任務。

總結

讓機器能夠自己發現學習算法是人工智能中最有前途的想法之一,因為它具有開放式自我改進的潛力。

這項工作朝著機器設計的強化學習算法邁出了重要一步,這些算法在具有挑戰性的環境中可以與一些最佳的人工設計算法相媲美,甚至超越它們。

該團隊還表明,隨著發現的規則接觸到更多樣化的環境,它會變得更強、更通用。這表明,未來高級人工智能的 RL 算法設計,可能會由那些能夠隨數據和計算資源有效擴展的機器來主導。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-06-10 16:19:22

人工智能智能體強化學習

2025-03-07 09:24:00

2025-10-20 08:50:00

2024-10-23 19:47:54

2024-08-09 12:46:04

2021-10-11 17:15:30

AI 數據人工智能

2017-03-27 16:35:23

2022-07-11 11:14:47

強化學習AI基于模型

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2025-04-25 09:12:00

2024-11-29 16:33:24

2023-11-15 14:55:00

2025-07-09 01:22:00

AI強化學習監督學習

2025-06-10 11:22:09

強化學習AI模型

2020-11-03 10:25:39

AI 機器學習人工智能

2025-04-27 09:12:00

AI模型技術

2025-04-18 10:01:41

2010-04-01 09:30:57

2015-08-21 09:14:40

大數據

2024-11-01 09:39:26

強化學習AI
點贊
收藏

51CTO技術棧公眾號

精品视频久久久| 亚洲影院免费观看| 青青青国产精品一区二区| 亚洲综合色一区| 国产a亚洲精品| 亚洲欧美激情一区二区| 精品久久久久久中文字幕动漫| 成人免费毛片男人用品| 羞羞答答成人影院www| 精品国产免费人成在线观看| 88av.com| 日本aa在线| 国产天堂亚洲国产碰碰| 99久久99久久| 在线观看亚洲一区二区| 一本色道久久综合| 久久综合五月天| 香蕉网在线播放| 日韩视频在线直播| 色国产精品一区在线观看| 最近免费观看高清韩国日本大全| 天堂视频中文在线| 国产成人综合亚洲网站| 国产精品美乳一区二区免费| 亚洲综合一二三| 99精品美女| 亚洲人成网站色ww在线| 色哟哟无码精品一区二区三区| 六九午夜精品视频| 色香色香欲天天天影视综合网| 香港三级日本三级a视频| av播放在线| 91日韩在线专区| 国产精品二区三区| a级片免费视频| 久久99久久99| 国产精品九九九| 亚洲精品男人的天堂| 精品福利电影| 欧美第一黄色网| 婷婷伊人五月天| 成人毛片在线| 揄拍成人国产精品视频| a毛片毛片av永久免费| 任你弄精品视频免费观看| 欧美v国产在线一区二区三区| 国产一级免费大片| 在线欧美激情| 欧美精品第一页| 人妻无码视频一区二区三区 | 亚洲日本视频在线| 日韩视频在线你懂得| 欧美视频亚洲图片| 国产精品国产亚洲精品| 91精品国模一区二区三区| 亚洲欧美日韩三级| 日本成人在线网站| 欧美蜜桃一区二区三区| 三级一区二区三区| 爱情电影网av一区二区| 日韩一区二区三区视频在线| 欧美体内she精高潮| 日韩精品一区国产| 亚洲成人黄色网址| 中文乱码人妻一区二区三区视频| 国产精品色在线网站| 亚洲国产精品久久久久秋霞蜜臀| 欧美妇女性影城| 欧美欧美欧美欧美首页| 中文字幕天天干| 99re66热这里只有精品4| 欧美性猛交xxxx乱大交| 丰满人妻中伦妇伦精品app| 忘忧草在线日韩www影院| 欧美日韩午夜剧场| 久久精品99国产| 日本在线视频一区二区| 欧美日本国产视频| 亚洲av无日韩毛片久久| 日韩高清二区| 亚洲国产精品热久久| av小说在线观看| 日韩电影免费在线观看| 久久这里只有精品视频首页| 国产真实夫妇交换视频| 免费看黄裸体一级大秀欧美| 国产精品普通话| 精品国产亚洲一区二区麻豆| 91偷拍与自偷拍精品| 日韩精彩视频| 污污网站在线看| 天天综合网天天综合色| 久久99爱视频| 大奶一区二区三区| 国产亚洲精品91在线| 少妇aaaaa| 久久九九电影| av色综合网| 成人三级黄色免费网站| 亚洲一区在线视频| 久久久精品麻豆| 一区二区在线免费播放| 亚洲视频999| 久久久久97国产| 免费观看成人av| 精品久久久久久一区| 免费在线观看av| 欧美日韩一区二区免费在线观看 | a级国产乱理论片在线观看99| 五月婷婷久久久| 亚洲欧洲精品一区二区三区不卡 | 免费高清成人在线| 国产伦精品一区二区三区四区视频| 黄网在线免费| 亚洲高清免费观看高清完整版在线观看 | 在线精品在线| 成人黄色在线播放| 欧美香蕉爽爽人人爽| 一区二区三区精品视频在线| 在线观看免费黄网站| 免费看久久久| 欧美激情精品久久久久久蜜臀| 亚洲精品无码久久久久| 99九九99九九九视频精品| 男女h黄动漫啪啪无遮挡软件| 欧美色网在线| 日韩精品中文在线观看| 国产一级在线观看视频| 国产在线观看免费一区| 亚洲精品一区二区三区av| gay欧美网站| 亚洲国产精品va在线| 青娱乐国产在线| 国产一区二区三区免费播放| 亚洲国产午夜伦理片大全在线观看网站| 国产高潮在线| 亚洲精品一区二区三区影院| 美女毛片在线观看| 国产精品一区二区男女羞羞无遮挡 | 亚洲国产一区二区在线播放| 一区二区三区国产好的精华液| 欧美亚洲国产一区| 国产精品国语对白| 国产三级视频在线| 在线观看中文字幕不卡| 白白色免费视频| 久久久久国内| 日韩成人av电影在线| 视频在线日韩| 中文亚洲视频在线| 在线观看免费中文字幕| 国产精品久久看| 五月天开心婷婷| 国产精品成人a在线观看| 91久久国产精品| 亚洲精品白浆| 精品播放一区二区| 国产精品久久久久久99| 久久精品视频网| 最新中文字幕免费视频| 久久精品国产亚洲夜色av网站| 国产精品一区二区在线| 理论片午午伦夜理片在线播放| 91超碰这里只有精品国产| 91 在线视频| 国产成人精品三级| 欧美日韩精品在线一区二区 | 九九九在线观看| 久久日一线二线三线suv| 欧美在线观看视频网站| 色天天综合网| 亚洲综合国产精品| gogo高清在线播放免费| 亚洲欧美在线磁力| 艳妇乳肉豪妇荡乳av| 一区二区三区日韩欧美| 黄色工厂在线观看| 免费在线一区观看| 国产爆乳无码一区二区麻豆| 日韩欧美天堂| 国产免费成人av| 爱情岛论坛亚洲品质自拍视频网站 | 欧洲美女亚洲激情| 在线精品在线| 亚洲精品9999| 99精品在免费线中文字幕网站一区| 欧美在线精品免播放器视频| 天堂а√在线资源在线| 亚洲а∨天堂久久精品9966| 在线免费观看av网址| 亚洲日本va在线观看| 国产精品久久AV无码| 另类中文字幕网| 欧美午夜小视频| 日韩av二区| 国外成人在线视频网站| 日本午夜免费一区二区| 91国产视频在线播放| 337p日本欧洲亚洲大胆鲁鲁| 精品国产自在久精品国产| 久久国产香蕉视频| 午夜精品久久久久久久| 制服丨自拍丨欧美丨动漫丨| av电影在线观看一区| 免费黄频在线观看| 日韩精品一区第一页| 日韩国产成人无码av毛片| 日本大胆欧美| 免费久久久一本精品久久区| 亚洲码欧美码一区二区三区| 国产精品男女猛烈高潮激情| aaa在线播放视频| 久久中文字幕在线| 懂色一区二区三区| 日韩精品亚洲精品| 亚洲美女综合网| 51精品视频一区二区三区| 亚洲欧美一二三区| 精品久久久香蕉免费精品视频| 91麻豆精品成人一区二区| 国产亚洲女人久久久久毛片| 国产真实乱人偷精品| 国产精品69久久久久水密桃| 中文字幕国产免费| 日精品一区二区三区| 免费网站在线观看视频| 欧美在线精品一区| 一道本在线观看视频| 四季av一区二区凹凸精品| 欧美一级爽aaaaa大片| 欧美亚洲国产日韩| 国产伦精品一区二区三区四区视频| 日本一区精品视频| 91亚洲精品视频| 99国内精品久久久久| 国产精品一区二区三区久久久| 欧美羞羞视频| 国产成人极品视频| 欧美艳星kaydenkross| 欧美一区二区三区免费观看| 2019中文字幕在线电影免费| 久久久久久com| 黄污视频在线观看| 欧美激情视频一区| 成年网站在线视频网站| 欧美大片大片在线播放| 在线观看的网站你懂的| 色综合久久中文字幕综合网小说| av小次郎在线| 九九九热精品免费视频观看网站| www在线免费观看视频| 欧美成人免费在线观看| 性欧美1819sex性高清大胸| 欧美精品一二区| 欧美xxxxhdvideosex| 欧美精品videos另类日本| 久草在线视频资源| 97精品国产aⅴ7777| 日本午夜大片a在线观看| 青青久久av北条麻妃海外网| 美女100%一区| 国产精品小说在线| 精品欧美视频| 国产视频一区二区三区四区| 麻豆一区二区麻豆免费观看| 欧美日韩免费观看一区| 成人在线免费观看91| a级网站在线观看| 亚洲高清网站| 日本在线视频www| 另类调教123区 | 91在线看国产| 日韩精品无码一区二区三区久久久| 国产女同互慰高潮91漫画| 国产精品精品软件男同| 亚洲一区二区三区中文字幕在线| 欧美三级午夜理伦| 欧美日韩成人综合在线一区二区| 国产黄色av网站| 亚洲激情免费观看| a天堂中文在线88| 欧美黑人又粗大| 三级成人在线| 91久久偷偷做嫩草影院| 亚洲8888| 狠狠噜天天噜日日噜| 欧美亚洲视频| 久久综合桃花网| 26uuu另类欧美亚洲曰本| 99精品中文字幕| 五月天国产精品| 亚洲一区中文字幕永久在线| 日韩精品一区二区在线观看| 久草在现在线| 欧美高清视频在线观看| 写真福利精品福利在线观看| 91免费人成网站在线观看18| 西野翔中文久久精品字幕| 在线观看视频黄色| 久久一区中文字幕| 人妻精品久久久久中文字幕69| 久久精品在这里| 免费一级片在线观看| 欧美熟乱第一页| 五月婷婷丁香网| 欧美精品一本久久男人的天堂| 日本免费一区二区三区四区| 91丝袜脚交足在线播放| 三区四区不卡| 国产又大又硬又粗| 成人视屏免费看| 成人自拍小视频| 在线观看视频一区二区| 四虎在线视频免费观看| 久久综合五月天| 日韩电影精品| 日韩欧美亚洲v片| 在线视频日韩| 国产免费无码一区二区| 亚洲视频图片小说| 一区二区乱子伦在线播放| 亚洲男人的天堂网站| zzzwww在线看片免费| 91久久国产综合久久蜜月精品| 欧美一级精品| 欧美日韩在线免费播放| 91亚洲精品久久久蜜桃| 国产中文字幕免费| 精品国产乱码久久久久久免费| 久操视频在线免费播放| 国产精品美腿一区在线看| 国产精品探花在线观看| www.中文字幕在线| jvid福利写真一区二区三区| 亚洲精品在线观看av| 精品国产一区a| 草美女在线观看| 成人av播放| 亚洲网站啪啪| 国产免费a级片| 亚洲国产一二三| 秋霞视频一区二区| 久久久久久成人精品| 久久97精品| 成人综合视频在线| 久久一区二区三区四区| 手机在线看片1024| 一区二区成人精品| 国产福利91精品一区二区| 亚洲欧美日韩精品在线| 久久成人免费日本黄色| 国产麻豆视频在线观看| 欧美一区二区在线视频| av电影免费在线观看| 电影午夜精品一区二区三区 | 中文字幕一区二区视频| 一二区在线观看| 久久成年人免费电影| 2020最新国产精品| 成人黄色av片| 久久精品网站免费观看| 一级黄色大毛片| 欧美裸体男粗大视频在线观看| 日韩精品一区国产| 国产中文字幕二区| 久久久精品影视| 一女二男一黄一片| 欧美日韩爱爱视频| 欧美电影完整版在线观看| 黄色三级视频片| 成人欧美一区二区三区1314| 亚洲av无码一区二区三区性色| 欧美激情欧美狂野欧美精品| 网友自拍一区| 91女神在线观看| 亚洲一本大道在线| 毛片在线播放网址| 成人在线视频网站| 91久久综合| 日本美女bbw| 日韩女优电影在线观看| 在线观看欧美日韩电影| 中文字幕欧美日韩一区二区三区| 国产精品18久久久久久久久| 亚洲影院在线播放| 久久久国产精品x99av| 久久丝袜视频| 国产精品区在线| 精品成人av一区| 久久77777| 欧美日本韩国一区二区三区| 狠狠色丁香婷婷综合久久片| 国产 日韩 欧美 在线| 久久久精品免费| 亚洲理论电影| 黑人无套内谢中国美女| 在线免费av一区| 超碰91在线观看| 中文字幕超清在线免费观看| 久久久精品综合|