精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

400萬人圍觀的分層推理模型,「分層架構」竟不起作用?性能提升另有隱情?

人工智能 新聞
鑒于該方法的普及度和新穎性,來自 ARC PRIZE 團隊的研究者著手在 ARC-AGI-1 半私有數據集(一個用于驗證解決方案是否過擬合的隱藏保留任務集)上驗證 HRM 的性能。

還記得分層推理模型(Hierarchical Reasoning Model,HRM)嗎?

這項工作于 6 月份發布,當時引起了不小的轟動——X/Twitter 上的相關討論獲得了超過 400 萬的瀏覽量和數萬個點贊,剖析這項工作的 YouTube 視頻觀看量也超過了 47.5 萬次。

b38f0cb5-c1e4-4a70-93da-d9d791775eba.png

在論文中,作者表示:他們提出了一種受大腦啟發的 HRM 架構,僅用 1000 個訓練任務和一個 2700 萬參數(相對較小)的模型,就在 ARC-AGI-1 基準上取得了 41% 的得分。

論文還指出,這一架構有潛力成為邁向通用計算和通用推理系統的變革性進展。

鑒于該方法的普及度和新穎性,來自 ARC PRIZE 團隊的研究者著手在 ARC-AGI-1 半私有數據集(一個用于驗證解決方案是否過擬合的隱藏保留任務集)上驗證 HRM 的性能。

他們的發現有些出人意料。

首先:他們能夠近似復現論文中聲稱的數字。HRM 在 ARC-AGI 半私有集上的表現,就其模型大小而言,令人印象深刻:

  • ARC-AGI-1:32%——雖然不是 SOTA 水平,但對于如此小的模型來說,這已經非常出色。
  • ARC-AGI-2:2%——盡管得分大于 0% 顯示出一些積極信號,但 ARC PRIZE 團隊不認為這在 ARC-AGI-2 上取得了實質性進展。

與此同時,通過運行一系列消融分析,他們得到了一些令人驚訝的發現,這些發現對圍繞 HRM 的主流論述提出了質疑:

  1. 與同等規模的 Transformer 相比,其「分層」架構對性能的影響微乎其微。
  2. 然而,論文中相對提及較少的「外循環」優化過程,尤其是在訓練期間,極大地提升了性能。
  3. 跨任務遷移學習的益處有限;大部分性能來自于對評估時所用特定任務解決方案的記憶。
  4. 預訓練的任務增強至關重要,盡管只需 300 次增強就已足夠(而非論文中報告的 1000 次)。推理時的任務增強影響有限。

發現 2 和 3 表明,該論文的方法在根本上與 Liao 和 Gu 提出的「無預訓練的 ARC-AGI」方法相似。

有人認為,ARC PRIZE 團隊的這些分析結果表明,HRM 是一個失敗的探索。

62416a74-862c-4c23-aa7d-97f42c92dd47.png

但更多人反駁說,與在同一基準上表現類似的模型相比,HRM 要小得多。雖然分層架構的作用沒有得到驗證,但論文在其他方面的創新依然值得研究,畢竟模型的表現還是很好的。

b4e8bd91-2511-415d-b1f3-00d952050528.png

03c28451-5698-4d11-8b6e-26e01db8f763.png

針對這一分析,ARC PRIZE 團隊專門寫了一篇博客來詳細介紹。以下是博客內容。

a5b72adf-f4a0-4ccf-ae0c-759e46943942.png

  • 博客地址:https://arcprize.org/blog/hrm-analysis
  • Github:https://github.com/arcprize/hierarchical-reasoning-model-analysis

「分層推理模型」回顧

image.png

圖 1:HRM 方法從大腦中不同頻率的信號處理中汲取靈感。

分層推理模型由新加坡 AI 研究實驗室 Sapient 發表,據稱其靈感來源于人腦的分層和多時間尺度處理機制。

HRM 是一個 2700 萬參數的模型,它通過幾次簡短的「思考」脈沖進行迭代優化。

每次脈沖產生:

  • 一個預測輸出網格——這是模型對 ARC-AGI 任務的「處理中」預測。
  • 一個「停止或繼續」得分——該得分決定是繼續優化預測還是將其作為最終結果提交。

如果模型選擇繼續優化,這個「處理中」的預測會再次經過一個「思考」脈沖。這就是外循環:預測、詢問「我完成了嗎?」,然后停止或繼續優化。

在外循環內部,HRM 運行兩個耦合的循環模塊:「H」(慢速規劃器)和「L」(快速執行器)。這兩個模塊協同工作,共同更新一個共享隱藏狀態,而非各自產生獨立的輸出。其最終效果是模型在「規劃」(H)和「細節」(L)之間交替進行,直到內部狀態「自我達成一致」并產生答案。

該模型使用一個學習到的「停止」信號,這是一種自適應計算機制,用于控制優化的次數。

這個過程的一個關鍵部分是任務增強。這是一個對每個任務應用變換(如對象旋轉、翻轉等)的過程,目的是挖掘出任務的潛在規則,而不是對特定的形狀或顏色產生過擬合。

在測試時,模型會運行相同的增強來生成預測。這些預測隨后被「去增強」(以恢復到原始任務格式),然后通過簡單的多數投票來決定最終的預測結果。

預測是通過轉導(深度學習的直接輸出)在嵌入空間中進行的,而不是通過歸納(生成一個可應用變換的程序)。關于 ARC-AGI 中轉導與歸納的更多信息,請參閱 2024 年 ARC Prize 獲獎論文《結合歸納與轉導進行抽象推理》,作者為 Wen-Ding Li 等人。

ARC-AGI 驗證流程

ARC-AGI 基準有 3 個主要的數據集用于測試:

  • 公開訓練集 - 用于介紹 ARC-AGI 數據格式的公開數據。研究人員在此數據上訓練和迭代模型。
  • 公開評估集 - 供研究人員在訓練后自我評估模型性能的公開數據。
  • 半私有評估集 - 一個保留數據集,用于驗證在 ARC-AGI 上的聲明。該數據集無法在線獲取用于訓練,從而增加了其提供模型性能純凈信號的可信度。它被稱為「半私有」,因為驗證第三方服務(如來自 OpenAI、xAI 的模型)意味著我們無法保證數據永遠完全保密,并且計劃最終會替換它。

除了這些數據集類型,ARC-AGI 目前有 2 個已發布的版本:

  • ARC-AGI-1——2019 年,旨在挑戰深度學習系統。
  • ARC-AGI-2——2025 年,旨在挑戰推理系統。

我們根據測試政策,對像 HRM 這樣的特定定制解決方案進行測試。要獲得驗證資格,解決方案必須開源,運行成本低于 1 萬美元,并在 12 小時內完成。

官方驗證的 HRM ARC-AGI 得分

image.png

圖 2:ARC-AGI-1 排行榜,HRM 性能與每項任務成本。

ARC-AGI-1(100 個任務)

  • 得分:32%,運行時間:9 小時 16 分鐘,總成本:$148.50($1.48 / 任務)

在 ARC-AGI-1 上獲得 32% 的得分,對于如此小的模型來說是令人印象深刻的。從 HRM 聲稱的公開評估集得分(41%)下降到半私有集得分,這種輕微的下降是預料之中的。ARC-AGI-1 的公開集和半私有集并未進行難度校準。觀察到的 9 個百分點的下降幅度處于正常波動的偏高范圍。如果模型對公開集過擬合,其在半私有集上的性能可能會崩潰(例如,降至 10% 或更低)。但我們并未觀察到這種情況。這個結果表明,HRM 確實有一些值得關注的亮點。

注意:運行 HRM 的成本相對較高,是因為訓練和推理被耦合在單次運行中。論文作者提到他們正在努力解耦這個過程,以便將其解決方案提交給 ARC Prize 2025 Kaggle 競賽。

ARC-AGI-2(120 個任務)

  • 得分:2%,運行時間:12 小時 35 分鐘,總成本:$201($1.68 / 任務)

ARC-AGI-2 明顯比 ARC-AGI-1 更難,因此性能大幅下降是預料之中的。與 ARC-AGI-1 不同,ARC-AGI-2 的公開集和半私有集是經過難度校準的。原則上,兩者上的得分應該相似。盡管大于 0% 的得分顯示出模型的某些能力,但我們不認為 2% 的得分是在 ARC-AGI-2 上取得的有意義的進展。

注意:我們選擇包含 10 個可選的檢查點(每個約 5 分鐘),總共增加了約 50 分鐘。雖然 HRM 的提交超出了 12 小時的運行限制,我們仍然認為它是有效的。

分析 HRM 對 ARC 得分的貢獻

在更深入的分析中,我們最想回答的問題是:「HRM 架構中對 ARC-AGI 的成功貢獻最大的關鍵組件是什么?」

我們仔細研究了 HRM 論文的 4 個主要組成部分:HRM 模型架構、H-L 分層計算、外層優化循環,以及數據增強的使用。Ndea 研究員 Konstantin Schürholt 主導了這項分析。

我們測試了:

  • 「分層」H 和 L 循環的性能貢獻

    相比于基礎的 Transformer,HRM 提供了多少性能提升?

    改變分層計算的參數有何影響?

  • 改變最大「停止或繼續」循環次數

    自適應計算時間(ACT)評分器與固定循環次數(沒有停止決策)相比表現如何?

  • 跨任務遷移學習的影響

    與僅在評估任務上訓練相比,在訓練時加入訓練集任務和 ConceptARC 任務有何影響?

  • 增強數量

    改變從每個任務創建的增強數量。

  • 模型/訓練的變體(大小和時長)

發現 1:與同等規模的 Transformer 相比,「分層」架構對性能的影響微乎其微

論文提出,HRM 架構是實現分層推理的關鍵——結合了慢節奏的指導(H-level)和快節奏的思考(L-level)。

為了理解該架構的影響,我們進行了 2 個實驗:

  • 改變分層組件中的迭代次數。
  • 將 HRM 模型替換為類似規模的 Transformer。

為便于比較,該 Transformer 擁有與 HRM 模型相同的參數數量(約 2700 萬)。在所有實驗中,我們保持 HRM 流程的其他所有組件不變。

將 HRM 與常規 Transformer 進行比較,得到了兩個有趣的結果,見圖 3。首先,一個常規的 Transformer 在沒有任何超參數優化的情況下,性能與 HRM 模型相差約 5 個百分點。當只有一個外循環時,差距最小,此時兩個模型的性能不相上下。

image.png

圖 3:HRM 模型和相同尺寸的 Transformer 在不同外循環步數下的 pass@2 性能。Transformer 在沒有任何超參數優化的情況下,性能與 HRM 相差幾個百分點。

當外循環次數多于 1 次時,HRM 表現更好,但隨著外循環次數的增加,差距會縮小。請注意,盡管參數數量匹配,HRM 使用了更多的計算資源,這可能部分解釋了性能差異。增加計算資源帶來的好處可能會隨著外循環次數的增多而出現收益遞減,這與我們的結果相符。

我們進一步改變了 H-level 和 L-level 的步數來分析其影響。我們發現,增加或減少迭代次數(基線為 L = 2, H = 2)都會導致性能下降。

這些結果表明,在 ARC-AGI 上的性能并非 HRM 架構本身帶來的。雖然它確實提供了一點好處,但在 HRM 訓練流程中換用一個基線 Transformer 也能達到相當的性能。

發現 2:論文中提及較少的「外循環」優化過程帶來了顯著的性能提升

除了分層架構,HRM 論文還提出在模型外部使用一個外循環(「循環連接」)。這將模型的輸出反饋給自己,允許模型迭代地優化其預測。

此外,它使用「自適應計算時間」(ACT)來控制在特定任務上花費的迭代次數。ACT 決定是停止預測還是繼續優化。

HRM 方法的這一部分類似于 Universal Transformer,后者既有圍繞 Transformer 模型的循環優化循環,也有一個 ACT 的版本。

在我們的第二組實驗中,我們想了解外層優化循環以及 ACT 對整體性能的影響。我們改變了訓練期間的最大外循環次數,并在推理時使用最大循環次數(遵循 HRM 的實現)。

image.png

圖 4:在不同數量的訓練和推理優化循環下的 pass@2 性能。通過迭代優化數據會產生強大的影響,正如從 1 次循環(無優化)到 2 次循環(1 次優化)的性能飛躍所示。

如圖 4 所示,外循環的次數對模型性能有顯著影響——從無優化(1 次循環)到僅 1 次優化,性能躍升了 13 個百分點。從 1 次優化循環增加到 8 次,公開評估集上的性能翻了一番。

一個次要發現是,在訓練期間使用 ACT 確實能減少每個任務的實際優化步數。然而,雖然使用 ACT 能提高性能,但與固定的 16 次循環運行相比,差異僅在幾個百分點之內。

結果表明,優化外循環是 HRM 性能的關鍵驅動力。

為了理解訓練時優化與推理時優化的影響,我們進一步獨立地改變了推理優化循環的次數。

image.png

圖 5:在不同數量的推理優化循環下的 pass@2 性能。藍色條表示使用相同循環次數進行訓練和推理的模型。橙色條表示使用 16 個優化循環訓練,但在推理時使用不同循環次數的模型。例如,1-Loop 處的藍色條表示用一個優化步驟訓練并用一個優化步驟推理的模型。橙色條表示用 16 個優化步驟訓練但僅用一個優化步驟推理的模型。

為此,我們比較了兩種設置。第一種,我們在訓練和推理中使用相同數量的優化循環。第二種,我們用最多 16 個優化循環步驟訓練一個模型,并分別用 1、4、8 和 16 個優化步驟來評估它。

比較這兩類模型顯示出實質性差異,尤其是在低推理優化步數(1 和 4)時,見圖 5。用更多的優化步驟進行訓練,可以將單次優化循環預測的性能提高超過 15 個百分點,盡管一次循環意味著沒有任何優化的單次前向傳播。在推理時增加更多的優化循環,影響則沒有那么大。這表明,帶優化的訓練比在推理時使用優化更重要。

發現 3:跨任務遷移學習的影響有限

在原始論文中,HRM 在 960 個任務的演示對的增強版本上進行訓練:

  • 來自 ARC-AGI-1 訓練集的 400 個任務。
  • 來自密切相關的 ConceptARC 基準的 160 個任務。
  • 來自 ARC-AGI-1 評估集的 400 個任務,這些任務也是評估時要解決的目標。

需要注意的是,這并不意味著數據泄露,因為模型在訓練時從未看到評估任務的測試對——而這正是模型被評估的內容。

我們想了解跨任務遷移學習與推斷并記憶評估時特定任務的解決方案相比,其影響如何。我們進行了以下實驗:我們只在 400 個評估任務上進行訓練——去掉了來自訓練集的 400 個任務和來自 ConceptARC 數據集的 160 個任務。

在這種設置下,模型達到了 31% 的 pass@2 準確率,與最初的 41% 相比僅有小幅下降。這表明,絕大部分性能是由在評估時見過的任務上進行訓練所驅動的。這意味著 HRM 的做法本質上是一種零預訓練的測試時訓練方法,類似于 Liao 和 Gu 的「無預訓練的 ARC-AGI」。這相當于將模型用作一種程序合成基底——在任務的演示對上使用梯度下降,將執行該任務的程序編碼到模型的權重中。

值得注意的是,在我們的實驗中,仍然存在一定程度的跨任務遷移學習——在評估集的不同任務之間。我們實驗的一個更強的版本是,在每個評估任務上單獨運行 HRM 流程,這樣模型在訓練時只會看到它將被評估的那一個任務的演示對的增強版本。這將使 HRM 的設置與 Liao 和 Gu 的設置完全一致。我們沒有時間運行這個實驗,但我們推測結果將與 Liao 和 Gu 的(21% pass@2)非常接近。

發現 4:預訓練的任務增強至關重要

我們研究的 HRM 流程中另一個重要組成部分是任務增強。

數據增強是深度學習中一種常用方法,用于增加數據集中的樣本數量并提高模型的泛化能力。這意味著對任務應用旋轉、翻轉或顏色交換,從而在不改變任務基本概念的情況下生成新數據。

HRM 對任務的所有增強版本進行預測,然后將增強后的預測還原(或「去增強」),使其恢復到原始任務格式。然后,模型對這些預測進行多數投票以選出最終候選。

我們測試了對基線 HRM 的以下修改:

  • 編譯數據集時最大增強的數量。
  • 用于多數投票的最大預測數量。

因為 HRM 只能處理訓練期間遇到過的增強類型,所以我們在推理時對第 2 點的改變僅限于減少增強數量,而不能增加。

圖 7 中的結果顯示了兩個趨勢。首先,使用數據增強確實能顯著提高性能。然而,僅使用 300 次增強,而不是論文中使用的 1000 次,就已接近最大性能。僅使用 30 次增強(論文中總數的 3%)的性能與最大性能相差不到 4%。

其次,在訓練期間使用數據增強似乎比為多數投票獲得更大的池子更重要。用更多增強訓練的模型,在用較小池子進行推理時,性能下降得要少得多。

其他技術性學習

深入研究 HRM 的內部機制還帶來了一些其他有趣的發現。

首先也是最重要的一點,HRM 將 ARC-AGI 任務分解為單個的輸入-輸出對,他們稱之為謎題(puzzles)。每個謎題會獲得一個 puzzle_id,它由任務哈希值和應用于此特定謎題的增強代碼組成。

在訓練和推理時,模型只接收輸入和 puzzle_id——沒有包含任務其他輸入-輸出示例的少樣本上下文。HRM 模型必須學會將一個 puzzle_id 與一個特定的轉換關聯起來,以便它能從輸入預測輸出。

為此,它將 puzzle_id 輸入一個大的嵌入層。這個嵌入層是關鍵——沒有它,模型就不知道如何處理輸入。這帶來了一個主要限制:該模型只能應用于它在訓練時見過的 puzzle_id。

在與作者就此話題的交流中,他們解釋說,為少樣本上下文更改謎題嵌入是一個復雜的工程挑戰。在早期版本中,他們做過比較,發現在更大的類 ARC 數據集上,少樣本上下文效果很好,但在樣本受限的 ARC 上,謎題嵌入的表現明顯更好。我們沒有復現這些實驗,但這為未來的工作指明了有趣的方向。

出于同樣的原因,在這個版本的 HRM 中,推理數據必須是訓練數據集的一部分。例如,獨立地改變增強數量并不是一件直接的事情。

最后,雖然優化循環對性能有明顯影響,但 HRM 是純粹轉導性的。雖然可以展開優化步驟,但底層的程序仍然是隱式的。我們的假設是,這種方法不具備泛化能力。

待解決的問題與未來工作

我們對 HRM 的實驗為我們揭示了其在 ARC-AGI 上表現出色的原因,但其他問題依然存在。除了上面提到的,我們還邀請社區探索以下更多問題:

  • puzzle_id 嵌入對模型性能有多大影響?與將任務中的其余示例作為上下文提供相比如何?
  • HRM 在其訓練數據之外的泛化能力如何?是否有任何方法可以在新數據上微調 HRM?
  • 在推理時,學習到的停止機制有何影響?其好處僅限于節省計算資源,還是也能提高性能?
  • 優化的思想是否能推廣到其他方法,例如合成顯式程序的歸納方法?
  • 通過在每個評估任務上單獨進行訓練和評估,可以達到什么樣的性能?(消除所有跨任務遷移學習。)
  • 哪些特定的增強類型能帶來更高的性能?旋轉?顏色交換?為什么?

結語

來自 ARC Prize 的分析非常詳盡,不少人感嘆說,這才是真正的「同行評審」。

88028134-0e5b-4a15-8b37-19fa3fd4ce83.png

還有人說,這個分析本身和論文一樣重要。如果大家以后能夠更多地用這種方式去分析一些備受關注的研究,相信社區可以更加高效地獲取一些新知識。

2c6d958d-c0af-4a16-bf6a-4d37e08368fa.png

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-15 09:43:33

分層推理模型循環網絡推理

2011-10-18 11:31:33

Power7+服務器

2018-03-07 15:11:04

饑餓營銷顯卡

2015-02-05 16:56:17

2022-01-13 06:49:23

開源項目刪庫

2009-05-13 09:19:30

2015-02-09 15:01:51

IT技術周刊

2023-05-31 08:41:23

分層架構對象模型

2023-11-16 18:53:36

AI人工智能

2023-08-02 08:51:46

服務架構分層架構

2025-07-01 09:08:00

2025-08-11 09:00:00

2025-03-05 00:22:00

2021-05-18 07:33:20

模型分層

2024-09-26 16:43:26

2009-07-27 10:03:02

分層模型網絡故障

2010-07-15 13:54:25

最“搞”服務器

2019-12-10 10:59:11

分層架構項目

2022-06-29 08:00:00

SQL分層表數據

2023-06-16 13:34:00

軟件架構模式
點贊
收藏

51CTO技術棧公眾號

久久这里只有精品9| 国产精品亚洲无码| 三级在线观看视频| 国产亚洲精品aa午夜观看| 国产精品主播视频| 久久中文字幕无码| 精品国产一区一区二区三亚瑟| 欧美日韩五月天| 手机成人av在线| 四虎成人免费在线| 国产精品一区二区在线播放| 91高清视频免费观看| 中文字幕资源站| 日本一区福利在线| 91精品久久久久久久91蜜桃| 成人在线免费观看av| 91视频在线观看| 99国产一区二区三精品乱码| 91免费福利视频| 无码人妻aⅴ一区二区三区有奶水| 中文在线日韩| 最新亚洲国产精品| 丰满大乳奶做爰ⅹxx视频| 亚洲一区二区小说| 在线这里只有精品| 黄色一级视频在线播放| 国产1区在线| 欧美国产视频在线| 欧美日本亚洲| 日韩在线视频免费| 国产乱子轮精品视频| 国产精品国产三级国产专播精品人| 日韩高清精品免费观看| 欧美在线免费| 精品精品国产国产自在线| 在线观看福利片| 神马久久av| 亚洲国产精品网站| 中文字幕无人区二| 国产成人免费视频网站视频社区| 欧美熟乱第一页| 日本在线观看a| 嗯~啊~轻一点视频日本在线观看| 亚洲欧洲综合另类在线| 亚洲资源在线网| av在线电影观看| 欧美激情在线一区二区| 日本不卡在线播放| 国产最新视频在线| 久久久久国色av免费看影院| 久久精品久久精品国产大片| 日韩一卡二卡在线| 丁香网亚洲国际| av一区二区三区在线观看| 国产女无套免费视频| 精品一区精品二区高清| 成人激情视频在线| 国产精品欧美激情在线| 国产一区二区三区国产| 91亚洲va在线va天堂va国| 国产又爽又黄免费软件| 国产一区二区在线电影| 亚洲aa在线观看| 国产精品自拍电影| 懂色av中文一区二区三区| 97超碰在线播放| 日韩在线视频观看免费| 久久午夜老司机| 日韩精品久久久毛片一区二区| 国产尤物视频在线| 国产精品乱码一区二区三区软件| 亚洲一区不卡在线| 成人ww免费完整版在线观看| 夜夜精品浪潮av一区二区三区| 男人添女荫道口喷水视频| 爱啪啪综合导航| 日本道免费精品一区二区三区| 色诱视频在线观看| 亚洲久草在线| 精品国免费一区二区三区| 国产成人无码一区二区在线观看| 一道在线中文一区二区三区| 中文字幕亚洲欧美日韩2019| 欧美爱爱免费视频| 影音先锋一区| 国产精品日日摸夜夜添夜夜av| 一区二区www| 国产69精品久久久久毛片| 精品蜜桃一区二区三区| 成年人在线看| 一区二区三区丝袜| 欧美亚洲日本在线观看| 国产成人视屏| 亚洲精品少妇网址| 欧美日韩午夜视频| 999在线观看精品免费不卡网站| 国产精品va在线播放| 精品黑人一区二区三区国语馆| 9色porny自拍视频一区二区| 亚洲国产激情一区二区三区| 性欧美video高清bbw| 日韩欧美成人区| 捷克做爰xxxⅹ性视频| 美国十次av导航亚洲入口| 在线色欧美三级视频| 亚洲精品在线观看av| 久久精品国产99| 精品在线不卡| 黄色在线播放网站| 色就色 综合激情| 丰满人妻一区二区三区大胸| 精品72久久久久中文字幕| 久久99亚洲精品| 波多野结衣视频观看| 成人午夜私人影院| 中文一区一区三区免费| 日韩在线影院| 欧美mv和日韩mv的网站| 国产中文字幕久久| 亚洲色图国产| 国产精品一香蕉国产线看观看| 免费成人在线看| 亚洲精品国产精华液| 在线观看av网页| 国产精品片aa在线观看| 久久免费视频观看| 国内精品久久久久久久久久久| 中文字幕欧美日韩一区| 日本wwww视频| 小嫩嫩12欧美| 久久人人看视频| 性猛交xxxx乱大交孕妇印度| 亚洲三级在线免费观看| 欧美美女性视频| 成人av国产| 国产精品91久久久久久| 四虎精品在线| 欧美日韩另类在线| 精品国产av色一区二区深夜久久| 欧美午夜在线| 97se亚洲综合| caoprom在线| 欧美一级日韩不卡播放免费| 免费黄色激情视频| 老司机精品视频在线| 亚洲精品久久久久久一区二区| 手机看片久久| 国产午夜一区二区| 男人天堂2024| 久久女同性恋中文字幕| 久久国产色av免费观看| 伊人成综合网伊人222| 91爱视频在线| 人操人视频在线观看| 一本久久精品一区二区| 亚洲激情视频小说| 日本成人中文字幕在线视频| 性欧美videosex高清少妇| 高清在线一区| 大胆欧美人体视频| 国产黄色片免费| 亚洲妇女屁股眼交7| 精品国产av色一区二区深夜久久| 国产欧美一区二区色老头 | 丁香5月婷婷久久| 久久久久久久成人| 天天干在线观看| 色狠狠一区二区三区香蕉| 免费成人深夜天涯网站| 精品一区二区国语对白| 91传媒免费视频| 国产精品色呦| 日韩av大片免费看| 日本在线人成| 欧美成人免费网站| www.中文字幕在线观看| 欧美国产成人精品| 男生和女生一起差差差视频| 99伊人成综合| 亚洲 国产 欧美一区| 欧美经典一区| 欧美一级淫片播放口| 日本在线免费播放| 精品久久99ma| 中文字幕一二三四| 一区二区高清在线| 成人免费无遮挡无码黄漫视频| 蜜桃视频免费观看一区| 国产在线视频在线| 国产欧美日韩精品一区二区免费 | 日本一本二本在线观看| 视频在线不卡免费观看| 国产精品播放| 欧美一级做a| 性欧美视频videos6一9| av在线中文| 亚洲国产精彩中文乱码av在线播放| 日批视频免费在线观看| 亚洲精品国产a| 精品无码人妻一区二区免费蜜桃| 国产一区二区在线看| 老熟妇仑乱视频一区二区| 欧美一区网站| 日本一区二区不卡高清更新| 99久热这里只有精品视频免费观看| 欧亚精品中文字幕| 在线视频观看国产| 亚洲午夜未满十八勿入免费观看全集| 国产精品呻吟久久| 色综合天天狠狠| 国产在线视频你懂的| 中文字幕巨乱亚洲| av直播在线观看| 国产成人综合在线观看| 伊人网在线综合| 日一区二区三区| 欧美三级在线观看视频| 综合国产在线| 在线一区日本视频| 欧美日韩亚洲在线观看| 欧美日韩在线观看一区二区三区 | 精品国产一二三| 国产精品嫩草影院桃色| 91福利视频久久久久| 日韩三级免费看| 亚洲国产视频直播| 国产va在线播放| 亚洲欧洲av在线| 国产精品av久久久久久无| 26uuu另类欧美| www.17c.com喷水少妇| 国产精品99精品久久免费| 午夜剧场在线免费观看| 美女www一区二区| 亚洲三级视频网站| 久久精品伊人| 黄色一级大片在线观看| 久久精品二区三区| 成人一级片网站| 免费精品视频| 日本精品一区二区三区四区| 奶水喷射视频一区| 欧美 日韩精品| 玖玖精品视频| 免费黄色一级网站| 日韩精品三区四区| 中文字幕永久视频| 青青青爽久久午夜综合久久午夜 | 视频在线日韩| 国产99久久精品一区二区永久免费| av在线加勒比| 亚州精品天堂中文字幕| 九色porny自拍视频在线播放| 高清一区二区三区日本久| 色女人在线视频| 欧美激情一区二区三区高清视频| 国内老司机av在线| 久久久久久久一| 中文字幕在线直播| 国产精品国产三级国产aⅴ9色| 亚洲成av在线| 国产噜噜噜噜噜久久久久久久久| 欧美网站免费| yellow视频在线观看一区二区 | 黄瓜视频成人app免费| 国产精品白嫩美女在线观看| 成人影院在线免费观看| 91久久精品美女高潮| 中文字幕一区日韩精品| 久久狠狠久久综合桃花| 郴州新闻综合频道在线直播| 亚洲色图都市激情| 亚洲伦理一区| 亚洲人辣妹窥探嘘嘘| 国产精品自在在线| 97香蕉碰碰人妻国产欧美| 国产片一区二区| 欧洲猛交xxxx乱大交3| 岛国av一区二区三区| 影音先锋国产资源| 日韩精品一区二| 欧美白人做受xxxx视频| 久久精彩免费视频| 国产夫妻在线播放| 国产日韩换脸av一区在线观看| 日韩激情精品| 欧美福利精品| 欧美激情亚洲| mm1313亚洲国产精品无码试看| 国产一区二区三区在线观看精品| 日本不卡视频一区| 中文字幕不卡的av| 精品无码人妻一区二区三| 色老汉一区二区三区| 精品人妻aV中文字幕乱码色欲| 日韩大陆欧美高清视频区| 免费网站黄在线观看| 97精品国产97久久久久久春色| 国产成人午夜性a一级毛片| 99久久99久久| 日本a口亚洲| 人妻久久久一区二区三区| 精品一区二区三区免费视频| 97人妻精品一区二区三区免| 亚洲人成人一区二区在线观看| 国产午夜性春猛交ⅹxxx| 欧美一区二区视频在线观看 | 99爱视频在线| 国产精品综合网| 貂蝉被到爽流白浆在线观看 | 91免费视频播放| 亚洲精品中文字幕女同| 秋霞在线午夜| 国产在线观看精品一区二区三区| 思热99re视热频这里只精品| 色呦呦网站入口| 日本aⅴ免费视频一区二区三区 | 国产欧美精品一区| 天天综合网入口| 精品国产一区二区三区久久影院 | 女人18毛片一区二区三区| 正在播放欧美视频| 伊人久久国产| 国产欧美日韩一区二区三区| 亚洲天天综合| 玖玖爱视频在线| 国产欧美视频一区二区三区| 亚洲国产成人精品激情在线| 日韩三级.com| 免费av网站在线看| 国产精品视频永久免费播放| 蜜乳av综合| aa免费在线观看| 97久久精品人人做人人爽50路| 精品视频一区二区在线观看| 欧美一区二区三区精品| 日本欧美在线视频免费观看| 国产精品美女在线| 国产一区二区三区四区五区| 国产1区2区在线| 26uuu色噜噜精品一区二区| 亚洲日本韩国在线| 亚洲激情成人网| 激情aⅴ欧美一区二区欲海潮| 成人av蜜桃| 狠狠综合久久av一区二区老牛| wwwxxxx在线观看| 亚洲综合激情小说| 亚洲欧美激情在线观看| 久久久久久久久久久久久久久久久久av| 亚洲精品一区在线| 高清欧美精品xxxxx| av色综合久久天堂av综合| 国产女同在线观看| 亚洲欧美综合另类中字| 日韩制服诱惑| 亚洲一二区在线| 国产伦精品一区二区三区视频青涩 | 日韩在线麻豆| 国产精品乱码久久久久| 国产欧美精品一区二区色综合| 中文字幕乱码人妻无码久久| 日韩在线视频免费观看高清中文| 99久久99九九99九九九| 日韩激情视频一区二区| 久久亚洲二区三区| 一级黄色片在线观看| 欧美老少配视频| 日韩精品免费一区二区三区竹菊 | 国内成人精品2018免费看| 澳门黄色一级片| 日韩电影免费在线观看中文字幕 | 亚洲每日在线| 四虎国产精品成人免费入口| 欧美日韩国产高清一区| 少女频道在线观看免费播放电视剧| 国产在线一区二区三区四区| 日韩在线一二三区| 免费国产羞羞网站美图| 亚洲国产精品久久久久秋霞蜜臀 | 无码人妻精品一区二区中文| 欧美日韩成人在线| ririsao久久精品一区| 亚洲高清精品中出| 国产宾馆实践打屁股91| 欧美亚洲精品天堂| 久久精品福利视频| 老司机成人在线| 红桃视频 国产| 午夜成人免费视频| 黄色免费在线观看| 欧美男人的天堂| 国产成人在线影院| 精人妻无码一区二区三区| 欧美成人一二三| 精品一区二区三区中文字幕老牛 | 久久久激情视频| 国产成人三级一区二区在线观看一 | 另类激情视频| 少妇一晚三次一区二区三区|