精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Kaggle大模型競賽優勝方案總結與思考

發布于 2024-12-4 12:47
瀏覽
0收藏

大家好,我是HxShine。

LLM的Reward模型該如何訓練呢?今天對Kaggle LLM比賽LLM Science Exam 的一些優勝方法做一個總結,這是Kaggle競賽平臺第一次舉辦LLM相關比賽,賽題就是探索如何訓練一個science-based Reward Model。

優勝方案中,如何利用RAG(檢索增強)方法提高模型的上限,如何通過傳統方法以及向量檢索方法提高檢索知識的質量,如何使用LoRA,QLoRA等技術對LLaMa2等系列進行微調,甚至在16GB內存的GPU上對70B大小的LLM進行推理[7]等很多技術都值得我們學習,相信大家看完會有所收獲。

Kaggle大模型競賽優勝方案總結與思考-AI.x社區

一、概述

Title:Kaggle - LLM Science Exam Use LLMs to answer difficult science questions

比賽排行榜:??https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard??

1.Motivation


Kaggle大模型競賽優勝方案總結與思考-AI.x社區

  • Reward模型:簡單來說就是用于判斷LLM的輸出哪個更好,輔助提升LLM的輸出質量。它是一種用于強化學習的技術,用于改進生成式對話系統的性能,基本思想是通過獎勵函數來引導模型生成更好的回復,
  • Reward模型是強化學習提高LLM表現的關鍵之一。Reward模型該如何建模?可以利用那些數據?如何訓練?大模型好還是小模型好?都還有待進一步探索。
  • 如何盡可能低成本的訓練好的Reward模型?OpenAI的Reward模型用的是6B左右的模型[1],成本更低的Reward模型方案也值得探索,該比賽通過限制GPU數量和推理時間來挖掘成本低,精度高的Reward模型訓練方案。

2.Definition

賽題:從大模型生成的5個候選結果挑選3個最好的結果。即對于每一個問題prompt,LLM生成A、B、C、D、E五個答案,正確的答案answer只有一個,從LLM生成的5個結果中,選擇前三的答案進行輸出。其利用MAP@3計算分數。下面給出一個樣例數據:

Prompt:

Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed ""missing baryonic mass"" discrepancy in galaxy clusters?

A:

MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."

B:

MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.

C:

MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.

D:

MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.

E:

MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.

Answer: 

D

評價指標:MAP@3: Mean Average Precision @ 3,??????@3=1??∑??=1??∑??=1??????(??,3)??(??)×??????(??)

資源要求:CPU或者GPU推理時間都不能超過9小時,不能接入外部網絡。

訓練數據:200條評估數據。

測試集:大概4000條數據。

3.難點分析

  • 建模方法:題目要求我們對LLM生成的science-based的結果進行排序,其強烈依賴于science相關知識,如何對其建模非常關鍵,包括中后期大家發現引入外部知識(RAG)來進行增強可以極大的提升模型的上限。
  • 建模數據:比賽只提供了200條測試數據,沒有訓練數據,同時待預測的數據大概4000+左右,20%在A榜,80%在B榜。
  • 資源限制:比在只提供2*T4或者1*P100的GPU,時間限制為不超過9小時。

二、Methods

1.RAG vs Finetuning?[2]

Kaggle大模型競賽優勝方案總結與思考-AI.x社區

RAG:這種方法將檢索(或搜索)的能力集成到LLM中。它結合了一個檢索系統和一個大模型,前者從大型語料庫中獲取相關文檔片段,后者使用這些片段中的信息生成答案。本質上,RAG 幫助模型“查找”外部信息以改進其響應。

Kaggle大模型競賽優勝方案總結與思考-AI.x社區

微調:這是采用預先訓練的 LLM 并在較小的特定數據集上對其進行進一步訓練的過程,以使其適應特定任務或提高其性能。通過微調,我們根據數據調整模型的權重,使其更適合我們應用程序的獨特需求。

Kaggle大模型競賽優勝方案總結與思考-AI.x社區

RAG+微調:在外部知識要求高的情況下,優先RAG,需要模型適配(風格行為詞匯)等,就需要微調,兩者要求都高的話,需要結合使用[5]。

三、關鍵優化思路總結


Kaggle大模型競賽優勝方案總結與思考-AI.x社區

總體上,RAG + LLM結合的模型可以在知識來源、檢索方法、基座模型及其尺寸、是否需要微調等多個方面進行優化,針對本次比賽,對我收集到的一些方法進行對比,方便大家參考。

1.檢索增強與檢索質量為王!

說明:主要探索不用RAG檢索增強以及用了RAG檢索增強的效果差異,如果不用RAG,模型很快就會到達瓶頸。

基座模型

方法

說明

LB分數

鏈接

deberta

without context

不利用檢索的結果進行增強

0.732

??https://www.kaggle.com/code/radek1/new-dataset-deberta-v3-large-training??

deberta

wiki as context

利用wiki百科的數據進行增強

0.819

??https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-1??

??https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-2??

deberta

stem(270k)as context

利用stem相關的高質量結果進行檢索增強

0.862

??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

LLM(7b/17b)

without context

直接用LLM,不用檢索增強,很快就遇到瓶頸了

0.84

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

LLM(7b/17b)

wiki as context

利用wiki百科的檢索數據來增強,同時基座模型用7B/13B左右的模型

0.90+

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??v

總結1:沒有檢索增強RAG的引入,很快達到性能瓶頸。沒有引入RAG,分數大概是0.73~0.84,第一名的解決方案[4]也提到如果沒有檢索增強,很快就遇到性能瓶頸,所以他們在RAG檢索以及質量優化上都做了不少工作。

總結2:知識以及知識的質量非常關鍵,幾乎是本場比賽的決定因素之一。例如同樣的模型(deberta系列),270k的高質量數據LB分數可以到0.862左右,wiki的上下文LB分數只能到0.819左右,同時without context情況下LB只有0.732。另外第一名的解決方案[4]也探索了多種embedding的方案來檢索高質量的上下文。15rd place solution[6]幾乎把全部精力都放在檢索端。

2.有哪些好的檢索方法?

方法

說明

LB

鏈接

tfidf

利用tfidf傳統方法來做檢索增強

0.862

??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

tfidf+embedding

結合多類檢索方法來做增強,甚至可以在檢索測做TTS

0.905

tfidf方案:??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

embedding方案:??https://www.kaggle.com/code/dangnguyen97/wikipedia-rag??


bm25(elastic sedarch)

利用bm25傳統方法來做檢索增強

0.9+?(第4名用了多種檢索增強的方法來做,最終PB分數0.927)

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

??https://www.kaggle.com/code/linshokaku/4th-elasticsearch-retrieval-example??

embedding model

主要的考察點在用哪種embedding模型效果好?第一名嘗試了MTEB Leaderboard上top-20模型,最終挑選了5個最好的模型模型

0.90+

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

ranker model

在檢索的基礎上,利用ranker模型進一步篩選更高質量的結果

0.90+

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816??

檢索位置的影響(選項ABCDE不同位置有影響)

TTS增強:根據context或者答案的順序來做TTS,增加多樣性。有效果但是不太穩定。

在final classification head添加每個選項的average logits,效果不錯并且穩定。

0.90+,上限比較高!

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

總結1:傳統檢索方法效果也不錯。在LLM領域,向量檢索不一定比傳統檢索方法tfidf以及bm25效果好,特別是沒有經過垂直領域的訓練的embedding模型。例如86-2-with-only-270k-articles[2]中利用tfidf檢索,效果比向量檢索還稍微好一點。同時4th[2]方法,用elastic_search來檢索文檔(原理是bm25算法),也取得一個不錯的效果。

總結2:檢索的質量非常重要。為了提高檢索質量,86-2-with-only-270k-articles[2]方法過濾篩選了270k相關的數據,效果相對于原始的wiki數據有了明顯的提升。第一名的解決方案[4]提到篩選更相關的一些數據用處不大,可能是其挑選的embedding模型效果不錯了,不會檢索出質量不太好的結果出來。第15名的方法[6]利用ranker模型進一步篩選高質量的檢索結果來提高最終表現。

總結3:檢索側可以用到的優化的方法:傳統檢索方法(es,tfidf,bm25,Lucene等)+ 向量檢索(開源embedding模型, SimCSE[6])+ 訓練Ranker模型[6]。

3.基座模型該如何選擇?

方法

模型

說明

最高排名

鏈接

傳統模型

deberta + finetuning + RAG

deberta系列模型做微調后,結合RAG效果也不錯,重點是需要優化檢索效果

4rd private:0.927

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

中等模型(7B/13B)

Llama-2-7b

Mistral-7B-v0.1

xgen-7b-8k-base

Llama-2-13b + finetuning + RAG

7B/13B左右的模型,經過微調,同時結合RAG,在做融合,效果比較好

1rd

private:0.933

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

大模型(70B)

debertas + Platypus(70B for hard question) + Xwin(70B) + reranker,其中Platypus(70B for hard question)以及reranker帶來的提升比較大

大模型主要是解決hard question,帶來一定提升

3rd

private:0.928

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

總結1:小模型微調+高質量的檢索結果上限也不錯。第四名最終只用了deberta模型,另外在檢索測利用es等方法做了很多優化,在檢索側做了TTS,最終拿到了第四名。

總結2:大模型微調(7B或者13B左右的模型)可能比小模型微調的上限更高。第一名利用7B左右的模型微調+RAG,一直搖搖領先。

總結3:70B模型zero-shot通用效果就不錯,但是在有些方面還打不過微調后的小模型。70B+zero-shot模型大概能達到0.872,總體上表現還不錯,但是離要拿到獎牌還有一定距離,微調70B左右的模型效果可能更好,但資源需求也更大,并且不方便做模型融合。

總結4:基座模型可能沒那么重要,具體效果的話大概如下:7b/13b + fine-tuning > deberta + fine-tuning > 70b + zero-shot。

4.是否需要對模型在該領域數據上進行微調?


方法

是否微調

分數

鏈接

longformer/deberta + RAG

不微調

0.862(with RAG, longformer 未微調)

0.89(with RAG,  deberta微調)

??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

deberta + 微調 + RAG

微調

0.762(without RAG)

0.90+(with RAG)

??https://www.kaggle.com/code/mewmlelswm/lb-0-762-train-4-fold-and-ensemble??

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

LLama7B

Mistral 7B

不微調

0.656(without RAG)

0.853(with RAG)

??https://www.kaggle.com/code/zzy990106/llama-7b-infer??

??https://www.kaggle.com/code/goelyash/llm-science-mistral-7b??

7B LLama2 + 微調 + RAG

微調

0.84+(without RAG)

0.90+(with RAG)

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

70B LLM + zero-shot + RAG

不微調

0.872(with RAG)

??https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag??

70B LLM + 微調 + RAG

微調

0.914(with RAG)

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446414??

總結1:微調特別是小模型微調,能帶來不錯的提升。deberta模型微調+模型融合也能到0.927左右的分數,和其他模型的最終結果差異沒那么大。

總結2:7B/13B左右的模型微調上限可能高于deberta系列模型的微調。第一名提到其7B左右的模型微調效果就已經很不錯了(LB 0.92+),融合deberta模型已經不能帶來提升了。

總結3:70B大小的模型其zero-shot能力已經相當不錯了【需要結合RAG】。開源70B模型+zero-shot+RAG能達到PB 0.872的分數,效果還不錯。

四、優勝方案要點分析


leaderboard

方法概述

關鍵因素

分數

1rd place solution

基座模型:Llama-2-7b,Mistral-7B-v0.1,xgen-7b-8k-base,Llama-2-13b + 是否微調:finetuning

檢索增強:1. 探索MTEB top20 embedding模型,挖掘最好的5個。2. 探索更高的數據質量。3. 檢索側做TTS融合。

驗證策略:6k STEM數據。

工程:推理加速,包括對context+prompt結果做緩存,優化推理速度,從而可以進行多模型融合。


檢索質量,基座模型,工程能力

private:0.933

3rd place solution

基座模型:debertas + Platypus(70B for hard question) + Xwin(70B)

排序模型:reranker +0.912->0.927提升挺大的。

更高的數據質量:利用??https://github.com/attardi/wikiextractor??收集更高質量的wiki數據


數據質量,模型融合

  1. Platypus(70B for hard question)
  2. reranker篩選更高質量的context

總結:相當于利用70B模型有更好的通用能力來解決小模型表現不太好的case從而進行融合。

private:0.928

4rd place solution

基座模型:Deberta v3 Large

檢索方法:Elasticsearch

檢索排序:edit distance + sentence-transformers

檢索質量:高質量的檢索結果,以及在檢索側做很多TTS優化融合工作帶來的提升。

private:0.927

5rd place solution

基座模型:Mistral 7B + Llama-70B

微調方法:QLoRA

檢索方法:BM-25(Lucene),參考??https://www.kaggle.com/code/strifonov/pyserini-scibert?? + 向量檢索

高質量數據:自己處理了wikipedia的數據

增強方法:TTA

融合方法:7B模型簡單問題(40%),70B模型苦難問題(60%),更長的context+70B模型預測前兩個困難樣本(5%)

融合方法:困難問題用70B模型來解決

檢索質量:BM25 + 向量檢索結合

TTA增強等


private:0.926, public:0.928

7rd palce solution

基座模型:Deberta + LLM

檢索方法:tfidf + sentence-transformer

驗證集:130k STEM數據

訓練:QLoRA SFT訓練(7B/13B)

多級模型融合方法:簡單模型解決閾值高的問題,模型融合解決稍微復雜一點的問題,LLM模型融合解決hard example

融合方法+檢索方法

private:0.925, public:0.931

10rd palce solution

數據:dumps數據,cirrus數據,270k兩種數據。

檢索方法:tfidf+向量(bge,gte,e5)

切片方法:sliding window,top 10 chunks

模型:deberta

檢索質量

private:0.922

14rd palce solution

數據:cirrussearch wiki dump(質量更好點)

檢索:向量檢索(gte,bge,e5)

模型:deberta 256

融合:TTA(檢索結果)

檢索結果融合:不同排序的context融合

  • [ 0, 1, 2, 3, 4, 5]
  • [ 0, 6, 7, 8, 9, 10]
  • [ 0, 11, 12, 13, 14, 15]
  • [ 0, 16, 17, 18, 19, 20]

private:0.920

15rd palce solution

數據:6800k wikipedia + 270k

檢索方法:tfidf + sentence model(simcse訓練)

檢索排序:

  1. 6800k wiki -> sentence top1000 -> LBGRanker -> top30 -> sentence model -> top20 -> LB 0.885
  2. 270k tfidf/sentence -> top5/top8 paragraphs

模型:deberta

檢索優化+排序模型+檢索側TTS

private:0.920,public:0.934

總結1:RAG檢索對于最終效果非常重要。包括不斷優化檢索數據質量,利用多種檢索策略(基于傳統方法or基于向量),還可以通過ranker等方法篩選更好的結果。另外檢索側基于不同不用順序的context做TTS也能帶來不錯的提升。

總結2:小模型微調效果也不錯,大模型(70B)zero-shot能力非常強,大模型勝在通用能力。例如3rd方法采用小模型解決簡單問題,大模型解決hard問題的融合策略。

總結3:7B/13B大小的模型可能會成為NLP競賽的主力軍。其模型上限效果不錯,可能比deberta類似大小的模型效果更好,同時訓練所需資源也較小。

詳細解決思路可以參考:https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard

五、總結

  1. RAG檢索對于最終效果非常重要。包括不斷優化檢索數據質量,利用多種檢索策略,基于傳統方法(es,bm25,tfidf等),基于向量(開源方法,SimCSE訓練),還可以通過ranker等方法篩選更好的結果都能帶來不錯的提升。
  2. 如何有效的檢索上下文知識,如何有效的處理長文本知識是難點,還有待進一步探索。本次比賽發現,在檢索側基于不同組合,不同順序的檢索結果做TTS(一種數據側做融合的方法)能帶來非常不錯的提升[4][8]。這意味著如果我們在檢索側,長文本理解側可以做得更好,可能我們不會太依賴檢索側的TTS融合方法,從而降低推理成本。
  3. 大模型的zero-shot能力比較強,勝在通用能力不錯。其意味著不微調就可以在很多任務上取得不錯的效果。在本次競賽中開源的70B模型+zero-shot+RAG效果0.875。
  4. 大模型for hard sample + 小模型for simple sample可能是一種不錯的融合方式。利用了大模型的通用能力不錯,在hard樣本上也有著比較強的泛化能力,同時小模型易于訓練,微調后在簡單樣本上表現好的特點。3rd place solution[9]就主要用的這種方法。
  5. 小模型(deberta等)特定領域做微調效果也有一定的發揮之力,同時其有成本優勢。deberta微調+RAG可以到0.89左右,利用模型融合甚至可以到前幾名0.92+。
  6. 7B/13B大小的模型可能會成為NLP競賽的主力軍。其模型上限效果不錯,可能比deberta類似大小的模型效果更好,同時訓練所需資源也較小。
  7. 強大的工程能力對LLM的繼續發展也非常有用。例如讓模型一層一層推理在16GB內存的GPU運行70B大模型[7],以及第一名方案中,對context+prompt結果做緩存,可以減少大量重復上下文或者系統消息(system message)的tokens數量,從而優化LLM推理時間[4]。
  8. 總結提分點:RAG【檢索方法,排序方法,TTS策略】 >> 13b+微調 > deberta/longformer + 微調 > 70b zero-shot。

六、References

[1] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.

[2] RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application???https://towardsdatascience.com/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7??

[3] 利用tfidf傳統方法檢索相關文檔:??https://www.kaggle.com/code/hxshine/86-2-with-only-270k-articles?scriptVersinotallow=144092114??

[4] 1rd Place Solution:??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

[5] 大模型Kaggle比賽首秀冠軍方案總結:??https://mp.weixin.qq.com/s/mhLOYWA9KEDANVdkoUpP-Q??

[6] 15rd place solution: ??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816??

[7] 利用16GB內存運行70B大模型:??https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag??

[8] 4rd Place Solution:??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

[9] 3rd Place Solution:???https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

本文轉載自??NLP PaperWeekly??,作者: NLP PaperWeekly 

已于2024-12-4 13:58:31修改
收藏
回復
舉報
回復
相關推薦
亚洲精品av在线| 一区二区三区.www| 国产精品视频一区国模私拍| 天天操天天摸天天舔| 天堂精品久久久久| 天天综合网 天天综合色| 日韩精品一线二线三线| 国产99久一区二区三区a片 | 成人综合网站| 亚洲精品乱码久久久久久| 久久国产精品一区二区三区| 一级片免费观看视频| 99在线精品视频在线观看| 最近2019中文字幕mv免费看 | 伦理中文字幕亚洲| jizz日本免费| 日韩一区免费| 欧美日韩中文另类| 欧美变态另类刺激| 成人区精品一区二区不卡| 国产91精品欧美| 国产精品第8页| 日韩精品人妻中文字幕| 久久大综合网| 亚洲色图在线观看| 精品国产aⅴ一区二区三区东京热| 欧美香蕉视频| 亚洲午夜久久久久久久久电影院| 图片区小说区区亚洲五月| 日韩一级片免费观看| 久久精品国产成人一区二区三区| 69精品小视频| 久久免费视频精品| 色88久久久久高潮综合影院| 亚洲欧美日韩图片| 国产又粗又猛又色| 日本久久伊人| 91精品一区二区三区在线观看| 欧美一级黄色影院| 日韩伦理精品| 精品日韩美女的视频高清| 4444亚洲人成无码网在线观看| 日本最黄一级片免费在线| 26uuu精品一区二区| 国产一区免费视频| 亚洲不卡免费视频| 国产久卡久卡久卡久卡视频精品| 国产精品欧美在线| 波多野结衣一区二区三区在线| 亚洲理伦在线| 91精品国产高清久久久久久久久| 青娱乐av在线| 欧美在线高清| 欧美国产日本在线| 黄色一级视频在线观看| 亚洲中无吗在线| 久久精品中文字幕免费mv| 国产精品1区2区3区4区| 清纯唯美亚洲综合一区| 三级精品视频久久久久| 中国1级黄色片| 国产精品久久久久一区二区三区厕所| 丝袜一区二区三区| 色婷婷粉嫩av| 一区二区三区在线观看免费| 久久视频在线观看免费| 国产盗摄一区二区三区在线| 久久精品一区二区不卡| 欧美成人精品在线| 欧美日韩亚洲国产另类| 黑丝一区二区三区| 久久久久久久久久国产精品| 激情综合网五月婷婷| 亚洲午夜av| 91精品国产成人| 中文字幕国产在线观看| 蜜臀a∨国产成人精品| 成人黄色av免费在线观看| 国产女同91疯狂高潮互磨| 国产成人免费视频精品含羞草妖精| 91在线免费看片| 视频一区 中文字幕| 久久天堂av综合合色蜜桃网| 水蜜桃亚洲一二三四在线| 91欧美在线视频| 亚洲免费在线观看视频| 久久综合久久网| 吉吉日韩欧美| 欧美片网站yy| 亚洲色偷偷色噜噜狠狠99网| 日本妇女一区| 日韩在线视频免费观看高清中文| 青青草激情视频| 国产视频欧美| 国产精品入口夜色视频大尺度 | 亚洲国产欧美自拍| 国产伦精品一区二区三区视频女| 亚洲a一区二区三区| 高清欧美性猛交xxxx黑人猛交| 天天干天天操天天爱| 麻豆精品久久久| 国产精品.com| 无遮挡的视频在线观看 | 成人精品国产| 精品国产一区二区三区四区四| 国产成人av一区二区三区不卡| 久久久久久久久久久9不雅视频| 午夜精品一区二区三区在线视| 久久精品偷拍视频| 国内成人免费视频| 久久五月天婷婷| av网站在线看| 欧美伊人久久大香线蕉综合69| 欧美成人精品一区二区综合免费| 国产亚洲欧美日韩在线观看一区二区 | 亚洲视频久久| 国产精品一区二区三区毛片淫片 | 2022中文字幕| 九九九伊在线综合永久| 亚洲国产精品va在线看黑人| 婷婷国产成人精品视频| 亚洲一区图片| dy888夜精品国产专区| av黄色在线观看| 精品国产福利在线| 爱情岛论坛亚洲自拍| 欧美亚洲精品在线| 91超碰中文字幕久久精品| 国产xxxxxx| 国产精品久久久久久亚洲伦 | 中文字幕av久久爽av| 视频在线在亚洲| 精品无码久久久久久久动漫| www免费视频观看在线| 欧美性大战久久久久久久蜜臀| 熟妇人妻久久中文字幕| 欧美人成在线| 亚洲一区二区少妇| 日本天堂在线观看| 欧美亚男人的天堂| 永久免费成人代码| 国产亚洲毛片在线| 国严精品久久久久久亚洲影视| 在线xxxx| 欧美电影免费提供在线观看| 中文字幕在线观看2018| 麻豆中文一区二区| 亚洲一区精品视频| 国产91亚洲精品久久久| 最近2019中文字幕mv免费看| 日本丰满少妇做爰爽爽| 国产午夜精品在线观看| 青青在线免费观看视频| 欧美日韩水蜜桃| 国产成人精品日本亚洲| 欧洲亚洲精品视频| 91激情在线视频| 中文字幕人妻一区二区三区在线视频| 亚洲专区在线| 欧美视频观看一区| 深夜成人福利| 中文字幕欧美专区| 国产又粗又黄又爽的视频| 中文字幕在线观看一区| 在线观看视频在线观看| 国产精品红桃| 精品国产一区二区三区四区精华| 毛片在线网站| 亚洲人a成www在线影院| 中文字幕欧美色图| 最新中文字幕一区二区三区| 日本女人性视频| 亚洲高清不卡| 老牛影视免费一区二区| 日本成人三级电影| 日韩中文字幕国产| 亚洲精品中文字幕成人片| 香蕉av福利精品导航| 精品无码人妻一区二区免费蜜桃| 美国一区二区三区在线播放| 午夜久久久久久久久久久| 成人台湾亚洲精品一区二区| 51久久精品夜色国产麻豆| 狠狠色伊人亚洲综合网站l| 欧美剧情电影在线观看完整版免费励志电影 | 久久久久久久一区| 岛国av在线免费| 亚洲午夜极品| 欧美一区二区视频在线| 99tv成人影院| 7m第一福利500精品视频| 国产精品久久一区二区三区不卡| 91精品国产综合久久蜜臀| 麻豆一区二区三区精品视频| 久久久久久黄色| 五月天国产视频| 免费欧美日韩| 国产资源第一页| 丝袜久久网站| 91夜夜未满十八勿入爽爽影院 | 亚洲成在人线免费| 欧美性受xxxx黑人| 成人午夜私人影院| 国产免费又粗又猛又爽| 在线日韩电影| 中文字幕精品一区日韩| 欧美巨大xxxx| 92国产精品视频| 中文在线а√在线8| 久久中文精品视频| 激情综合闲人网| 精品国产亚洲在线| 91久久久久久久久久久久| 黄色成人在线播放| 国产精品三区在线观看| 国产亚洲污的网站| 亚洲av无码专区在线播放中文| 免费在线观看一区二区三区| 自拍日韩亚洲一区在线| 五月天久久777| 日本在线高清视频一区| 久久精品凹凸全集| 亚洲在线观看视频| 国产香蕉久久| 日韩免费在线看| 678在线观看视频| 久久成人精品电影| 国产永久av在线| 亚洲精品国产精品自产a区红杏吧| 国产情侣av在线| 欧美日韩色综合| 欧美一区免费看| 欧美日韩中国免费专区在线看| 青娱乐国产在线视频| 亚洲日本电影在线| 人人妻人人澡人人爽| 久久丝袜美腿综合| 在线免费观看日韩av| www.亚洲精品| 日本精品一二三区| 国产成人亚洲综合色影视| 国产欧美一区二| 精品亚洲porn| av噜噜在线观看| 狠狠色伊人亚洲综合成人| 中文字幕天天干| 亚洲欧美日韩在线观看a三区| 免费观看国产精品视频| 亚洲黄页一区| 无罩大乳的熟妇正在播放| 一区二区亚洲精品| 精品成在人线av无码免费看| 欧美激情综合| 人妻互换免费中文字幕| 欧美96在线丨欧| 欧美一区二区视频在线播放| 欧美日韩一卡| 国产手机免费视频| 亚洲青色在线| 欧美 日韩 激情| 久久经典综合| 亚洲77777| 国产在线观看免费一区| 搡的我好爽在线观看免费视频| 国产精品一级在线| 国产二级一片内射视频播放| 99精品久久只有精品| av网在线播放| 中文字幕一区二区日韩精品绯色| 成人欧美一区二区三区黑人一| 亚洲女与黑人做爰| 精品视频在线观看免费| 偷偷要91色婷婷| 嫩草影院一区二区三区| 91麻豆精品国产91| 黄色av一区二区三区| 亚洲精品网址在线观看| 999在线视频| 久久亚洲私人国产精品va| 久久一卡二卡| 日本久久久久久久| 国产精品4hu.www| 99re国产视频| 综合伊思人在钱三区| 一区二区欧美日韩| 欧美精选一区| 9久久婷婷国产综合精品性色| 九一久久久久久| 亚洲无人区码一码二码三码| 9色porny自拍视频一区二区| 91导航在线观看| 亚洲午夜私人影院| 成人免费一级片| 精品国产乱码久久久久久夜甘婷婷| 天堂av在线播放| xxxxx91麻豆| 天堂√中文最新版在线| 91在线视频一区| 久久成人高清| av久久久久久| 久久影院亚洲| 中文字幕永久免费| 国产欧美精品在线观看| 久久亚洲成人av| 欧美日韩一区二区三区不卡| 韩国av在线免费观看| 中文字幕一区二区三区电影| 国产精品蜜臀| 91精品久久久久久| 婷婷成人影院| 免费网站在线观看视频 | 国产国语videosex另类| 日韩在线精品强乱中文字幕| 婷婷久久伊人| 亚洲主播在线| 催眠调教后宫乱淫校园| 国产精品久久久久久福利一牛影视 | 亚洲综合一区在线| 中文字幕av久久爽| 日韩精品中文字幕在线| 最新av在线播放| 国产精品中文字幕在线观看| 亚洲va久久| 霍思燕三级露全乳照| 国产成人在线视频播放| 国产日韩精品中文字无码| 欧美日在线观看| 人妻91麻豆一区二区三区| 久久成人免费视频| jizzjizz少妇亚洲水多| 麻豆精品蜜桃一区二区三区| 欧美私人啪啪vps| 91丝袜超薄交口足| 亚洲欧美在线视频观看| 黄色大全在线观看| 亚洲人午夜精品免费| 欧美另类老肥妇| 国产欧美日韩在线播放| 在线播放日韩| 国产婷婷在线观看| 亚洲最大成人网4388xx| 国产高清视频免费观看| 日韩一中文字幕| 久久免费影院| 亚洲人成网站在线播放2019| 爽爽淫人综合网网站| 成人片黄网站色大片免费毛片| 黑人巨大精品欧美一区免费视频| 午夜影院免费体验区| 国内免费精品永久在线视频| 福利欧美精品在线| 久久精品xxx| av中文字幕在线不卡| 国产污视频在线观看| 亚洲第一精品夜夜躁人人爽| 97久久人人超碰caoprom| 国产91aaa| 国产亚洲激情| 中文字幕xxx| 91黄色小视频| 日本高清中文字幕在线| 国产欧美一区二区三区在线看 | 中文字幕一区二区三区四区久久| 亚洲国产一二三精品无码| 国产99一区视频免费| 国产五月天婷婷| 亚洲精品国产精品国产自| 欧美舌奴丨vk视频| 亚洲一区免费看| 国产一区二区三区观看| 久久精品国产亚洲av麻豆色欲 | 午夜伦理在线| 91欧美激情另类亚洲| 国产一区二区中文| 9.1成人看片| 欧美日韩国产高清一区二区| 欧美黄色激情| 高清av免费一区中文字幕| 一区二区黄色| 日韩视频在线观看免费视频| 欧美精品一级二级三级| 91超碰免费在线| 性欧美videosex高清少妇| 韩日精品视频一区| 国产午夜精品无码| 亚洲最新在线视频| 日韩欧美一级| 五月婷婷深爱五月| 一区二区三区日韩精品| 欧美一区二区三区少妇| 91精品视频在线看| 久久精品动漫| 欧美成人aaa片一区国产精品| 亚洲精品ady| 精品久久国产一区| 丁香啪啪综合成人亚洲| 亚洲精品乱码久久久久久久久 | 粉嫩久久久久久久极品| 国产免费又粗又猛又爽| 婷婷成人激情在线网|