精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4變笨實錘!3個月性能暴減1/10,代碼生成大不如前,斯坦福最新研究引爆輿論

人工智能
為了判斷GPT-4和GPT-3.5針對「給定整數是否為質數」的能力的偏差,研究團隊用500個問題組成的數據集對模型進行了評估。

GPT-4變笨實錘了?

斯坦福、UC伯克利最新研究稱,和3月相比,GPT-4在6月的性能直接暴降。

甚至,代碼生成、問題回答大不如前。

圖片圖片

論文地址:https://arxiv.org/pdf/2307.09009.pdf

比如問「這個數是質數嗎」,GPT-4一步一步思考的成功率從97.6%降到2.4%。

圖片圖片

GPT-4性能驟減早有端倪。有網友甚至把3小時25條額度一口氣用完,也沒有解決問題。

圖片圖片

而這次,斯坦福研究一出瞬間引爆輿論,讓所有人大吃一驚的是,GPT-4竟然性能下降1/10。

就連OpenAI站出來,表示對此關注,正積極調查大家分享的報告。

圖片圖片

那么,這項斯坦福論文究竟說了什么?

安全了,但智商下線了

總的來說,GPT-4在3月和6月性能對比,主要在四個任務中有明顯的下降。

- 解決數學問題

- 回答敏感問題

- 代碼生成

- 視覺推理

圖片圖片

求解數學問題,CoT失敗了

在求解數學問題上,GPT-4準確率不僅下降,就連解題步驟都給省了。

為了判斷GPT-4和GPT-3.5針對「給定整數是否為質數」的能力的偏差,研究團隊用500個問題組成的數據集對模型進行了評估。

同時,研究還利用思想鏈幫助模型進行推理。

結果顯示,3 月,GPT-4正確回答了其中的488個問題。而在6月,它只答對了12個問題。

GPT-4準確率從 97.6%直降到 2.4%!

相應地,GPT-3.5的準確率則有較大提升,從7.4%上升到86.8%。

圖片圖片

此外,GPT-4 的響應變得更加緊湊:生成平均字符數從3月821.2降到6的3.8。另一方面,GPT-3.5 的響應長度增長了約 40%。

3月和6月版本之間的答案重疊度,都比較低。

那么,為什么會有這么大的差異?一種可能的解釋是思維鏈效果的變化。

圖片圖片

如上, 為了確定17077是否是質數,GPT-4 3月版很好地遵循了CoT指令,并將任務分解成4個步驟。

然而,這種思維鏈對于6月版并不起作用:沒有生成任何解題步驟,只輸出了「不是」。

在GPT-3.5中,在3月份解答中答案是錯誤的,6月更新后解決了這個問題。

這一有趣的現象表明,同樣的提示方法,即使是這些被廣泛采用的方法,如CoT,也可能由于LLM變化而導致顯著不同的性能。

代碼生成,更加冗長,難以執行

另外,GPT-4代碼生成也變得更糟了。

研究團隊從LeetCode中建立了一個包含50個簡單問題的數據集,并測試了有多少GPT-4答案在不做任何修改的情況下運行。

結果,3月份的版本在52%的問題上取得了成功,但6月的模型,成功率下降到了10%。GPT-4 的冗長程度也增加了20%。

圖片圖片

同時,GPT-3.5的下降幅度也很大,從22%降至2%。

此外,3月份,GPT-4和GPT-3.5都遵循用戶指令,從而產生了直接可執行的生成。

然而,在6月份,他們在代碼片段前后添加了額外的「引號」,導致代碼無法執行。

圖片圖片

回答敏感問題,更安全但缺乏理由

還有GPT-4回答問題變得更加小心謹慎了。

正是因為語言模型會帶來社會偏見,輸出有毒內容,產生幻覺,OpenAI對此做了大量的對齊工作。

結果可想而知,GPT-4真的被「打」聽話了。

研究中,團隊創建了一個包含100個LLM服務不應直接回答的敏感問題集,測試模型后,觀察到這項任務的兩個主要趨勢。

首先,從3月(21%)到 6月(5%),GPT-4回答的敏感問題較少,而GPT-3.5回答的敏感問題較多(從 2%-8%)。

6月份,GPT-4的更新中可能會部署更強大的安全層,而 GPT-3.5 則變得不再保守。

圖片圖片

另一個觀察結果是,GPT-4 的生成長度(以字符數衡量)從600多個下降到140左右。

為什么生成字符長度發生變化?

除了回答更少的問題之外,這也是因為GPT-4變得更加簡潔,并且在拒絕回答查詢時提供的解釋也更少。

如下,在無法回答用戶問題時,GPT-4在3月生成了一整段原因來解釋,6月版簡單生成了「抱歉,我無法提供幫助」。

簡之,廢話變少了。

圖片圖片

此外,研究人員通過利用「AIM攻擊」還對模型進行了越獄攻擊。

AIM攻擊描述了一個假設的事件,并要求LLM服務充當未經過濾且不道德的聊天機器人。

如下表所示,當部署AIM攻擊時,GPT-4和GPT-3.5的應答率都有大幅增加。

然而,它們的時間漂移有很大不同。對于GPT-4,AIM攻擊在3月產生了78%的直接答案,但在6月僅產生了 31%。

對于GPT-3.5,兩個版本之間只有4%的回答率差異。這表明GPT-4的更新比GPT-3.5更能抵御越獄攻擊。

圖片圖片

視覺推理,邊際改進

最后,研究人員利用ARC數據集中467個樣本來評估了GPT-4和GPT-3.5的視覺推理能力。

結果顯示,對于GPT-4和GPT-3.5,從3月到6月,精確匹配率均提高了2%。響應長度大致不變。

雖然總體GPT-4隨著時間的推移變得更好,但在如下的特定查詢上卻變得更糟。

它在3月給出了正確的答案,但在6月份給出的答案是錯誤的。

圖片圖片

GPT-4能力下降這么多,事實真是如此嗎?

普林斯頓教授實名反對

不過,這篇論文的內容還是值得好好推敲推敲的。

粗暴地總結為GPT-4變爛,就有些過于概括了。

圖片圖片

文章地址:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

能力≠行為

首先,聊天機器人的一個重要概念是,能力和行為之間存在著很大的差異。

一個具有某種能力的模型,可能會或可能不會在回應特定提示時,顯示出這種能力。

而讓聊天機器人獲得能力的預訓練過程代價極高,對于最大的模型來說,可能需要數月的時間,因此永遠不會重復。

另一方面,模型的行為也會受到后續微調的影響。相比起來,微調成本要低得多,而且會定期進行。

請注意,經過預訓練的基礎模型只是一個高級的自動完成工具——它不會與用戶聊天,聊天行為是通過微調產生的。

微調的另一個重要目標是防止出現不良輸出。換句話說,微調既能激發能力,也能抑制能力。

基于這些知識,我們就可以預料到,隨著時間的推移,模型的能力會保持相對穩定,但它的行為卻會有很大的變化。這與論文的發現完全一致。

沒有能力下降的證據

論文作者在四項任務中,對GPT-3.5和GPT-4進行了測試。

OpenAI通過其API提供了模型在三月和六月的「快照」,因此論文中所比較的,也是這兩個模型快照的行為。

具體來說,他們選擇了數學問題(檢查一個數字是否是質數)、回答敏感問題、代碼生成和視覺推理,這四類問題進。其中,數學問題和代碼生成這兩項任務的性能有所下降。

在代碼生成方面,他們提到的變化是較新的GPT-4在輸出中添加了非代碼文本。

出于某種原因,作者沒有評估代碼的正確性。而只是檢查代碼是否可直接執行,也就是說,它是否構成了一個完整、有效的程序。

所以,新模型試圖更有幫助的做法反而對其不利。

不僅如此,他們評估數學問題的方式更是奇怪。

500道是/否問題,但正確答案始終是「是」

用作測試的數學問題,是「17077是質數嗎」這樣的形式。

然而,作者選的500個數字,都是質數!

事實證明,在大多數情況下,沒有一個模型真正執行了檢查數字是否有除數的算法——它們只是假裝這么做了。

也就是說,他們開始推理,然后直接跳到了最后。

下面是作者數據中的一個回應片段(GPT-4的三月快照):

圖片圖片

模型雖然正確地列出了所有需要檢查的潛在因素,但沒有實際檢查它們!

這在論文展示的例子中也是顯而易見的,但作者卻忽略了這一點,并將其作為一項數學解題測試。

由于論文只在質數上進行了測試,為了補充這個評估,普林斯頓的研究人員用500個合數測試了模型。

事實證明,作者發現的大部分性能下降都可以歸因于對評估數據的選擇。

看起來變化的是:GPT-4的三月版本幾乎總是猜測數字是質數,六月版本則總是猜測它是合數。對于GPT-3.5,這種行為正好相反。

因為作者只測試了質數,所以他們把這一現象解釋為性能的下降。

實際上,如下圖所示,四個模型都一樣的糟糕——它們都是基于他們被校準的方式來猜測的。

簡單來說就是,在微調過程中,有些模型可能接觸到了更多涉及質數的數學問題,而其他的則是合數。

圖片圖片

GPT-3.5的六月版本和GPT-4的三月版本幾乎總是推斷數字是質數,而另外兩個模型則正好相反。

但是論文只測試了質數,因此得出結論:GPT-3.5的性能提高了,GPT-4的性能下降了。

簡而言之,論文中的所有內容都與模型隨時間變化而變化的行為相一致,且沒有任何一項表明模型的能力出現了下降。

即使是行為變化,似乎也是作者評估中的特殊情況,目前還不清楚他們的發現能否推廣到其他任務中。

為什么這篇論文會引發爭議?

過去幾個月,有不少人根據自己的使用經驗,推測GPT-4的性能已經出現了下降。

當GPT-4的架構(據稱)被泄露時,有一個廣為流傳的說法稱,OpenAI為了節省計算時間和成本而降低了性能。

OpenAI方面對此矢口否認,但用戶們并不買賬。

因此,當這篇論文出來時,似乎證實了這些長期以來的猜測。

普林斯頓的研究人員表示,雖然無法確定傳言是否屬實,但可以肯定的是,這篇論文并沒有提供相關證據。

在那些對性能下降持懷疑態度的人中,最受歡迎的假設是:當人們越來越多地使用ChatGPT時,就會更容易注意到它的局限性。

但,這里還有另一種可能。

在LLM API上很難構建可靠的產品

行為變化和能力退化對用戶的影響非常相似。

用戶往往有著特定的工作流程和提示策略,而這些策略對于他們自己的使用場景來說,非常有效。

鑒于LLM的非確定性,要發現這些策略并找到適合特定應用的工作流程,需要花費大量的精力。

因此,當模型的行為發生漂移時,這些工作流程就可能會失效。

對于受挫的ChatGPT用戶來說,告知他們所需的能力仍然存在,但現在要用新的提示策略才能激發,顯然是無濟于事的。

而對于基于那些GPT API構建的應用程序來說,情況尤其如此。如果模型的行為發生變化,那么已經部署給用戶的代碼就很可能會出現問題。

為了緩解這一問題,OpenAI提供了模型快照,但只保留幾個月,并要求應用開發人員進行定期更新。

正如普林斯頓的研究人員之前所提到的,這凸顯了使用這些API進行可重復性研究,或者在其基礎上構建可靠的產品是多么困難。

簡而言之,新論文并未顯示出GPT-4的能力退化。但這是一個很有價值的提醒:對LLM經常進行的微調可能會產生意想不到的影響,包括某些任務的顯著行為變化。

最后,我們發現的陷阱揭示了,對語言模型進行定量評估是多么的困難。

作者介紹

Sayash Kapoor

圖片

Kapoor是普林斯頓大學信息技術政策中心的計算機科學博士候選人。他的研究重點集中在AI對社會的影響。

在此之前,Kapoor曾在Facebook、哥倫比亞大學和瑞士EPFL從事AI方面的學術研究,他曾獲得ACM FAccT最佳論文獎和ACM CSCW影響力認可獎。

目前,Kapoor正在與Arvind Narayanan合著一本關于AI「蛇油」(Snake Oil)的書。這本書批判性地探討了AI能做什么和不能做什么。

Arvind Narayanan

圖片

Narayanan是普林斯頓大學計算機科學教授,兼信息技術政策中心主任。

Narayanan的研究集中在數字技術,尤其是AI對社會的影響,和Kapoor是合作關系。

Arvind Narayanan是普林斯頓大學計算機科學教授和信息技術政策中心主任。

他曾與人合著過一本關于公平與機器學習的教科書,目前正在與Kapoor合著一本關于AI「蛇油」的書。

他領導了普林斯頓網絡透明與問責項目,揭示公司如何收集和使用用戶的個人信息。Narayanan的研究是最早表明機器學習如何反映文化成見的研究之一,他的博士研究表明了去身份化的根本局限性。

Narayanan曾獲得過總統科學家和工程師早期職業獎 (PECASE),兩次獲得隱私增強技術獎 (Privacy Enhancing Technologies Award),三次獲得決策者隱私論文獎 (Privacy Papers for Policy Makers Award)。

網友熱議

英偉達科學家Jim Fan表示,我們中的許多從業人員都認為,GPT-4會隨著時間的推移而退化。

但是,GPT-4為什么會退化,我們又能從中學到什么呢?以下是我的想法:

圖片圖片

- 安全性與有用性的權衡

論文顯示,GPT-4 Jun版本比Mar版本「更安全」,因為它更有可能拒絕敏感問題(回答率從21%降到5%)。

不幸的是,更高的安全性通常是以更低的實用性為代價的,這可能會導致認知能力的下降。我的猜測是(沒有證據,只是推測),OpenAI從3月-6月花了大部分精力進行「腦葉切除術」,沒有時間完全恢復其他重要的能力。

- 安全對齊使編碼變得不必要地冗長

論文顯示,GPT-4 Jun往往會混入無用的文本,即使提示明確指出「只生成代碼,不包含任何其他文本」。

這意味著實踐者現在需要手動對輸出進行后處理才能執行。這在LLM軟件棧中是個大麻煩。我認為這是安全對齊的副作用。

我們都見過GPT添加警告、免責聲明(我不是<領域>專家,所以請咨詢......)和反駁(話雖如此,但尊重他人很重要......),通常是在一個原本非常直接的答案上。如果整個「大腦」都被調整成這樣,編碼也會受到影響。

- 成本削減

沒有人知道GPT-4 Jun是否與GPT-4 Mar是完全相同的MOE配置。有可能 (1) 參數量減少,(2) 專家數量減少,和/或 (3) 較簡單的查詢被路由到較小的專家,只有復雜的查詢才保持原來的計算成本。

- 持續集成將是一個至關重要的LLM研發課題

人工智能領域幾乎沒有趕上一般軟件領域認為理所當然的事情。即使是這篇研究論文,也沒有對MMLU、Math 和 HumanEval等基準進行全面的回歸測試。

它只研究了一個特定的質數檢測問題。GPT-4在三角函數上回歸了嗎?其他推理任務呢?不同編程語言的代碼質量以及自調試能力如何?

馬庫斯問道,從RLHF微調如何?

圖片圖片

還有網友表示,沒錯,他們有可能在操縱模型,決定讓哪個專家參與進來。削減成本總是一個好選擇。

不幸的是,除非OpenAI解釋發生了什么,否則我們無法知道。但正如你所說,他們否認質量變差了。

圖片圖片

我也注意到了同樣的情況。我目前的工作流是必應(雖然也是GPT,但有更多的數據和研究驅動)、GPT-4和Claude 2的組合,后者最近更優先。

圖片圖片

在我看來,這就是開源模型會獲勝的原因。

圖片圖片

參考資料:

https://arxiv.org/abs/2307.09009

https://twitter.com/drjimfan/status/1681716564335394817?s=46&t=iBppoR0Tk6jtBDcof0HHgg

https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-07-21 14:16:15

2023-07-20 14:33:36

GPT-4代碼

2023-06-02 13:19:17

GPT-4文本代碼

2023-07-20 13:57:09

2012-06-15 09:14:21

金融時報黑莓

2023-03-15 10:35:16

GPTAI

2024-01-01 22:28:52

2023-06-05 15:44:15

GPT-4AI

2024-03-25 07:15:00

AI模型

2023-07-21 14:47:24

AI訓練

2025-01-17 10:26:19

模型開發ChatGPT

2025-03-12 10:38:05

2023-12-26 14:56:59

模型訓練

2024-01-03 13:37:00

模型數據

2024-01-29 12:49:00

AI模型

2023-10-17 13:33:00

AI數據

2023-06-15 14:00:00

研究模型

2025-09-01 09:13:00

2023-09-21 12:31:54

AI數據

2024-01-02 13:12:53

GPT-4UCSC數據
點贊
收藏

51CTO技術棧公眾號

韩日精品视频一区| 九九精品久久| 午夜欧美大尺度福利影院在线看 | 六月丁香激情网| 日本私人网站在线观看| 奇米色777欧美一区二区| 久久夜精品va视频免费观看| 色婷婷免费视频| 国产极品嫩模在线观看91精品| 中文av一区二区| 大波视频国产精品久久| 波多野结衣小视频| 欧美精品激情| 伊人男人综合视频网| 一级黄色免费毛片| 三上悠亚一区二区| 亚洲精品一二三| 日韩视频专区| 少妇又色又爽又黄的视频| 蜜臀久久99精品久久久久久9 | 日韩精品在线免费观看| 中文av一区二区三区| free性护士videos欧美| 一区在线中文字幕| 日韩一区二区三区资源| 欧美综合视频在线| 国模大尺度一区二区三区| 欧美在线影院在线视频| 青青草偷拍视频| 国产aⅴ精品一区二区三区久久| 日韩女优av电影| 色国产在线视频| 欧美极度另类| 天天色天天爱天天射综合| 91免费视频黄| 日本欧美在线视频免费观看| 国产农村妇女毛片精品久久麻豆 | 91久久嫩草影院一区二区| 色屁屁影院www国产高清麻豆| 韩国亚洲精品| 欧美激情国产精品| 欧美偷拍第一页| 欧美好骚综合网| 中文字幕亚洲欧美在线| 中文字幕被公侵犯的漂亮人妻| 国产精品一区二区中文字幕| 欧美大片顶级少妇| 免费人成视频在线播放| 国产精品3区| 56国语精品自产拍在线观看| 午夜两性免费视频| 国产福利91精品一区二区| 日本黄色一区二区| 久久精品网站视频| 日韩性xxx| 欧美视频在线观看一区二区| 天天爽天天爽夜夜爽| 国产麻豆一区| 欧美日韩亚洲不卡| 国产一级片自拍| 天天综合在线观看| 91精品欧美久久久久久动漫 | 99国产精品视频免费观看| 国产精品日韩一区二区| 国产18精品乱码免费看| 99久久99久久精品免费看蜜桃| 国产区一区二区三区| 五月婷婷激情在线| 久久久精品综合| 视频一区二区三| 黄在线免费观看| 一区二区三区在线视频免费观看| 国产精品视频一二三四区| 国产盗摄一区二区| 欧美日韩国产色视频| 日本在线观看a| 国产欧美在线观看免费| 日韩一二在线观看| 亚洲国产果冻传媒av在线观看| 国内精品麻豆美女在线播放视频 | mm131美女视频| 欧美一区电影| 久久国产精品亚洲| 日韩污视频在线观看| 日韩精品国产欧美| 99高清视频有精品视频| 午夜成人鲁丝片午夜精品| 久久精品综合网| 中文字幕一区二区三区最新 | 亚洲综合一区二区| 激情六月丁香婷婷| 成人综合日日夜夜| 日韩电影第一页| 国产大屁股喷水视频在线观看| 午夜精品婷婷| 国产精品久久久久久久久久| 国产黄色美女视频| 久久久久久影视| 女人床在线观看| 亚洲成人av观看| 日韩免费高清视频| 舐め犯し波多野结衣在线观看| 小小影院久久| 日本一区二区三区四区视频| 国产av一区二区三区| 久久久久国产免费免费| 国产精品igao激情视频| 国产精欧美一区二区三区蓝颜男同| 欧美精品免费视频| 蜜桃无码一区二区三区| 黄色一区二区三区四区| 国产主播精品在线| 日本成人一区二区三区| 亚洲人成网站色在线观看| 日韩视频第二页| 午夜久久av| 自拍偷拍亚洲区| 你懂的国产在线| 国产成人精品免费网站| 亚洲福利av在线| 超级碰碰久久| 亚洲精品国产精品久久清纯直播| 永久免费未视频| 久久一区激情| 裸模一区二区三区免费| 日本在线观看大片免费视频| 欧美日韩成人一区二区| 97超碰在线免费观看| 国内精品亚洲| 高清国产一区| 中日韩高清电影网| 欧美日本在线观看| 青娱乐国产视频| 久久精品首页| 久久久精品动漫| av资源新版天堂在线| 精品乱码亚洲一区二区不卡| 九九精品视频免费| 韩国三级中文字幕hd久久精品| 日韩国产精品一区二区| 欧美精品日日操| 国产视频精品一区二区三区| 国产精品久久久免费视频| 成人网在线播放| 成人免费播放器| 国产一级成人av| 午夜精品久久久久久久99热浪潮| 亚洲精品国产片| 亚洲国产精品欧美一二99| 中文字幕亚洲日本| 午夜精品久久| 国产精品一区二区av| 国产网红在线观看| 精品国内片67194| 亚洲国产精一区二区三区性色| 懂色av一区二区夜夜嗨| 人妻av无码专区| 好吊妞国产欧美日韩免费观看网站| 欧美人在线视频| 国 产 黄 色 大 片| 午夜影院久久久| 亚洲国产精品成人综合久久久| 国产精品一二| 日韩精品伦理第一区| 日本欧美在线| 精品中文字幕在线| 五月婷婷深深爱| 91精品福利在线| 天天爽天天爽天天爽| 国产一区二区在线电影| 成人在线免费观看视频网站| 黄色欧美在线| 国产精品欧美亚洲777777| 97视频在线观看网站| 欧美一区二区三区免费| 国产乱码久久久久久| 久久免费精品国产久精品久久久久| 中文字幕视频在线免费观看| 国产精品国产三级国产在线观看| 亚洲综合精品伊人久久| 99re6在线精品视频免费播放| 亚洲欧美日本精品| 国产精品嫩草影院桃色| 亚洲成人av一区二区三区| 国产精品成人一区二区三区电影毛片| 日本中文一区二区三区| 污污污污污污www网站免费| 精品中国亚洲| 国产日韩欧美视频在线| 丁香花在线高清完整版视频 | 国精产品一区二区三区| 国产综合久久久久影院| 无码人妻丰满熟妇区96| 欧美成人激情| 久久riav二区三区| 91麻豆精品| 欧美专区国产专区| 黄色在线播放网站| 亚洲黄页网在线观看| 夜夜爽8888| 欧美性猛交xxxx富婆| 波多野结衣亚洲一区二区| 91色.com| 欧美丰满熟妇bbb久久久| 日韩1区2区日韩1区2区| 日韩欧美精品免费| 欧美成人精品一区二区三区在线看| 国产视频一区二区三区四区| 午夜精品久久久久久毛片| 97成人在线视频| 国产精品刘玥久久一区| 亚洲一品av免费观看| 日本xxxxwww| 这里是久久伊人| 久久久久亚洲视频| 五月天激情小说综合| 久草手机视频在线观看| 国产欧美日韩三区| 国产精品无码电影| 高清av一区二区| 天天操天天干天天做| 久久婷婷亚洲| 高清在线观看免费| 国语精品一区| 欧美国产视频一区| 66国产精品| 亚洲欧美日韩精品在线| 中文字幕伦av一区二区邻居| 精品欧美日韩在线| 福利电影一区| 国产精品久久波多野结衣| 国产日韩在线观看视频| 成人www视频在线观看| 欧美影视资讯| 国产精品久久久久免费a∨大胸| 黑森林国产精品av| 韩剧1988在线观看免费完整版| caopon在线免费视频| 久久九九热免费视频| 在线播放日本| 日韩性xxxx爱| 免费网站看v片在线a| 中文字幕亚洲欧美| 尤物网在线观看| 色悠悠久久久久| 幼a在线观看| 久久亚洲精品毛片| 中文字幕有码在线视频| 欧美精品在线看| 中日韩高清电影网| 国产69精品久久久久9| 国产美女高潮在线观看| 欧美有码在线视频| 三上悠亚激情av一区二区三区 | 欧美高清激情视频| 青草在线视频| 欧美国产日韩一区| 国产白浆在线免费观看| 欧美怡红院视频一区二区三区| 浪潮色综合久久天堂| 国产精品一区电影| 成人亚洲精品| 国产欧美一区二区三区不卡高清| 麻豆精品少妇| 日韩欧美在线观看强乱免费| 午夜av一区| 日韩一区二区高清视频| 在线一区视频| 9久久婷婷国产综合精品性色| 裸体一区二区三区| 青娱乐国产精品视频| av亚洲精华国产精华| 免费观看av网站| 国产精品久久久久影院色老大| 在线看的片片片免费| 午夜电影一区二区| 国产一级片免费视频| 337p亚洲精品色噜噜狠狠| 亚洲黄色一级大片| 亚洲男人的天堂网站| 欧美一区二区三区在线观看免费| 欧美夫妻性视频| 日韩不卡免费高清视频| 91夜夜未满十八勿入爽爽影院| 激情小说一区| 亚洲一卡二卡三卡四卡无卡网站在线看| 亚洲色图国产| 中国丰满人妻videoshd| 九一九一国产精品| 小毛片在线观看| 中文字幕不卡在线| 久久亚洲国产成人精品性色| 色综合天天综合网国产成人综合天 | 欧美日韩国产精品专区| 亚洲综合精品国产一区二区三区| 精品精品国产高清a毛片牛牛| 国产福利在线| 欧美激情一级精品国产| 91九色综合| 国产亚洲一区二区三区在线播放| 日韩精品一区二区三区免费观看| 欧美狂野激情性xxxx在线观| 美女脱光内衣内裤视频久久影院| 亚洲色图欧美日韩| 最新热久久免费视频| 欧美一区二区三区不卡视频| 日韩欧美高清dvd碟片| 1769视频在线播放免费观看| 欧美一级片一区| 亚洲精品18| 在线亚洲美日韩| 久久一区国产| 中文字幕免费高清视频| |精品福利一区二区三区| 高清乱码免费看污| 亚洲第一精品夜夜躁人人爽| 国产区在线观看| 国产精品视频色| 伊人成综合网伊人222| 日韩精品一区在线视频| 国产精品 日产精品 欧美精品| 中文字幕在线观看二区| 一本色道综合亚洲| 午夜视频免费看| 国外成人性视频| 综合成人在线| 毛片在线视频观看| 国产在线麻豆精品观看| 人妻无码一区二区三区免费| 色美美综合视频| 欧美另类自拍| 欧美在线播放视频| 天天躁日日躁成人字幕aⅴ| 免费看毛片的网址| 成人午夜电影网站| 欧美激情精品久久| 日韩视频在线永久播放| 国产福利视频在线| 国产在线日韩在线| 91精品国产成人观看| 亚洲综合伊人久久| 亚洲人精品一区| 国产国语亲子伦亲子| 欧美丰满少妇xxxxx| 亚洲精品一区国产| 996这里只有精品| 国产aⅴ精品一区二区三区色成熟| 国产盗摄x88av| 日韩精品一区二区三区四区| 三级福利片在线观看| 国产精品久久久对白| 亚洲激情二区| 国产 中文 字幕 日韩 在线| 欧美日韩国产精品专区| 男女视频在线观看免费| 日韩女在线观看| 色婷婷一区二区三区| 久久精品一卡二卡| 亚洲五码中文字幕| 天堂av一区二区三区| 日韩美女视频中文字幕| 精品久久久中文字幕| 无尽裸体动漫2d在线观看| 中文字幕一区二区三区乱码在线 | 日韩国产在线看| 日本综合字幕| 亚洲一区二区高清视频| 极品美女销魂一区二区三区免费| 91精品国产高清一区二区三蜜臀| 精品久久久久久久人人人人传媒| 这里有精品可以观看| 性欧美.com| 国产成人免费在线观看不卡| 91午夜视频在线观看| 中国china体内裑精亚洲片| 亚洲人体在线| 大j8黑人w巨大888a片| 国产亚洲欧洲997久久综合 | 一区二区三区动漫| 91亚洲精品在看在线观看高清| 9色porny| 国产日韩成人精品| a级片在线免费看| 欧美一区第一页| 999成人网| 亚洲欧美在线不卡| 欧美日韩一区二区欧美激情| 欧美xxxx视频| 亚洲v国产v在线观看| 懂色av一区二区三区免费观看 | 国产a免费视频| 亚洲美女av网站| 国产精品色婷婷在线观看| 69堂免费视频| 亚洲免费av观看| 美州a亚洲一视本频v色道| 亚洲综合成人婷婷小说| 久久久久中文| 欧美成欧美va| 中文字幕av一区二区|