精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

揭秘大模型強(qiáng)推理能力幕后功臣“缺陷”，過程級獎勵模型新基準(zhǔn)來了

作者：量子位 2025-01-16 08:40:00

人工智能新聞

復(fù)旦大學(xué)、蘇州大學(xué)，上海AI Lab等聯(lián)合提出了 PRMBench，它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽，用于評測模型細(xì)粒度的錯誤檢測能力。

截止目前，o1 等強(qiáng)推理模型的出現(xiàn)證明了 PRMs（過程級獎勵模型）的有效性。

（“幕后功臣” PRMs 負(fù)責(zé)評估推理過程中的每一步是否正確和有效，從而引導(dǎo) LLMs 的學(xué)習(xí)方向。)

但關(guān)鍵問題來了：我們?nèi)绾螠?zhǔn)確評估 PRMs 本身的性能？

作為回應(yīng)，復(fù)旦大學(xué)、蘇州大學(xué)，上海AI Lab等聯(lián)合提出了 PRMBench，它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽，用于評測模型細(xì)粒度的錯誤檢測能力。

具體而言，目前主流的評估方法往往側(cè)重于最終結(jié)果的正確性，而忽略了對推理過程中細(xì)致入微的錯誤類型的識別。例如，一個推理步驟可能存在冗余、部分正確、甚至完全錯誤等多種狀態(tài)，簡單的“正確/錯誤”標(biāo)簽難以捕捉其復(fù)雜性。

而 PRMBench 提供了一個更全面、更精細(xì)化的評估工具，可以更有效地識別 PRMs 的潛在缺陷，促進(jìn)相關(guān)算法的改進(jìn)。

實(shí)驗(yàn)發(fā)現(xiàn)，目前 PRMs 在細(xì)粒度錯誤檢測上仍有較大提升空間。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking，其 PRMScore 也僅為 68.8，勉強(qiáng)高于隨機(jī)猜測的 50.0。

即使是專門在步驟級數(shù)據(jù)上訓(xùn)練過的 PRMs，其表現(xiàn)仍不如優(yōu)秀的閉源通用模型，且多步推理能力專門增強(qiáng)過的模型表現(xiàn)優(yōu)于一般通用模型。

除此之外，研究人員還公布了一些其他發(fā)現(xiàn)和探討。

PRMBench：一次針對PRMs的“全方位體檢”

據(jù)介紹，PRMBench 并非簡單的“升級版”評估數(shù)據(jù)集，而是一套經(jīng)過精心設(shè)計(jì)的“體檢方案”，目的是全面考察 PRMs 在不同維度上的能力。

下圖為 PRMBench 的主要結(jié)構(gòu)，左側(cè)部分展示了數(shù)據(jù)整理的流程，右側(cè)部分展示了評估主題的示例以及測試模型的相對性能表。

其主要特點(diǎn)包括：

海量且精細(xì)的標(biāo)注數(shù)據(jù)：包含 6,216 個精心設(shè)計(jì)的問題，并包含 83,456 個步驟級別的標(biāo)簽，確保評估的深度和廣度。
多維度、多層次的評估體系：從簡潔性 (Simplicity)、合理性 (Soundness) 和敏感性 (Sensitivity) 三個主要維度出發(fā)，進(jìn)一步細(xì)分為九個子類別，例如非冗余性、非循環(huán)邏輯、評價合理性、步驟一致性、領(lǐng)域一致性、置信度不變性、前提條件敏感性、欺騙抵抗和一題多解一致性，力求全面覆蓋PRMs可能遇到的挑戰(zhàn)。
揭示現(xiàn)有 PRMs 的“盲區(qū)”：研究團(tuán)隊(duì)對 15 個代表性模型進(jìn)行了廣泛的實(shí)驗(yàn)，包括開源 PRMs 以及將強(qiáng)力通用語言模型提示作為 Critic Model 的模型。實(shí)驗(yàn)結(jié)果令人驚訝，也引人深思。

具體來說，研究的主要發(fā)現(xiàn)如下：

1、整體表現(xiàn)堪憂。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking，其 PRMScore 也僅為 68.8，勉強(qiáng)高于隨機(jī)猜測的 50.0。這表明，即使是最先進(jìn)的 PRMs，在多步過程評估中仍然有巨大的提升空間。

2、開源 PRMs 表現(xiàn)更弱。開源 PRMs 的平均 PRMScore 更低至 50.1，部分模型甚至不如隨機(jī)猜測，揭示了其可靠性和潛在訓(xùn)練偏差的問題。

3、“簡潔性”成最大挑戰(zhàn)。在 “簡潔性” 維度上，即使是表現(xiàn)相對較好的 ReasonEval-34B，其 PRMScore 也驟降至 51.5，表明 PRMs 在識別推理過程中的冗余步驟方面能力不足。

4、 “陽性偏好”現(xiàn)象顯著。部分模型，例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B，在評估中表現(xiàn)出顯著的“陽性偏好”，難以區(qū)分正確和錯誤的步驟。

5、數(shù)據(jù)驅(qū)動的洞察。研究發(fā)現(xiàn)，錯誤步驟出現(xiàn)的位置也會影響PRMs的判斷準(zhǔn)確率?？偟膩碚f，隨著錯誤步驟位置的后移，PRMs 的表現(xiàn)會逐漸提升。

具體提出過程

下面介紹一下具體研究過程。

提出主要問題

在一項(xiàng)需要舉出反例的證明題實(shí)踐中，研究人員觀察到一個有趣的現(xiàn)象：

即使大語言模型 (o1) 自身意識到當(dāng)前推理過程存在一些問題，仍然會產(chǎn)生錯誤的推理步驟。

更令人擔(dān)憂的是，當(dāng)調(diào)用現(xiàn)有的 PRMs 去檢測剛剛 o1 生成的推理過程時，結(jié)果卻發(fā)現(xiàn)多數(shù) PRMs 無法檢測出這種細(xì)粒度的錯誤。

這一發(fā)現(xiàn)引出了一個關(guān)鍵問題：當(dāng)前的 PRMs 是否具備檢測推理過程中細(xì)粒度錯誤的能力？

下圖為，當(dāng)詢問模型一道拉格朗日中值定理相關(guān)問題時，o1 和 PRMs 可能會產(chǎn)生的錯誤。

然而，現(xiàn)有針對 PRMs 評測而設(shè)計(jì)的 benchmark 大多僅僅關(guān)注步驟評判的對錯，而忽視步驟評判的錯誤類型，缺乏對錯誤類型的細(xì)致分類。

這也就意味著，目前缺少這樣能夠評測 PRMs 在細(xì)粒度錯誤上表現(xiàn)的綜合 benchmark。

而這，正是研究人員推出 PRMBench 這一精細(xì)化基準(zhǔn)的根本原因。

他們希望通過 PRMBench，打破現(xiàn)有評估的局限，真正遴選出能夠有效識別細(xì)粒度錯誤的“優(yōu)秀” PRM。

下圖為 PRMBench 與其他數(shù)據(jù)集對比。

PRMBench構(gòu)建

如下所示，PRMBench 包含三大評測主題：簡潔性，合理性和敏感性。

數(shù)據(jù)來源：基于 PRM800K 構(gòu)建，首先篩選出其完全正確的問題、答案以及解題步驟作為元數(shù)據(jù)。
錯誤引入：針對多數(shù)評測主題（前8個）使用 LLMs（特別是 GPT-4o）將各種細(xì)粒度的錯誤引入到完全正確的解題推理步驟中。對于一題多解的情況，則使用多步推理增強(qiáng)過的語言模型為同一問題生成不同的正確解法及其推理步驟。
人工驗(yàn)證：嚴(yán)格的人工審查，以確保引入錯誤的質(zhì)量和相關(guān)性。
數(shù)據(jù)集統(tǒng)計(jì)：包含 6,216 個精心設(shè)計(jì)的問題，帶有 83,456 個步驟級別的標(biāo)簽。
評估對象：分為三個主要領(lǐng)域。簡潔性評估冗余檢測能力（非冗余性、非循環(huán)邏輯）；合理性評估PRM產(chǎn)生獎勵的準(zhǔn)確性和正確性（評價合理性、步驟一致性、領(lǐng)域一致性、置信度不變性）；敏感性評估對變化和誤導(dǎo)性信息的魯棒性（前提條件敏感性、欺騙抵抗、多解一致性）。

實(shí)驗(yàn)與結(jié)果

研究人員測試了 15 個模型，包括開源 PRMs (Skywork-PRM, Llemma-PRM, MATHMinos-Mistral,MathShepherd-Mistral, RLHFlow-PRM) 和提示為 Critic Models 的優(yōu)秀閉源語言模型 (GPT-4o, o1-mini，Gemini-2)。

評估指標(biāo)主要為：

負(fù) F1 分?jǐn)?shù) (Negative F1 Score)：評估錯誤檢測性能的主要指標(biāo)。
PRMScore：將 F1 和負(fù) F1 相結(jié)合的統(tǒng)一、標(biāo)準(zhǔn)化的分?jǐn)?shù)，以反映整體能力。

可以看出，整體而言 PRMs 在多步過程評估中表現(xiàn)出有限的能力，其得分通常僅略高于隨機(jī)猜測。

同時，開源 PRMs 的表現(xiàn)通常不如將強(qiáng)力通用語言模型（如o1, Gemini-thinking等）提示為 Critic Model 的表現(xiàn)更好。

而且相較于其他評測主題，檢測冗余 (簡潔性) 被證明對 PRMs 來說尤其困難。

另外，通過 PRMBench 下模型對于正確標(biāo)簽測試樣例（陽性數(shù)據(jù)）和錯誤標(biāo)簽測試樣例（陰性數(shù)據(jù)）的得分對比及相似度來看。

許多 PRMs 表現(xiàn)出對正確標(biāo)簽的偏好，難以正確識別錯誤標(biāo)簽測試樣例（陰性數(shù)據(jù)）。

且從推理步驟位于推理鏈中不同位置對模型 PRMScore 的影響來看，PRMs 的性能往往會隨著推理步驟位于推理鏈中的位置逐漸靠后而提高。

最后從不同 Few shot 數(shù)目對于提示為 Critic Model 的通用語言模型表現(xiàn)影響來看，少樣本 ICL 的影響有限。

在 reward 過程中使用不同數(shù)量示例的 In-Context Learning 對閉源模型的性能影響不大。

小結(jié)一下，PRMBench 的發(fā)布，提醒我們重新審視現(xiàn)有 PRMs 的能力邊界。

按照研究團(tuán)隊(duì)的說法，“我們希望 PRMBench 能夠成為推動 PRM 評估和發(fā)展研究的堅(jiān)實(shí)基石”。

更多細(xì)節(jié)歡迎查閱原論文。

論文鏈接：https://arxiv.org/abs/2501.03124
項(xiàng)目主頁：https://prmbench.github.io/
Code:https://github.com/ssmisya/PRMBench
Data:https://huggingface.co/datasets/hitsmy/PRMBench_Preview

責(zé)任編輯：張燕妮來源：量子位

模型測評 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

日日碰狠狠添天天爽| 欧美性久久久久| 在线亚洲欧美日韩| 91综合久久| 欧美一区二区免费视频| 国产欧美日韩小视频| 日本一卡二卡四卡精品| 日韩高清一区在线| 久久久国产成人精品| 久久久久亚洲av成人网人人软件| 麻豆视频在线观看免费网站黄| 久久久久青草大香线综合精品| 国产在线久久久| 日本熟妇一区二区| 成人黄色小视频| 亚洲成年网站在线观看| 亚洲精品高清无码视频| 91精品国产91久久久久久青草| 99国内精品久久| 91亚洲精华国产精华| 国产视频91在线| 天天做天天爱天天综合网| 亚洲第一综合天堂另类专| 亚洲欧美在线精品| 看黄在线观看| 亚洲精品国产第一综合99久久 | 精品一区二区日韩| 久久久久久久久久久91| 色偷偷男人天堂| 性人久久久久| 精品剧情v国产在线观看在线| 成人性生生活性生交12| 国产经典三级在线| 中文字幕一区二区三区在线播放| 欧美连裤袜在线视频| 精品久久久无码中文字幕| 热久久久久久久| 51ⅴ精品国产91久久久久久| 国产一级一级片| 香蕉久久网站| 中文字幕亚洲无线码a| 一本加勒比北条麻妃| jazzjazz国产精品久久| 制服丝袜亚洲色图| 黄大色黄女片18第一次| 欧美大片免费高清观看| 亚洲成人av在线电影| 免费在线精品视频| 草碰在线视频| 中文字幕精品在线不卡| 欧美极品日韩| 你懂的视频在线观看| 99视频超级精品| 国产精品10p综合二区| 精品久久人妻av中文字幕| 国产一区二区在线观看免费 | 日韩熟女一区二区| 夜夜嗨一区二区三区| 久久久人成影片一区二区三区观看| 日本在线一级片| 91精品一区二区三区综合在线爱| 色噜噜狠狠狠综合曰曰曰88av| 青娱乐国产视频| 国产一区二区精品福利地址| 日韩精品视频在线| 性欧美成人播放77777| 日韩最新在线| 亚洲女人被黑人巨大进入| 成都免费高清电影| 免费欧美视频| 正在播放欧美一区| 2014亚洲天堂| 亚洲最大黄网| 欧美国产精品va在线观看| 九热这里只有精品| 在线日韩欧美| 日本欧美精品在线| 在线播放精品视频| 国产麻豆视频一区| 国产精品久久7| 人妻视频一区二区三区| 99精品久久免费看蜜臀剧情介绍| 欧美日韩一区在线播放| 色视频在线免费观看| 国产精品初高中害羞小美女文| 亚洲免费视频播放| 91www在线| 一本到高清视频免费精品| 色婷婷.com| 中文字幕视频精品一区二区三区| 日韩av影视综合网| 亚洲ⅴ国产v天堂a无码二区| 亚洲国产一区二区三区在线播放| 久久久久久久香蕉网| 特级做a爱片免费69| 美女在线视频一区| 国产精品美女诱惑| 国产专区在线| 亚洲一区二区视频在线观看| 777米奇影视第四色| 久久亚洲精品中文字幕| 日韩精品一区二区三区在线| 在线国产视频一区| 欧美在线日韩| 国产97在线视频| 亚洲成人中文字幕在线| 久久久99精品免费观看| 免费观看国产视频在线| 涩涩在线视频| 4438x成人网最大色成网站| xxxx黄色片| 99精品网站| 欧美综合第一页| 99热在线只有精品| 久久久久久久久久久99999| 色婷婷777777仙踪林| 精品91久久| 精品久久一区二区三区| 蜜桃av.com| 久久精品午夜| 成人午夜电影在线播放| 嫩草香蕉在线91一二三区| 欧美日韩激情视频8区| 五月六月丁香婷婷| 精品久久精品| 97在线视频免费播放| 99久久精品国产一区二区成人| 99精品欧美一区二区三区小说| 亚洲精品偷拍视频| 日本精品在线中文字幕| 亚洲国模精品一区| 欧美黄片一区二区三区| 久久av中文字幕片| 日韩免费一区二区三区| 色在线视频观看| 亚洲国产成人精品电影| 国产波霸爆乳一区二区| 免费精品视频在线| 欧洲一区二区在线 | 亚洲综合一区二区三区| 污污网站在线观看视频| 国产一区二区三区探花| 韩国精品久久久999| 精品欧美一区二区精品少妇| 国产精品青草久久| 中文字幕在线观看第三页| 欧美a级网站| 91精品国产乱码久久久久久蜜臀| www.爱爱.com| 亚洲精品美腿丝袜| www.桃色.com| 欧美91精品| 91亚洲精品一区| 中文字幕有码在线视频| 欧美一级免费大片| 日本精品人妻无码77777| 乱一区二区av| 曰韩不卡视频| 国产精品一区二区精品视频观看| 日韩中文字幕免费| 国产精品女同一区二区| 亚洲素人一区二区| 18深夜在线观看免费视频| 欧美色图首页| 国产精品国产精品国产专区蜜臀ah | 欧美日韩视频免费观看| 中文字幕av一区中文字幕天堂| 中日精品一色哟哟| 亚洲欧美在线视频观看| 熟妇无码乱子成人精品| 国产精品va| 含羞草久久爱69一区| 欧美片第1页| 中文字幕一区二区精品| 国产男女无套免费网站| 一区二区三区四区国产精品| 无码一区二区精品| 天堂一区二区在线| 一区二区三视频| 国产精品亚洲欧美一级在线| 欧美黑人一级爽快片淫片高清| 男人天堂av网| 欧美性xxxxxxx| 欧美成人另类视频| 国产精品一区二区不卡| av7777777| 欧美日韩中字| 91午夜理伦私人影院| 成人免费网站观看| 在线观看日韩av| 国内毛片毛片毛片毛片| 欧美性黄网官网| 成人小视频免费看| 国产成人在线观看| 国产一区亚洲二区三区| 羞羞色午夜精品一区二区三区| 国产一区国产精品| 成人在线视频免费| 国内伊人久久久久久网站视频| 国产视频精选在线| 日韩欧美国产小视频| 波多野结衣高清视频| 亚洲三级小视频| 欧美色图亚洲激情| 久久99精品视频| 每日在线更新av| 91精品啪在线观看国产18| 久久久久天天天天| 国产精品视频一区二区三区| 日本一区二区不卡| 污影院在线观看| 国产香蕉精品视频一区二区三区| 午夜精品久久久久久久96蜜桃 | 国产裸体美女永久免费无遮挡| 亚洲精品国产成人久久av盗摄| 成年人免费观看视频网站| 国产成人精品亚洲777人妖| 激情婷婷综合网| 一区福利视频| 欧美亚洲视频一区| 精品国产成人| 久久99欧美| 成人在线超碰| 91九色视频在线| 在线日本欧美| 欧美在线日韩在线| 污视频在线看网站| xxx一区二区| 国产私拍精品| 亚洲老司机av| 天天色棕合合合合合合合| 日韩一区二区在线观看视频| 在线观看一二三区| 91久久精品午夜一区二区| 日本熟妇乱子伦xxxx| 亚洲精品欧美在线| 在线观看美女av| 国产精品无遮挡| 国内精品卡一卡二卡三| 91免费视频网| 国产夫妻性爱视频| 成人黄页在线观看| 91精品国产高清91久久久久久| 国产在线播精品第三| 亚洲免费av一区| 精品一区二区三区视频| 亚洲午夜激情影院| 久久精品999| 国产永久免费网站| 精品影视av免费| av中文字幕网址| 久久99这里只有精品| 岛国毛片在线播放| 蜜桃免费网站一区二区三区| 久久撸在线视频| 麻豆精品国产91久久久久久| 在线观看av网页| 精品一区中文字幕| 国产探花一区二区三区| 丁香婷婷综合网| 欲求不满的岳中文字幕| 99精品偷自拍| 成人性生交大免费看| 日本一区免费视频| 国产在线观看免费视频软件| 亚洲天天做日日做天天谢日日欢 | 奇米成人av国产一区二区三区| 亚洲欧洲美洲av| 国产成人免费av| 亚洲成人高清| 99久久精品免费看国产一区二区三区| 欧美日韩va| 亚洲最大的免费| 久久97精品| 看欧美日韩国产| 色喇叭免费久久综合| 精品91一区二区三区| 亚洲福利电影| 任你操这里只有精品| 紧缚奴在线一区二区三区| 久久国产免费视频| 久久影视一区二区| 免费黄色国产视频| 亚洲国产日产av| 午夜一级黄色片| 91精品国产综合久久精品性色| 日本精品久久久久久| 亚洲欧美另类在线观看| 免费a在线看| 97色在线观看| 成人免费毛片嘿嘿连载视频…| 91牛牛免费视频| 欧美a一欧美| 欧美h视频在线观看| 99riav1国产精品视频| 日韩欧美黄色大片| 国产成人三级在线观看| 午夜在线观看一区| 亚洲一区二区在线观看视频| 欧美成人一区二区视频| 精品欧美一区二区久久| av在线播放网站| 久久人人爽人人爽人人片av高清| 91国内外精品自在线播放| 国产激情美女久久久久久吹潮| 欧美色女视频| 成人在线观看你懂的| 激情六月婷婷综合| a级大片在线观看| 亚洲午夜电影在线观看| 一级做a爱片久久毛片| 日韩久久精品成人| 久色国产在线| 亚洲一区二区三| 日韩成人精品一区二区| 国产青青在线视频| 国产不卡在线一区| 成人免费视频入口| 色综合一个色综合亚洲| 亚洲精品久久久久久久久久| 日韩在线观看免费全| 欧美色网一区| 国产偷久久久精品专区| 欧美+亚洲+精品+三区| 一级黄色特级片| 国产人伦精品一区二区| 国产精品视频久久久久久久| 日韩美女一区二区三区四区| 麻豆影视国产在线观看| 国产精品丝袜一区二区三区| 蜜臀久久99精品久久一区二区| www.亚洲成人网| 国内欧美视频一区二区| 四虎国产成人精品免费一女五男| 色哟哟亚洲精品| 亚洲色欧美另类| 97在线视频免费| 美国成人xxx| www.中文字幕在线| 成人福利视频网站| 黄色激情视频在线观看| 精品国产露脸精彩对白| 色综合999| 99影视tv| 午夜欧美精品| 中文写幕一区二区三区免费观成熟| 亚洲欧洲日本在线| 国产精品久久久久久久成人午夜| 色哟哟入口国产精品| 成人综合网站| 亚洲精品久久久久久一区二区| 免费黄网站欧美| 国产精品麻豆免费版现看视频| 欧美性xxxxxx少妇| av男人的天堂在线| 国产日韩欧美另类| 婷婷六月综合| 波多野结衣电影免费观看| 亚洲精品成人少妇| 亚洲国产日韩在线观看| 欧美精品videossex88| 成人香蕉社区| 黄色一级视频片| 久久伊人蜜桃av一区二区| 波多野结衣人妻| 中文字幕欧美视频在线| 久久av影院| 国产成年人在线观看| 懂色中文一区二区在线播放| 国产亚洲精品久久久久久无几年桃 | 2021天堂中文幕一二区在线观| 99在线高清视频在线播放| 精品动漫av| 精品无码在线视频| 色菇凉天天综合网| av网站在线免费播放| 成人免费看吃奶视频网站| 亚洲字幕久久| 国产二级一片内射视频播放| 色综合久久久久网| 999国产在线视频| 亚洲va欧美va国产综合剧情| 亚洲国产综合在线看不卡| 国产偷人妻精品一区| 欧美三级在线播放| 欧美v亚洲v| 免费在线观看91| 国产一区二区三区四区五区入口| 国产一级黄色av| 亚洲欧美一区二区激情| 粉嫩av国产一区二区三区| 精品无码一区二区三区在线| 国产午夜亚洲精品羞羞网站| 国产av无码专区亚洲av麻豆| 91成人免费观看网站| 欧美mv日韩| 一区二区视频观看| 欧美日高清视频| 国产在线精彩视频| 天天干天天操天天干天天操|