精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

27個大模型混戰電商領域,DeepSeek-R1&V3仍是最強丨首個中文電商問答基準評估結果

人工智能 新聞
隨著大模型在電商領域的廣泛應用,如何精準評估其對專業領域知識的掌握成為關鍵挑戰。

全面評估大模型電商領域能力,首個聚焦電商基礎概念的可擴展問答基準來了!

ChineseEcomQA,來自淘天集團。

此前,大模型常因生成事實性錯誤信息而受限,而傳統基準又難以兼顧電商任務的多樣性與領域特殊性。

但隨著大模型在電商領域的廣泛應用,如何精準評估其對專業領域知識的掌握成為關鍵挑戰。

為此,ChineseEcomQA針對性進行了3大核心設計:

  1. 基礎概念覆蓋:覆蓋20大行業,聚焦10類核心電商概念(如行業分類、品牌屬性、用戶意圖等),包含1800組高質量問答,適配多樣電商任務;
  2. 混合數據構建:融合LLM生成、檢索增強(RAG)與人工標注,確保數據質量與領域專業性;
  3. 平衡評估維度:兼顧行業通用性與專業性,支持精準領域能力驗證。

圖片

ChineseEcomQA構建流程

從電子商務基本元素(用戶行為、商品信息等)出發,團隊總結出電子商務概念的主要類型。

最終定義了從基礎概念到高級概念的10個子概念(具體詳見論文)

行業分類、行業概念、類別概念、品牌概念、屬性概念、口語概念、意圖概念、評論概念、相關性概念、個性化概念。

圖片

然后,研究人員采用混合的數據集構建過程,結合LLM驗證、RAG驗證和嚴格的人工標注,確保基準符合三個核心特性:

  • 專注基礎概念
  • 電商知識通用性
  • 電商知識專業性

具體來說,構建ChineseEcomQA主要分為自動化問答對生成和質量驗證兩個階段。

第一階段,問答對生成。

研究者收集了大量知識豐富且涵蓋各種相關概念的電子商務語料庫。

然后,提示大模型(GPT-4o)根據給定的內容忠實地生成問答對;對于比較開放的問題,要求大模型同時提供非常混亂和困難的候選答案。

從而自動化地構建出大量問答對作為初始評測集。

圖片

第二階段,質量驗證。

我們開發了一個多輪自動化流程對生成的問答對進行驗證,重新生成或過濾不符合標準的問題。

具體包括大模型驗證、電子商務通用知識驗證、電子商務專業知識驗證、電子商務事實性驗證、難度篩選、人工驗證。

經過多重嚴格篩選,最終得到均勻覆蓋10大類電商子概念的1800條高質量問答對作為終版數據集。

圖片

DeepSeek-R1和V3表現最佳

評估了11個閉源模型和16個開源模型,得出如下排名榜:

圖片

(注:對于子概念,IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分別代表“行業分類”“行業概念”“類別概念”“品牌概念”“屬性概念”“口語概念”“意圖概念”“評論概念”“相關性概念”和“個性化概念”)

總的來看,DeepSeek-R1和DeepSeek-V3是表現最好的模型,展示了強大的基礎模型(推理模型)在電子商務領域的巨大潛力。

此外,研究團隊對主流模型表現分析并得出了以下發現:

  • 更大的模型在高級電商概念上表現更好,遵循Scaling Law,但小模型在特定電商任務上仍面臨顯著挑戰。
  • 中文社區模型(如Qwen系列、GLM-4)在電商場景適應性上表現突出,尤其是在高級電子商務概念上。雖然O1-preview在基本概念上表現更好,但在更高級的概念上面臨困難。
  • 某些類型的電子商務概念(如相關性概念)仍然對 LLM 構成重大挑戰。大參數量模型由于其強大的通用能力,可以泛化到電商任務上,而小參數量模型則更有困難。這些特點體現了專門開發電商領域模型的必要性。
  • Deepseek-R1-Distill-Qwen系列的表現不如原始的Qwen系列,主要原因是在推理過程中引入知識點錯誤,進而導致最終結論出錯。
  • 開源模型和閉源模型之間的性能差距很小。以Deepseek為代表的開源模型使二者達到了相似的水平。
  • 通過引入RAG策略,模型的性能顯著提升,縮小了不同模型之間的性能差距。
  • LLM的自我評估能力(校準)在不同模型中存在差異,更大的模型通常表現出更好的校準能力。
  • Reasoning LLM需警惕“思維鏈中的事實性錯誤累積”,尤其是蒸餾模型。

同時,團隊還在ChineseEcomQA上探索了模型校準、RAG、推理模型思維過程等熱門研究課題(具體詳見論文)

模型往往對回答“過于自信”

一個完美校準的模型應該表現出與其預測準確度一致的置信度。

ChineseEcomQA團隊通過提示模型在回答問題的同時給出其對回答內容的置信度(范圍0到100),探索模型的事實準確性與置信度之間的關系。

結果顯示,o1-preview表現出最佳對齊性能,其次是o1-mini。

然而,大多數模型始終低于完美對齊線,表明模型普遍存在過度自信的趨勢。

這凸顯了改進大型語言模型校準以減輕過度自信產生錯誤響應的巨大空間。

圖片

RAG仍是快速提升模型能力的捷徑

研究過程中,團隊探討了RAG策略在ChineseEcomQA數據集上增強LLM領域知識的有效性。

具體來說,研究者在類別概念和品牌概念上的設置重現了一個RAG系統。

結果顯示,所有模型都通過RAG都得到了顯著提升。研究人員總結出三個詳細的結論。

第一,對于小型LLM,引入RAG信息可以顯著提高評估指標的絕對值。

例如,Qwen2.5-14B實現了27.9%的改進。

第二,對于大型LLM,RAG也可以實現顯著的相對改進。

例如,DeepSeek-V3的平均相對改進達到了10.44%(準確率從77.4提高到85.5)

第三,在RAG設置下,模型之間的性能仍然遵循縮放規律,但差距迅速縮小。

例如,Deepseek-V3和Qwen2.5-72B之間的準確率差異從12.1%縮小到 4%。

總之,RAG仍是增強LLM電子商務知識的有效方法。

圖片

警惕“思維鏈中的事實性錯誤累積”

在主要結果中,Deepseek-R1取得了最佳結果,充分展示了Reasoning LLM在開放領域中的潛力。

然而,在從Deepseek-R1蒸餾出的Qwen系列模型上,準確率明顯低于預期。

由于開源Reasoning LLM揭示了它們的思維過程,研究者進一步調查其錯誤的原因,并將推理模型的思維過程分為以下四種類型:

  • Type A:Reasoning LLM通過自我反思反復確認正確答案。
  • Type B:Reasoning LLM最初犯了錯誤,但通過自我反思糾正了錯誤。
  • Type C:Reasoning LLM通過自我反思引入知識錯誤,導致原本可能正確的答案被修改為不正確的答案。
  • Type D:Reasoning LLM反復自我反思。雖然最終得出了答案,但并沒有通過反思獲得高度確定和自信的答案。

圖片

總體而言,Type A和Type B是通過擴大test-time計算量獲得的推理能力;Type C和Type D是膚淺的自我反思,導致最終答案不正確。

由于Deepseek-R1強大的buase模型能力表現出更好的泛化能力。

相比之下,在某些特定領域蒸餾的DeepSeek-R1-Distill-Qwen系列似乎在膚淺的自我反思方面遇到了困難。中間推理步驟中事實錯誤的積累增加了整體錯誤率。

對于較小的推理LLM,開放領域的推理能力不能直接通過數理邏輯能力來泛化,需要找到更好的方法來提高它們的性能。

One More Thing

該論文核心作者包括陳海斌,呂康滔,袁愈錦,蘇文博,研究團隊來自淘天集團算法技術 - 未來生活實驗室。

該實驗室聚焦大模型、多模態等AI技術方向,致力于打造大模型相關基礎算法、模型能力和各類AI Native應用,引領 AI 在生活消費領域的技術創新。

淘天集團算法技術 - 未來生活實驗室團隊將持續更新和維護數據集及評測榜單,歡迎廣大研究者使用我們的評測集進行實驗和研究~

論文鏈接:https://arxiv.org/abs/2502.20196
項目主頁:https://openstellarteam.github.io/ChineseEcomQA/
代碼倉庫:https://github.com/OpenStellarTeam/ChineseEcomQA
數據集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-EcomQA

責任編輯:張燕妮 來源: 量子位
相關推薦

2013-01-09 13:58:00

銀行移動電商移動互聯網

2025-07-17 09:21:11

2022-03-15 17:35:20

電商系統架構

2012-08-13 10:01:05

2024-12-27 09:00:00

訓練模型數據

2024-07-11 11:53:56

2025-06-03 09:16:00

2015-01-13 13:49:00

文思海輝電商解決方案

2012-02-16 16:05:22

戴爾國美

2023-03-28 08:16:05

A/B實驗數據分析

2024-05-07 08:04:09

代碼格式化工具

2025-03-27 10:28:32

2025-02-25 09:13:16

2025-03-26 10:38:40

2016-08-18 23:37:24

2024-06-17 07:49:53

2024-08-28 08:32:28

2014-12-15 14:59:38

2024-11-21 12:43:06

點贊
收藏

51CTO技術棧公眾號

欧美一级一区二区三区| 国产一级二级毛片| 免费视频成人| 亚洲激情自拍视频| 国产一区二区不卡视频| 亚洲成熟少妇视频在线观看| 日韩免费一区| 精品免费视频.| 不卡av免费在线| 欧洲黄色一区| 中文字幕av不卡| 国产精品视频福利| 在线观看免费中文字幕| 亚洲经典自拍| 久久久成人av| 亚洲综合色一区| 亚洲精品在线a| 欧美性生活影院| 五月丁香综合缴情六月小说| 天堂资源在线中文| 91丝袜美腿高跟国产极品老师 | 国产伦久视频在线观看| 国产精品午夜久久| 久久人人爽爽人人爽人人片av| 一级黄色免费看| 久久国产精品99国产| 欧美成人免费在线观看| 一区二区三区在线观看免费视频| 51亚洲精品| 337p亚洲精品色噜噜狠狠| 免费看a级黄色片| 久久男人天堂| 亚洲国产欧美日韩另类综合| 在线观看成人一级片| 理论视频在线| xnxx国产精品| 激情视频一区二区| 亚洲欧美强伦一区二区| 国产一区不卡视频| 国产精品欧美风情| 久久永久免费视频| 亚洲欧美网站| 2019中文字幕在线免费观看| 国产在线精品观看| 欧美在线三级| 久久91亚洲精品中文字幕| 成人无码精品1区2区3区免费看| 免费久久精品| 亚洲少妇中文在线| 天天躁夜夜躁狠狠是什么心态| 免费看成人哺乳视频网站| 国产丝袜一区视频在线观看| 一区二区三区少妇| 日韩欧美天堂| 日韩精品视频在线播放| av在线网站观看| 久久99精品久久久久久园产越南| 日韩大片免费观看视频播放| 亚洲国产精品无码久久久久高潮| 韩国女主播一区二区三区| 亚洲国产精品999| 亚洲天堂资源在线| 亚洲伊人春色| 色av中文字幕一区| 免费在线观看a级片| 午夜国产欧美理论在线播放| 久久久久久久久91| 可以免费看的av毛片| 水蜜桃久久夜色精品一区的特点| 日韩美女中文字幕| 亚洲视频久久久| 国产麻豆精品久久一二三| 99久热re在线精品视频| 三级国产在线观看| 欧美国产禁国产网站cc| 久久久久久久久久久久久国产| 午夜av在线免费观看| 精品久久久久久久久久国产| 国产一级片黄色| 欧美成人免费全部网站| 欧美精品成人一区二区三区四区| 国产精品igao网网址不卡| 精品国产乱子伦一区二区| 亚洲美女喷白浆| 男女全黄做爰文章| 亚洲黄色视屏| 国产精品视频xxxx| 蜜桃av中文字幕| 国产偷国产偷精品高清尤物| 穿情趣内衣被c到高潮视频| 欧美激情20| 欧美裸体bbwbbwbbw| 中国特级黄色大片| 久久国产影院| 91国产中文字幕| 一级片在线免费观看视频| 成人久久18免费网站麻豆| 日韩欧美亚洲日产国| 欧美人与禽性xxxxx杂性| 在线欧美小视频| 亚洲国产精品第一页| 精品久久久中文字幕| 欧美日韩成人网| 波多野结衣黄色网址| 国产九九视频一区二区三区| 国产一区二区视频在线免费观看| 98在线视频| 午夜精品福利一区二区三区蜜桃| 日本在线一二三区| 希岛爱理av免费一区二区| 久久在精品线影院精品国产| 精产国品一区二区| 成人网男人的天堂| 欧美日韩视频免费在线观看| 成人一区福利| 亚洲国产精品大全| 国产探花在线播放| 蜜桃一区二区三区四区| 美女精品国产| www555久久| 欧美一区二区三区免费大片| 欧美熟妇激情一区二区三区| 99在线|亚洲一区二区| 147欧美人体大胆444| 91精品国产91久久久久游泳池| 都市激情亚洲色图| 中文字幕天堂av| 韩国av一区| 97人人做人人人难人人做| 婷婷在线视频观看| 欧美日韩免费在线视频| 日本xxxxxxxxx18| 一本久久知道综合久久| 国产乱人伦精品一区二区| 中文字幕伦理免费在线视频| 欧美日本在线看| 538精品视频| 日韩精品一二三区| 久久亚洲免费| 亚洲校园激情春色| 日韩成人在线播放| 青青草成人av| 久久综合色鬼综合色| 久久综合九色综合88i| 精品久久ai| 欧美亚洲另类视频| 韩国福利在线| 欧美视频一区二| 亚洲一二三四视频| 久久精品国产亚洲一区二区三区| 特级西西444www大精品视频| h1515四虎成人| 日韩在线精品视频| 国产丰满美女做爰| 亚洲二区视频在线| 人妻无码中文久久久久专区| 美女久久网站| 色综合久久88色综合天天提莫| 外国电影一区二区| 久久国产精品首页| 人妻少妇精品无码专区久久| 精品国产乱码久久久久久婷婷| 色噜噜在线观看| 日本成人中文字幕在线视频| 一区二区免费电影| 我要色综合中文字幕| 97香蕉久久夜色精品国产| 亚洲 国产 欧美 日韩| 色偷偷成人一区二区三区91 | 性一交一乱一精一晶| 亚洲国产欧美另类丝袜| 噜噜噜在线视频| 蜜桃视频一区二区| 国产精品av免费观看| 香蕉久久夜色精品国产使用方法 | 久久久久久尹人网香蕉| 日韩电影免费| 欧美精品色一区二区三区| 青春草免费视频| 久久影院午夜论| 深夜黄色小视频| 国产精品大片| 五月天亚洲综合| 99香蕉久久| 国产精品高潮呻吟久久av野狼| 黄网址在线观看| 日韩成人在线视频观看| 在线观看中文字幕码| 亚洲成人av在线电影| 99久久99久久精品免费看小说.| 国产一区二区视频在线播放| 日本精品免费在线观看| 91精品国产自产拍在线观看蜜 | 久久久久久久久久一区| 极品av少妇一区二区| 亚洲高清不卡一区| 精品国产一区二区三区不卡蜜臂| 国产欧美久久一区二区| 国产夫妻在线播放| 久久精品人人做人人爽| 头脑特工队2在线播放| 777久久久精品| 在线精品免费视| 一区二区三区欧美久久| a天堂中文字幕| 成人国产精品免费观看| 亚洲午夜激情影院| 日本在线播放一区二区三区| 亚洲理论电影在线观看| 五月久久久综合一区二区小说| 麻豆av一区二区三区| 99精品国产一区二区三区2021| 国产精品三级在线| 欧美成人免费电影| 性色av一区二区三区在线观看| 激情影院在线观看| 中文字幕精品久久| 麻豆av电影在线观看| 亚洲第一综合天堂另类专| 国产浮力第一页| 欧美绝品在线观看成人午夜影视| 亚洲精品77777| 一区二区三区不卡视频| 国产色无码精品视频国产| 久久久国产精品午夜一区ai换脸 | 国产精品色婷婷久久58| 欧美丰满少妇人妻精品| 成人国产精品免费网站| 亚洲免费观看在线| 国产成人精品三级麻豆| 爱豆国产剧免费观看大全剧苏畅| 日韩电影免费在线观看网站| 日韩人妻精品无码一区二区三区| 在线观看亚洲| 日韩人妻无码精品久久久不卡| 在线精品视频在线观看高清| 亚洲第一精品区| 国产精品99一区二区三区| 日日噜噜噜噜夜夜爽亚洲精品| 国产精品一区2区3区| 欧美日韩在线精品| 国产中文精品久高清在线不| 欧美极品色图| 精品国产aⅴ| 亚洲bbw性色大片| 久久中文字幕二区| 在线看无码的免费网站| 国产精品精品| 国风产精品一区二区| 欧美精品91| av无码久久久久久不卡网站| 亚洲国产精品一区| a√天堂在线观看| 天堂一区二区在线| 亚洲三级视频网站| 精品一区二区免费视频| 中文字幕第66页| 国产不卡视频在线播放| 天天躁日日躁狠狠躁av| 久久久久久免费网| 久久精品在线观看视频| 亚洲精品一二三四区| 久久网一区二区| 欧美日韩中文字幕综合视频| 无码无套少妇毛多18pxxxx| 欧美在线|欧美| 99国产精品欲| 亚洲精品福利在线观看| 国产福利小视频在线观看| 久久精品91久久香蕉加勒比| 人人超在线公开视频| 欧美一级淫片播放口| 久久久加勒比| av日韩中文字幕| 国产欧美日韩在线观看视频| 中文字幕久久综合| 伊人激情综合| 牛夜精品久久久久久久| 国产精品白丝av| 蜜臀av一区二区三区有限公司| 国产欧美日韩另类视频免费观看| 精品国产视频在线观看| 欧美日韩国产专区| 瑟瑟视频在线免费观看| 精品日韩成人av| 国产区av在线| 欧美激情啊啊啊| 五月激情久久| 99porn视频在线| 禁断一区二区三区在线| 热久久最新地址| 日韩电影在线观看一区| 亚洲v在线观看| 国产精品久久久久一区二区三区| 精品无码av在线| 欧美精品aⅴ在线视频| 五月激情婷婷综合| 理论片在线不卡免费观看| 周于希免费高清在线观看| 成人在线视频网站| 伊人久久大香线蕉综合网站| 超级碰在线观看| 日韩av中文字幕一区二区三区| 国产成人av片| 国产精品久久久久永久免费观看 | 奇米一区二区三区| 大尺度做爰床戏呻吟舒畅| 1区2区3区国产精品| 无码人妻丰满熟妇精品区| 日韩精品一区二区三区蜜臀 | 欧美怡春院一区二区三区| 亚洲资源在线| 日韩国产美国| 国产亚洲综合精品| youjizz.com日本| 亚洲人成网站精品片在线观看| 91丝袜一区二区三区| 精品国内二区三区| 成人看片免费| 91久久国产综合久久91精品网站| 国产欧美高清视频在线| 亚洲欧洲日产国码无码久久99| 国产福利一区二区三区在线视频| 在线免费看黄视频| 日韩欧美中文第一页| 日本成人动漫在线观看| 欧美日韩成人黄色| 午夜视频一区二区在线观看| 在线播放豆国产99亚洲| 麻豆久久久久久久| 日本猛少妇色xxxxx免费网站| 欧美性猛交xxxx偷拍洗澡| 五月激情六月婷婷| 2021国产精品视频| 一区三区在线欧| 国产福利视频在线播放| 久久亚洲精品国产精品紫薇| 青青国产在线观看| 亚洲精品国精品久久99热一| 黄色漫画在线免费看| 精品一区久久久久久| 在线午夜精品| 美女久久久久久久久久| 色综合久久精品| 福利在线午夜| 国产欧美中文字幕| 羞羞色午夜精品一区二区三区| 色呦色呦色精品| 一区二区激情视频| 秋霞视频一区二区| 6080yy精品一区二区三区| 色综合中文网| 一区二区三区国产免费| 国产精品家庭影院| 国产美女www爽爽爽视频| 欧美猛交免费看| 激情av综合| 不卡影院一区二区| 欧美极品少妇xxxxⅹ高跟鞋 | 中文字幕av日韩精品| 国产精品18久久久| 亚洲视频免费播放| 亚洲欧美另类自拍| 日韩成人综合网站| 日本一级黄视频| 久久亚洲综合av| 伊人网免费视频| 欧美日本精品在线| 一区二区三区日本久久久| 亚洲一级免费在线观看| 亚洲综合网站在线观看| 头脑特工队2免费完整版在线观看 头脑特工队2在线播放 | 欧美日韩一区三区| 手机av在线播放| 久久久精品国产一区二区三区| 日本不卡中文字幕| 欧美精品乱码视频一二专区| 亚洲国产精品网站| 国产成人a视频高清在线观看| 久久久久福利视频| 久久老女人爱爱| 99在线无码精品入口| 欧美在线激情视频| 亚洲精品网址| 色婷婷在线影院| 日韩三级精品电影久久久| 东京一区二区| 成人污网站在线观看| 久久天天做天天爱综合色| 99久久亚洲精品日本无码| 欧洲精品在线视频| 欧美另类综合| 亚洲图片另类小说| 精品国产精品网麻豆系列| 精品欧美一区二区三区在线观看| 91免费版看片| 欧美韩国日本不卡| 天天干免费视频| 99久久精品免费看国产四区 | 一级全黄裸体片|