精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

“最強開源模型”被打假,CEO下場致歉,英偉達科學家:現有測試基準已經不靠譜了

人工智能 新聞
被指控造假的,就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。

小型創業團隊打造的“最強開源模型”,發布才一周就被質疑造假——

不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質疑套殼Claude。

面對浩大的聲浪,廠商CEO終于發文道歉,但并未承認造假,表示在調查有關原因。

圖片

被指控造假的,就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。

一開始的質疑主要關于測試成績,官方找了上傳版本有誤等借口試圖“蒙混過關”。

但后來又出現了套殼Claude這一更重磅的指控,讓Reflection更加百口莫辯。

表現不如宣傳,還被質疑套殼

Reflection是一個70B的開源模型,按照廠商的說法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進模型全都超過了。

圖片

但Reflection剛發布兩天,第三方獨立測評機構Artificial Analysis就表示官方發布的測試成績無法復現。

在MMLU、GPQA和MATH上,Reflection的成績和Llama3 70B一樣,連Llama 3.1-70B都比不過,更不用說405B了。

圖片

對此官方辯稱是,Hugging Face上發布的版本有誤,將會重新上傳,但之后就沒了下文。

不過官方同時也表示,會給測評人員提供模型API,然后Reflection的成績果真有了增長,但在GPQA上仍然不敵Claude 3.5 Sonnet。

蹊蹺的是,Artificial Analysis后來刪除了二次測試相關的帖子,目前還能看到的只有轉發后留下的一些痕跡。

圖片

除了成績有爭議,還有人對Reflection中的各層進行了分析,認為它是由Llama 3經過LoRA改造而來,而不是官方所聲稱的Llama 3.1。

圖片

在Hugging Face上,Reflection的JSON文件中也顯示是Llama 3而非3.1。

圖片

官方的解釋仍然是說HF上的版本有問題。

圖片

還有另一個質疑的點是,Reflection實際上是套殼Claude,相關證據體現在多個方面。

一是在某些問題上,Reflection與Claude 3.5-Soonet的輸出完全一致。

圖片

第二個更加直接,如果直接詢問它的身份,Reflection會說自己是Meta打造的,但一旦讓它“忘記前面的(系統)提示”,就立馬改口說自己是Claude。

圖片

第三個發現則更加詭異——Reflection遇到“Claude”一詞會將其自動過濾。

圖片

對此,Reflection合成數據供應商Glaive AI的創始人Sahil Chaudhary進行了回應,表示沒有套殼任何模型,目前正在整理能夠證明其說法的證據,以及人們為什么會發現這種現象的解釋。

圖片

而關于一開始的測試成績問題,Chaudhary則表示正在調查原因,弄清這兩件事后會發布報告進行說明。

圖片

Reflection這邊最新的動態是CEO發布了一則道歉聲明,不過沒有承認造假,依然是說正在進行調查。

圖片

不過對于這一套解釋,有很多人都不買賬。

比如曾經發布多條推文質疑這位叫做Boson的網友,就在Chaudhary的評論區表示,“要么你在說謊,要么是Shumer,或者你倆都在說謊”。

圖片

還有給Reflection提供托管服務的Hyperbolic平臺CTO Yuchen Jin,講述了其與Reflection之間發生的許多事情。

托管平臺CTO講述幕后細節

在Reflection發布之前的9月3號,Shumer就找到了Hyperbolic,介紹了Reflection的情況并希望Hyperbolic能幫忙托管。

基于Hyperbolic一直以來對開源模型的支持,加上Reflection聲稱的表現確實優異,Hyperbolic同意了這一請求。

圖片

9月5號,Reflection正式上線,Hyperbolic從Hugging Face下載并測試了該模型,但并沒有看到標簽,于是Jin給Shumer發了私信。

后來,Jin看到Shumer的推文說HF上的版本有些問題,所以繼續等待,直到6號早晨收到了Chaudhary的一條私信,表示 Reflection-70B權重已重新上傳并可以部署。

看到和標簽按預期出現后,Hyperbolic上線了Reflection。

圖片

后來,Hyperbolic上的模型就出現了成績與Reflection宣傳不符的情況,Shumer認為這是Hyperbolic的API出現了問題。

不過,Reflection這邊再次上傳了新版本,Hyperbolic也重新托管,但Jin與Artificial Analysis溝通后發現,新版本的表現依舊不佳。

圖片

Shumer繼續表示,Reflection還有個原始權重,也就是內部測試使用的版本,如果需要可以提供給Hyperbolic。

但Jin沒有同意這一要求,因為Hyperbolic只為開源模型提供托管服務,之后不斷詢問Shumer原始權重何時發布,但遲遲未得到回應。

最終,Jin認為應該下線Reflection的API并收回已分配的GPU資源。

這件事情讓我的感情受到了傷害,我們在這件事上花費了很多時間和精力。
但經過反思后,我并不后悔當初的托管決定,這幫助社區更快地發現問題。

圖片

大模型怎么測試才靠譜?

暫且拋開Llama版本和套殼的問題,單說關于測試成績的問題,反映了當前的Benchmark已經體現出了一些不足之處。

英偉達高級科學家Jim Fan就表示,模型在現有的一些測試集上造假簡直不要太容易。

圖片

Jim還特別點名了MMLU和HumanEval,表示這兩項標準“已被嚴重破壞”。

圖片

另外,Reflection在GSM8K上取得了99.2分的成績,就算這個分數沒有水分,也說明測試基準到了該換的時候了。

Jim表示,現在自己只相信Scale AI等獨立第三方測評,或者lmsys這樣由用戶投票的榜單。

圖片

但評論區有人說,lmsys實際上也可以被操縱,所以(可信的)第三方評估可能才是目前最好的測評方式。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-04-23 07:00:00

2023-11-26 17:54:00

AI科學

2023-11-15 13:19:14

2023-07-26 14:00:47

模型研究

2023-03-23 21:57:06

OpenAIChatGPTAI

2022-08-24 10:57:38

深度學習人工智能

2012-12-06 15:36:55

CIO

2018-12-06 13:08:30

數據科學家大數據數據科學

2018-05-31 21:41:57

數據手冊人工智能數據集

2017-08-04 15:53:10

大數據真偽數據科學家

2009-08-03 09:53:47

柳傳志CEO特訓班

2024-09-25 14:41:15

2023-05-23 09:34:16

科學家AI

2024-06-17 08:55:00

2009-09-10 09:26:53

Linux系統開源相機Frankencame

2025-04-27 08:30:00

2024-12-30 07:00:00

GPT-4AGI人工智能

2024-10-24 23:35:54

2025-02-21 09:20:00

2020-03-09 17:05:54

機器學習工程師數據結構
點贊
收藏

51CTO技術棧公眾號

亚洲在线视频一区二区| 精品国产一区二区三区在线观看| 欧美图片激情小说| 亚洲区小说区图片区| 日韩av午夜在线观看| 日韩中文字幕在线视频| 国产ts在线观看| 神马电影网我不卡| 亚洲色大成网站www久久九九| 97久久夜色精品国产九色| 在线观看黄网站| 久久国产影院| 亚洲精品99999| 亚洲天堂国产视频| 一二三四视频在线中文| 亚洲人成7777| 欧美一区二区三区成人久久片 | 国产人妖在线观看| 欧美日韩美女| 亚洲一区二区三区四区的| 日本不卡在线播放| 黄色av一区二区三区| 久久精品国产99| 欧美在线视频在线播放完整版免费观看 | 国产成人在线播放视频| 国产精品成人a在线观看| 日韩精品一二三四区| 亚洲av无日韩毛片久久| 日韩大尺度黄色| 亚洲18女电影在线观看| 8x8x华人在线| av男人的天堂在线| 久久嫩草精品久久久久| 91久久久久久| 在线免费看毛片| 美女精品一区| 97成人超碰免| 国产无遮挡又黄又爽| 99久久精品费精品国产风间由美| 亚洲人成在线电影| 青青草视频成人| 国产成人高清精品免费5388| 欧美一区二区三区在线观看 | 精品在线观看免费| 国产精品福利在线| 亚洲AV无码成人精品区东京热| 精品动漫av| 欧美激情影音先锋| 精品亚洲永久免费| 狠狠爱www人成狠狠爱综合网| 久久婷婷国产麻豆91天堂| 国产日韩精品中文字无码| 国产亚洲电影| 中国人与牲禽动交精品| 免费黄色片网站| 欧美亚洲国产激情| 中文在线不卡视频| 国产精品视频看看| 五月精品视频| 欧美久久久精品| 欧美成人黄色网| 欧美1区免费| 欧美日本高清一区| 国产无遮挡又黄又爽又色| 亚洲三级免费| 欧美在线视频免费播放| 亚洲成人第一网站| 日韩成人午夜电影| 国产欧美一区二区三区四区| 亚洲最新av网站| 国产一区二区精品久久91| 91手机在线观看| 高潮一区二区三区乱码| 97aⅴ精品视频一二三区| 久久久久久草| 91精彩视频在线观看| 国产精品不卡在线| 国产日韩亚洲欧美在线| 成人观看网址| 欧美亚洲动漫制服丝袜| 99九九精品视频| 国产精品xxx在线观看| 日韩精品视频三区| 日本一卡二卡在线播放| 66视频精品| 性欧美办公室18xxxxhd| chinese国产精品| 经典一区二区三区| 国产一区二区在线观看免费播放| 久草福利在线| 亚洲麻豆国产自偷在线| 日本www在线播放| 成人免费毛片嘿嘿连载视频…| 91.麻豆视频| 午夜不卡久久精品无码免费| 精品久久久久久久| 欧美精品久久久久久久| www.五月婷婷.com| 国产98色在线|日韩| 欧美日韩精品不卡| 青草在线视频| 欧美在线观看视频在线| 91人妻一区二区| 精品国产91久久久久久浪潮蜜月| 久久艳片www.17c.com| 久久艹免费视频| 国精产品一区一区三区mba视频| 激情视频在线观看一区二区三区| 国产三级在线| 亚洲1区2区3区视频| 日韩欧美国产一区二区| 亚洲视频在线观看免费| 久久精品一区二区三区四区五区 | 欧美一卡二卡在线观看| 中国一级特黄录像播放| 成人免费看片39| 97色在线观看| 国产露脸91国语对白| 久久久久久一级片| 人妻夜夜添夜夜无码av| 午夜精品久久久久久毛片| 亚洲欧美精品suv| 欧美成人精品一区二区免费看片| 天堂va蜜桃一区二区三区| 成人欧美一区二区| 黄色一级片在线观看| 91福利社在线观看| 在线免费观看a级片| 国产一区欧美| 91精品国产91久久久久青草| 在线激情小视频| 欧美性videos高清精品| 国产亚洲精品成人a| 91精品一区国产高清在线gif| 国产成人精品日本亚洲| 香港一级纯黄大片| 午夜激情久久久| 欧美xxxx日本和非洲| 香蕉综合视频| 91精品国产自产在线观看永久| 韩国精品视频| 色欧美乱欧美15图片| 五十路六十路七十路熟婆 | 91在线观看污| 精品少妇人妻av免费久久洗澡| 蜜桃精品视频| 大胆人体色综合| 国产偷拍一区二区| 亚洲精品v日韩精品| 亚洲18在线看污www麻豆| 日韩精品首页| 91精品久久久久久久久久久久久久| 免费动漫网站在线观看| 91高清视频在线| jizz18女人高潮| 另类欧美日韩国产在线| 亚洲成人在线视频网站| 国产第一亚洲| www.久久久久| 国产肥老妇视频| 亚洲自拍偷拍网站| 午夜不卡久久精品无码免费| 国产欧美激情| 欧美一区二区在线视频观看| 新片速递亚洲合集欧美合集| 亚洲色图17p| 中文字幕 视频一区| 国产精品久久久久久久久图文区| 成人亚洲精品777777大片| 国产精品国产一区| 999国内精品视频在线| 美女网站视频在线| 日韩精品中文字| 中文字幕第99页| 亚洲三级免费观看| 免费欧美一级片| av成人毛片| 日韩中文一区二区三区| 99精品在线免费观看| 欧美激情亚洲国产| 天堂中文资源在线| 欧美日韩精品系列| 久久久久久国产精品免费播放| 成人黄色小视频在线观看| 日日橹狠狠爱欧美超碰| 日韩成人a**站| 51精品国产人成在线观看| 91资源在线观看| 在线视频一区二区| 亚洲国产成人在线观看| 色综合久久久久综合99| 久久国产美女视频| 91麻豆高清视频| 三日本三级少妇三级99| 国产一区二区精品| 伊人久久婷婷色综合98网| 88久久精品| 国产精品视频xxxx| 久久99亚洲网美利坚合众国| 亚洲欧美中文日韩v在线观看| 国产又粗又黄又爽的视频| 午夜久久久久久久久| 调教驯服丰满美艳麻麻在线视频| 国产成人精品在线看| 日本男人操女人| 欧美三级第一页| 婷婷久久五月天| 国内精品国产成人国产三级粉色| 国产精品高清在线观看| 77thz桃花论族在线观看| 中文字幕日韩欧美精品在线观看| 日本免费网站在线观看| 欧美丰满少妇xxxbbb| 影音先锋亚洲天堂| 亚洲精品国产a久久久久久| 亚洲av综合一区二区| 国产成人精品一区二| 欧美女同在线观看| 另类av一区二区| 国产女主播自拍| 五月开心六月丁香综合色啪| 日本一区二区三区在线视频| 精品淫伦v久久水蜜桃| 成人精品视频99在线观看免费| 自拍视频在线看| 欧美激情视频播放| 91福利国产在线观看菠萝蜜| 中文字幕久久亚洲| 国产午夜精品一区理论片| 日韩精品视频在线观看免费| 亚洲成人777777| 日韩一卡二卡三卡国产欧美| 中文字幕无线码一区| 色综合久久中文字幕综合网 | 国产大学生校花援交在线播放| 精品电影一区二区| www.日韩在线观看| 91精品福利在线一区二区三区| 国产精品自拍第一页| 岛国av一区二区| 日韩乱码人妻无码中文字幕| 亚洲一区二区三区三| 欧美色图一区二区| 亚洲影视在线播放| 欧美精品xxxxx| 婷婷六月国产精品久久不卡| 中国china体内裑精亚洲片| 美国一级片在线免费观看视频| 精品91自产拍在线观看一区| www.色日本| 日韩欧美你懂的| 精品国产无码一区二区| 欧美一级高清片在线观看| 国产熟女一区二区三区四区| 欧美日韩久久不卡| 国产精品久久久久毛片| 在线播放国产精品二区一二区四区| 中文字幕你懂的| 欧美日韩成人综合在线一区二区| 91久久精品国产91性色69| 欧美精品免费视频| 国产偷拍一区二区| 亚洲爱爱爱爱爱| 性猛交xxxx| 一区二区三区www| 在线观看av的网站| 久久综合色88| 国产在线xxx| 2020国产精品视频| 精品肉辣文txt下载| 91精品美女在线| 国产96在线亚洲| 日本一区二区三区视频免费看| 第一sis亚洲原创| 日本一本草久p| 狠狠干综合网| 免费观看成人网| 久久精品国产一区二区三| www.日本久久| wwwwxxxxx欧美| 欧美一区二区三区粗大| 亚洲婷婷在线视频| 男人天堂中文字幕| 欧美伊人久久久久久午夜久久久久| 亚洲网站在线免费观看| 日韩女优毛片在线| 精品久久av| 久久高清视频免费| 欧美三级网站| 91久久国产婷婷一区二区| 盗摄系列偷拍视频精品tp| 欧美日韩另类综合| 欧美国产日本| 欧美伦理视频在线观看| 国产成人av一区| 黄色aaa视频| 一区二区三区在线观看国产| 久久久久久久久久免费视频| 欧美日韩午夜在线| 亚洲色图另类小说| 久久影视电视剧免费网站| 在线中文字幕播放| aaa级精品久久久国产片| 九九综合九九| 800av在线免费观看| 青青草国产精品亚洲专区无| 乱码一区二区三区| 国产精品久久久久aaaa| 69视频免费在线观看| 日韩久久精品一区| 在线观看精品一区二区三区| 91精品91久久久久久| 国产精品亚洲综合在线观看| 欧美精品国产精品久久久| 欧美日韩一区二区高清| 天天影视色综合| 久久久久久一二三区| 免费毛片一区二区三区| 欧美一卡二卡三卡| 欧美成人hd| 国产精品视频在线观看| 亚洲影院天堂中文av色| av女优在线播放| 国产a视频精品免费观看| 99成人在线观看| 欧美性猛交xxxx黑人交| 青青草在线免费视频| 国模精品视频一区二区| 久久久91麻豆精品国产一区| 性欧美.com| 日韩成人精品在线观看| 亚洲av片不卡无码久久| 亚洲国产综合色| 亚洲国产精品欧美久久 | 菠萝菠萝蜜在线观看| 国产精品视频一区二区高潮| 欧美男gay| 久久久免费视频网站| 99久久精品国产毛片| 国产第一页在线播放| 精品乱人伦小说| 亚洲卡一卡二| 99视频免费观看| 欧美日韩天堂| 在线播放第一页| 亚洲影视在线观看| 免费看日韩av| 91精品国产高清久久久久久| 福利电影一区| 久草热视频在线观看| 91免费观看国产| chinese国产精品| 在线精品高清中文字幕| 成人在线高清| 一区高清视频| 国产九九视频一区二区三区| 国产97免费视频| 日韩欧美色综合网站| av人人综合网| 欧美日韩精品久久| 日韩成人一级大片| 国产精品99久久久久久成人| 日韩一二三四区| 多野结衣av一区| 欧美国产综合视频| 免费av成人在线| 久久久久99精品成人片试看| 精品毛片乱码1区2区3区 | 亚洲国产va精品久久久不卡综合 | 亚洲人成在线一二| 高清亚洲高清| 99久久久精品视频| 91香蕉视频在线| 欧美另类高清videos的特点| 日韩在线视频播放| caoporn成人| 欧美视频免费播放| 日韩理论片一区二区| 欧美综合视频在线| 国产91亚洲精品| 欧美高清一区| 97超碰在线免费观看| 欧美日本国产一区| 8x8ⅹ拨牐拨牐拨牐在线观看| 麻豆精品视频| 精品午夜久久福利影院| 亚洲视频免费播放| 在线观看日韩av| 66精品视频在线观看| 91视频免费版污| 一区二区三区不卡视频在线观看 | 99久久精品国产一区二区三区| 久久国产乱子伦精品| 九九视频直播综合网| 国产成人一区| 免费观看黄网站| 欧美日韩在线视频一区二区| 一级毛片视频在线| 国产一区二区免费在线观看| 美女一区二区三区在线观看|