精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源大模型新王干翻GPT-4o,新技術可糾正自己幻覺,數學99.2分刷爆測試集

人工智能
Reflection 70B能力提升的關鍵,是采用了一種名為Reflection-Tuning的訓練方法,它能夠讓模型反思自己生成的文本,在最終確定回應前檢測并糾正自身推理中的錯誤。

開源大模型王座突然易主,居然來自一家小創業團隊,瞬間引爆業界。

新模型名為Reflection 70B,使用一種全新訓練技術,讓AI學會在推理過程中糾正自己的錯誤和幻覺。

圖片

比如最近流行的數r測試中,一開始它犯了和大多數模型一樣的錯誤,但主動在<反思>標簽中糾正了自己。

圖片

在官方評測中,70B模型全面超越最強開源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特別是數學基準GSM8K上直接刷爆,得分99.2%

這個結果也讓OpenAI科學家、德撲AI之父Noam Brown激情開麥:

GSM8K得分99%!是不是可以正式淘汰這個基準了?

圖片

模型剛剛上線網友就把試玩擠爆了,對此Meta還主動支援了更多算力。

圖片
圖片

在網友測試中,Reflection 70B能回答對GSM8K數據集中本身答案錯誤的問題:

我向模型提供了GSM8K中存在的5個“ground_truth”本身就不正確的問題。

模型沒有重復數據集中的錯誤答案,而是全部回答對了,這很令人印象深刻,表明那99.2%的準確率并非來自于記憶測試集

圖片

數各種r都不在話下,連生造詞“drirrrngrrrrrnnn”中有幾個r也能被正確數對。

圖片

網友紛紛對小團隊做出的開源超越頂流閉源感到驚訝,現在最強開源模型可以在本地運行了。

圖片

關鍵70B還只是個開始,官方表示下周還會發布更大的Reflection 405B

預計405B性能將大幅優于Sonnet和GPT-4o。

圖片

Reflection 70B權重已公開,API訪問將于今天晚些時候由Hyperbolic Labs提供。

模型能自我反思糾正錯誤

目前關于Reflection 70B的更多細節如下。

Reflection 70B能力提升的關鍵,是采用了一種名為Reflection-Tuning的訓練方法,它能夠讓模型反思自己生成的文本,在最終確定回應前檢測并糾正自身推理中的錯誤。

圖片

訓練中的數據來自使用GlaiveAI平臺生成的合成數據。

圖片

Reflection 70B基于Llama 3.1 70B Instruct,可以使用與其它Llama模型相同的代碼、pipeline等從Reflection Llama-3.1 70B進行采樣。

它甚至使用了標準的Llama 3.1聊天格式。

不過,Reflection 70B引入了一些特殊tokens,結構化輸出過程。

圖片

如下面這個例子所展示的,規劃過程分為一個獨立的步驟,這樣做可以提高CoT效果,并保持輸出精煉:

圖片

模型將從在<thinking>和</thinking>標簽內輸出推理開始,一旦對其推理感到滿意,就會在<output>和</output>標簽內輸出最終答案。

所以它能夠將其內部思考和推理與最終答案分離。

在<thinking>部分,模型可能會輸出一個或多個<reflection>標簽,這表明模型發現了其推理中的錯誤,并將在提供最終答案之前嘗試糾正該錯誤。

系統提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
(你是一個世界級人工智能系統,能夠進行復雜的推理和反思。在標簽內對查詢進行推理,然后在標簽內提供你的最終回應。如果你發現自己在任何時候推理出錯,請在標簽內糾正自己。)

圖片

此外值得一提的是,基準測試中,所有基準都已通過LMSys的LLM Decontaminator檢查污染,隔離了<output>部分,并單獨對這一部分進行測試。

使用Reflection 70B的時候,官方還分享了小tips:

  • 初步建議參數temperature為.7 , top_p為.95
  • 為提高準確性,最好附加“Think carefully.”在Prompt末尾

官方還表示,下周會發布一份報告,詳細介紹模型訓練過程和發現。

Agent創業團隊打造

Reflection 70B的背后是一支小團隊,由HyperWriteAI的CEO Mutt Shumer帶領。

圖片

領英顯示,Mutt Shumer是一位連續創業者,畢業于美國錫拉丘茲大學,現任OthersideAI的聯合創始人兼CEO。

圖片

OthersideAI是一家AI應用公司,致力于通過大規模AI系統開發全球最先進的自動補全工具,也是HyperWrite的幕后公司。

HyperWrite是一個瀏覽器操作agent,可以像人一樣操作谷歌瀏覽器來完成一系列任務,比如訂披薩:

圖片

和gpt-llm-trainer一樣,你只需要用文字描述目標,它就會一邊列步驟,一邊執行。

剛推出時號稱“比AutoGPT強”。

圖片

HyperWrite還可以在谷歌擴展程序中安裝。

另外,Mutt Shumer高中時期就創立了Visos,致力于開發用于醫療用途的下一代虛擬現實軟件。

還創立了FURI,這是一家旨在通過創造高性能產品并以公平的價格銷售它們來顛覆體育用品行業的公司。

圖片

雖然有Meta支持,但目前打開試玩,還是:暫時無法訪問。

圖片

感興趣的童鞋可以先碼住了~

https://reflection-playground-production.up.railway.app/ 

參考鏈接:
[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-05-15 17:34:15

2024-09-06 13:00:29

2024-10-17 13:30:00

2025-08-07 14:05:40

OpenAI大模型開源

2024-02-07 12:39:00

AI數據

2024-10-17 14:05:34

2024-12-27 10:27:58

2024-08-09 12:50:02

2024-06-21 09:58:38

2024-12-18 13:24:30

谷歌AI大語言模型

2024-09-02 08:30:00

大模型AI

2024-08-14 12:54:46

2024-12-19 09:00:00

模型數學訓練

2024-05-14 11:29:15

2024-06-05 13:09:26

2025-05-26 08:33:00

2025-04-08 02:26:00

2024-09-14 09:31:00

2024-06-27 12:45:30

2024-12-13 14:03:44

模型訓練AI
點贊
收藏

51CTO技術棧公眾號

亚洲黄色网址在线观看| 国产欧美最新羞羞视频在线观看| 中文字幕无码人妻少妇免费| 深夜成人在线| 国产免费成人在线视频| 成人信息集中地欧美| 久久久久久久久97| 精品久久福利| 久久品道一品道久久精品| 国产精品久久97| 九九热这里有精品视频| 精品中文字幕一区二区三区av| 欧美亚洲精品一区| 肉大捧一出免费观看网站在线播放| 国产叼嘿视频在线观看| 老司机午夜免费精品视频| 精品国产一区二区三区在线观看| 黑人无套内谢中国美女| 欧美片第一页| 一区二区三区免费| 免费日韩av电影| 99国产精品一区二区三区 | 99re99热| 欧美新色视频| 国产精品18久久久久| 日韩美女视频免费看| 麻豆视频在线观看| 日本成人小视频| 日韩精品在线第一页| 中文字幕55页| 日韩美香港a一级毛片| 午夜精品福利久久久| 中文字幕av导航| 国产在线你懂得| 99视频热这里只有精品免费| 96sao精品视频在线观看| jizz国产在线| 免费永久网站黄欧美| 久久久久久国产免费| 天堂а√在线中文在线鲁大师| 中文有码一区| 亚洲精品黄网在线观看| 精品久久久久久无码人妻| 欧美jizz18| 欧美亚洲动漫精品| 国产美女三级视频| av电影一区| 欧美日韩在线视频观看| 国产精品www在线观看| av在线免费观看网址| 日韩美女视频一区| 一本色道久久综合亚洲二区三区| 国产黄在线看| 日本一区二区在线不卡| 日本在线观看一区| 国产网站在线播放| 国产清纯在线一区二区www| 九色综合日本| 亚洲人在线观看视频| 99久久久无码国产精品| 久久精品国产综合精品| 亚洲 国产 欧美 日韩| 99久久综合色| 美女一区视频| yiren22综合网成人| 国产精品色噜噜| 亚洲第一精品区| 1区2区在线观看| 亚洲精品成a人| 污污污污污污www网站免费| 久久av色综合| 亚洲国产一区二区视频| 成年人看的毛片| 亚洲精品中文字幕| 欧美午夜在线一二页| 99sesese| 亚洲日本va| 亚洲国产欧美日韩精品| 91国模少妇一区二区三区| 国产欧美亚洲精品a| 中文字幕国产亚洲| 69av视频在线| 国产精品一卡| 国产色视频一区| 99产精品成人啪免费网站| 不卡欧美aaaaa| 日本精品一区二区三区高清 久久| 国产1区2区3区在线| 国产精品九色蝌蚪自拍| 麻豆视频传媒入口| 国产精品原创| 欧美日韩情趣电影| 动漫av在线免费观看| 免费观看久久av| 久久精品国产一区二区电影| 日韩av片在线播放| 免费观看成人鲁鲁鲁鲁鲁视频| 91免费看蜜桃| 久久精品蜜桃| 亚洲最色的网站| 免费观看成人在线视频| 国产午夜精品一区在线观看| 亚洲精品一区二区久| 亚洲欧洲综合网| 国产精品主播| 99视频在线| 又爽又大又黄a级毛片在线视频| 亚洲综合色噜噜狠狠| 国产aaaaa毛片| 国产精品久av福利在线观看| 亚洲四色影视在线观看| 免费一级肉体全黄毛片| 热久久一区二区| 国产精品一区二| 毛片在线播放a| 一本久久a久久免费精品不卡| 日日夜夜精品视频免费观看| 国产成人ay| 2019av中文字幕| av小说天堂网| 最近日韩中文字幕| 色一情一乱一伦一区二区三区日本| 中文字幕亚洲在线观看| 尤物精品国产第一福利三区| 日本三级网站在线观看| 国产在线不卡视频| 天天人人精品| xxxxxx欧美| 亚洲第一页中文字幕| 国语对白在线播放| 久久国产三级精品| 欧洲在线视频一区| 欧美a级在线观看| 精品久久一二三区| 欧美日韩在线视频免费播放| 久久国产精品一区二区| 日韩精品一区二区三区外面| 色综合亚洲图丝熟| 欧美精品一区二区三区视频| 久草视频在线资源| 国产精品18久久久久久久久久久久 | av女优在线播放| 免费一区二区三区在线视频| 日韩视频精品在线| 在线观看视频中文字幕| 国产欧美日韩精品一区| 日韩在线第三页| 免费看成人吃奶视频在线| 欧美在线观看日本一区| 天堂а√在线8种子蜜桃视频 | 久久这里只有精品9| 久久久久久久精| 国产成人av影视| 精品视频97| 国产视频999| av在线导航| 精品日韩欧美在线| 成人免费看片98| 成人精品视频一区| 欧美日韩成人免费视频| 全球av集中精品导航福利| 欧美性受xxxx黑人猛交| 日本a一级在线免费播放| 一本一道久久a久久精品| 精品人妻一区二区三区蜜桃视频| 日日夜夜一区二区| 亚洲在线不卡| 免费欧美网站| 韩国三级日本三级少妇99| 性感美女福利视频| 欧美在线观看一区| 日韩国产第一页| 豆国产96在线|亚洲| 日本网站免费在线观看| 久久99国产精品视频| 国产精品亚洲自拍| 最新国产在线拍揄自揄视频| 亚洲精品一区二区精华| 国产污视频网站| 18成人在线观看| 色悠悠在线视频| 久久久久久久尹人综合网亚洲| 视频在线99re| 日本一区二区三区视频在线看 | 快播电影网址老女人久久| 中文字幕不卡在线视频极品| 午夜精品久久久久久久99热黄桃| 五月天激情综合| 在线观看日本黄色| 国产iv一区二区三区| 欧美激情国产精品日韩| 国产精品久久久久9999赢消| 国产精品区一区| 电影一区电影二区| 欧美激情在线一区| 高清国产福利在线观看| 欧美成人猛片aaaaaaa| 亚洲第一网站在线观看| 1024国产精品| 亚洲第一香蕉网| 久久国内精品自在自线400部| www.日本在线播放| 99久久www免费| 精品国产一区二区三区免费 | 成人影音在线| 日韩在线视频播放| 水莓100国产免费av在线播放| 欧美另类z0zxhd电影| 久久亚洲精品国产| 一区二区三区四区在线免费观看 | 天天射天天综合网| 久久久综合香蕉尹人综合网| 精品国产不卡一区二区| 国产精品高潮呻吟久久av野狼 | 色激情天天射综合网| 欧美成人一二三区| 国产精品私人影院| 国产精品无码网站| 福利一区在线观看| 久久久久久久久久久久久久久国产| 午夜亚洲性色视频| 久久久久久久9| 亚洲精品va| 相泽南亚洲一区二区在线播放| 精品综合久久88少妇激情| 91热精品视频| 久久91超碰青草在哪里看| 日本成熟性欧美| 爱草tv视频在线观看992| 两个人的视频www国产精品| 91吃瓜网在线观看| 亚洲欧美日韩中文在线制服| 亚洲av成人无码网天堂| 日韩精品一区在线观看| 国产视频手机在线观看| 欧美日韩二区三区| 国产免费www| 欧洲亚洲国产日韩| 成人a v视频| 色婷婷狠狠综合| 9i看片成人免费看片| 精品久久久久久久中文字幕| 日韩欧美性视频| 亚洲第一搞黄网站| 国产在线成人精品午夜| 亚洲综合丁香婷婷六月香| 强乱中文字幕av一区乱码| 亚洲美女在线国产| 成年人午夜剧场| 亚洲欧洲一区二区在线播放| 欧美xxxooo| 亚洲视频小说图片| www.99re7| 一区二区三区资源| 精品无码av在线| 亚洲午夜日本在线观看| 日本熟妇成熟毛茸茸| 精品动漫一区二区| 免费看毛片网站| 欧美一a一片一级一片| 中文字幕在线播出| 777奇米成人网| 精品国产无码一区二区| 精品国产伦一区二区三区观看方式| www.日日夜夜| 亚洲精品美女网站| 美州a亚洲一视本频v色道| 一区二区三区天堂av| 亚洲成人三级| 欧美日韩爱爱视频| 黄在线观看免费网站ktv| 日本视频久久久| 青娱乐极品盛宴一区二区| 亚洲一区二区三区四区视频| 第四色中文综合网| 欧美日韩高清免费| 天天揉久久久久亚洲精品| 91动漫在线看| 日日骚欧美日韩| 肉色超薄丝袜脚交| 91农村精品一区二区在线| 欧美另类69xxxx| 亚洲国产综合在线| 伊人成年综合网| 日韩三级精品电影久久久| 天天综合网在线| 色婷婷综合久久久久| 欧美黑人猛交| 国产精品h片在线播放| 日韩欧美中文字幕在线视频| 久久综合九色综合久99| 午夜激情久久| 女人喷潮完整视频| 经典一区二区三区| 国产福利短视频| 亚洲乱码国产乱码精品精98午夜| 精品欧美一区二区三区免费观看| 欧美日韩精品高清| 天堂在线中文网| 久久手机免费视频| 二吊插入一穴一区二区| 99re国产视频| 99国产精品一区二区| 久草资源站在线观看| 国产一区二区日韩精品| 国产高清一区二区三区四区| 亚洲一区二区精品久久av| 国产九色91回来了| 亚洲国产日韩欧美在线99| 黄色网址在线免费观看| 日本不卡视频在线播放| 超碰97久久| 最近免费观看高清韩国日本大全| 久久综合九色| 日本一区二区在线免费观看| 亚洲欧美日韩国产手机在线 | 国产极品在线观看| 999在线观看免费大全电视剧| 久久美女视频| 男人女人黄一级| 95精品视频在线| 成人免费看片98| 日韩免费一区二区| 毛片在线看片| 成人欧美一区二区三区黑人孕妇| 国产一区三区在线播放| 男人天堂999| 99re8在线精品视频免费播放| 九九热视频精品| 日韩欧美激情四射| 中文字幕资源网在线观看| 国产综合在线观看视频| 日韩一区二区在线免费| 青青青在线视频免费观看| 久久一区二区三区国产精品| 伊人久久综合视频| 欧美不卡视频一区| 影院在线观看全集免费观看| 91色精品视频在线| 午夜av一区| 国产亚洲色婷婷久久| 综合av第一页| 国产99久一区二区三区a片| 久久精品久久久久久| 亚洲三级电影| 成人手机在线播放| 国产精品99精品久久免费| 男女做暖暖视频| 欧美成人性战久久| xxxx视频在线| 久久国产精品一区二区三区| 国产亚洲成人一区| 日韩人妻一区二区三区| 色婷婷综合久久久中文字幕| 风间由美一区| 成人黄色大片在线免费观看| 91精品国产视频| 中文字幕人妻熟女人妻a片| 亚洲国产一区二区三区青草影视| 亚洲精品久久久久久动漫器材一区 | 精品乱色一区二区中文字幕| 国产日韩1区| 公肉吊粗大爽色翁浪妇视频| 欧美日韩一区二区三区视频| 国内精品久久久久久野外| 99精品在线直播| 国产精品乱看| 成人性视频免费看| 日韩一区二区在线观看| 成入视频在线观看| 欧美日韩成人一区二区三区| 蜜臀91精品一区二区三区| 91在线播放观看| 亚洲国产一区自拍| 国产精品亚洲d| www.-级毛片线天内射视视| 成人自拍视频在线| 欧美特级黄色片| 欧美大尺度激情区在线播放 | 亚洲欧美制服第一页| 97久久网站| 久久久久久久久久伊人| 99国产精品久久久久久久久久久 | 亚洲电影观看| 一区二区三区免费看| 成人国产在线观看| 中文字幕精品在线观看| 欧美高清在线观看| 久久综合欧美| 黑人玩弄人妻一区二区三区| 一本大道综合伊人精品热热| 国产精品剧情一区二区在线观看| 国产一区二区视频在线免费观看 | 在线激情免费视频| wwwxx欧美| 久国产精品韩国三级视频| 国产成人在线观看网站| 久久久av亚洲男天堂| 亚洲综合小说图片| av在线免费观看不卡|