精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe

發(fā)布于 2024-8-2 13:28

瀏覽

0收藏

大語(yǔ)言模型都卷起來(lái)了，模型越做越大，token越來(lái)越多，輸出越來(lái)越長(zhǎng)。

那么問(wèn)題來(lái)了，如何有效地評(píng)估大語(yǔ)言模型的長(zhǎng)篇大論呢？要是輸出長(zhǎng)度長(zhǎng)了但胡言亂語(yǔ)輸出質(zhì)量差，又臭又長(zhǎng)，豈不是白搭?

首先能想到的方法就是人工評(píng)估。人工評(píng)估雖然對(duì)于評(píng)價(jià)模型性能至關(guān)重要，但受到主觀性、評(píng)估者之間的差異性以及廣泛評(píng)估的高成本的限制。

考慮到這些因素，谷歌DeepMind研究團(tuán)隊(duì)提出了自動(dòng)評(píng)估解決方案FLAMe。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

論文地址：https://arxiv.org/abs/2407.10817

模型本身在經(jīng)歷多輪大規(guī)模指令任務(wù)調(diào)整后，可以遵循一套新的指令，使它們適合用作模型輸出的自動(dòng)評(píng)估器。

一方面，為了使LLM自動(dòng)評(píng)分更加合理、準(zhǔn)確并與人類偏好保持一致，對(duì)人類判斷的數(shù)據(jù)收集極其重要。

然而，獲得這些判斷數(shù)據(jù)既昂貴又耗時(shí)。從以前的研究中收集現(xiàn)有的人類評(píng)估貌似可行，但面臨著缺乏標(biāo)準(zhǔn)、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權(quán)等問(wèn)題。

另一方面，直接使用模型輸出進(jìn)行自動(dòng)評(píng)分器訓(xùn)練可提供一致性，但也存在風(fēng)險(xiǎn)，包括強(qiáng)化偏見(jiàn)和幻覺(jué)。

此外，它可能違反專有LLM服務(wù)的使用條款，條款禁止使用其模型的輸出來(lái)開(kāi)發(fā)競(jìng)爭(zhēng)模型。

為了解決這些限制和顯著降低成本，谷歌引入了一個(gè)用于自動(dòng)評(píng)分的大型基礎(chǔ)模型系列----FLAMe。

FLAMe模型的主要優(yōu)勢(shì)和貢獻(xiàn)是：

- 數(shù)據(jù)收集：僅使用獲得許可的數(shù)據(jù)集，并對(duì)人類評(píng)估結(jié)果進(jìn)行標(biāo)準(zhǔn)化。共包含102個(gè)評(píng)估任務(wù)、530萬(wàn)條人類評(píng)估意見(jiàn)。為了促進(jìn)未來(lái)的研究，論文公開(kāi)了所有數(shù)據(jù)集來(lái)源。

LLM自動(dòng)評(píng)分器：既包括使用多任務(wù)組合來(lái)訓(xùn)練通用 LLM自動(dòng)評(píng)分器 (FLAMe) ，也包括針對(duì)下游應(yīng)用程序優(yōu)化過(guò)的LLM 自動(dòng)評(píng)分器 ( FLAMe-RM 和 FLAMe-Opt-RM）。

在12個(gè)自動(dòng)評(píng)分器評(píng)估基準(zhǔn)中的8個(gè)基準(zhǔn)上，F(xiàn)LAMe及其變體的自動(dòng)評(píng)分性能優(yōu)于用專有數(shù)據(jù)訓(xùn)練的GPT-4o、Gemini-1.5-Pro等模型。

計(jì)算高效的多任務(wù)訓(xùn)練：引入了一種計(jì)算更為高效的方法，使用創(chuàng)新的微調(diào)策略來(lái)優(yōu)化目標(biāo)分布的多個(gè)任務(wù)，顯著減少計(jì)算量來(lái)實(shí)現(xiàn)更佳的性能。

自動(dòng)評(píng)估方法

為了將人工評(píng)估的流程自動(dòng)化，作者對(duì)LLM任務(wù)和評(píng)估標(biāo)準(zhǔn)進(jìn)行了細(xì)致的定義。

數(shù)據(jù)收集

和領(lǐng)域內(nèi)很多科技巨頭的做法形成鮮明對(duì)比的是，DeepMind這篇論文不僅披露了使用的數(shù)據(jù)集列表，而且從數(shù)據(jù)收集步驟開(kāi)始，就堅(jiān)持了幾個(gè)公認(rèn)正確但很難做到的原則。

首先，為了論文的透明度和可復(fù)現(xiàn)，作者僅使用HuggingFace、TensorFlow這些平臺(tái)上的公共開(kāi)源數(shù)據(jù)集，以及得到原作者許可的GitHub庫(kù)。

為了避免GPT-4等模型生成數(shù)據(jù)帶來(lái)的不準(zhǔn)確性和潛在法律問(wèn)題，作者只使用了帶有人工標(biāo)注的數(shù)據(jù)集，并涵蓋了各種任務(wù)類型（圖3）和LLM能力（圖4）。

最終用于訓(xùn)練的數(shù)據(jù)集含有102項(xiàng)評(píng)估任務(wù)、共530萬(wàn)條經(jīng)過(guò)標(biāo)準(zhǔn)化處理的人類評(píng)估意見(jiàn)。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

任務(wù)類型主要包含以下四種：

- 成對(duì)評(píng)估（pairwise evaluation）：比較兩個(gè)響應(yīng)結(jié)果并確定偏好

- 逐點(diǎn)評(píng)估（pointwise evaluation）：對(duì)單個(gè)響應(yīng)結(jié)果的指定屬性進(jìn)行打分

- 分類：將單個(gè)響應(yīng)劃分為某個(gè)預(yù)定義類別，例如：模型輸出是否遵循說(shuō)明？（是/否）

-開(kāi)放式評(píng)估：自由形式、不受限制的評(píng)估結(jié)果

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

按照評(píng)估的LLM能力劃分?jǐn)?shù)據(jù)集，則大致有6類能力：

- 一般響應(yīng)質(zhì)量：包括有用性、連貫性、流暢性、創(chuàng)造力、復(fù)雜性和冗長(zhǎng)性等多個(gè)屬性，以及指令跟隨能力

- 事實(shí)性/內(nèi)容出處：針對(duì)LLM應(yīng)用中日益重要的幻覺(jué)問(wèn)題，幾個(gè)數(shù)據(jù)集都用于評(píng)估響應(yīng)輸出的事實(shí)準(zhǔn)確性及其基礎(chǔ)，看模型提出的聲明是否有源文檔作為依據(jù)

- 數(shù)學(xué)推理：區(qū)分LLM生成數(shù)學(xué)解題方案的正確或錯(cuò)誤

- 編碼：涵蓋Python、JavaScript、Java、C++、Go和Rus等流行編程語(yǔ)言，訓(xùn)練FLAMe從備選答案中選出正確程序或修復(fù)程序

- 安全性：為了使FLAMe能夠識(shí)別出更有幫助且無(wú)害的模型響應(yīng)

- 指令微調(diào)：結(jié)合數(shù)據(jù)集中的指令微調(diào)數(shù)據(jù)和人類編寫(xiě)的響應(yīng)，幫助保留模型的指令微調(diào)能力

統(tǒng)一任務(wù)格式

精心選擇好合適的數(shù)據(jù)集后，作者受到T5統(tǒng)一任務(wù)格式的啟發(fā)，將所有數(shù)據(jù)都標(biāo)準(zhǔn)化為統(tǒng)一的「文本到文本」格式。這種靈活的格式可以輕松適應(yīng)上述各種評(píng)估任務(wù)。

任務(wù)定義、評(píng)估指令和所需的輸出字段被列在輸入的INSTRUCTION部分，具體的輸入內(nèi)容和目標(biāo)輸出分別放在CONTEXT和EVALUATION部分（圖2）。

其中任務(wù)定義和評(píng)估指令都經(jīng)過(guò)精心設(shè)計(jì)，確保一致性和標(biāo)準(zhǔn)化，并忠實(shí)于原始數(shù)據(jù)集。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

模型訓(xùn)練

為了訓(xùn)練出通用LLM自動(dòng)評(píng)估器，能夠在推理過(guò)程中提示它們執(zhí)行各種任務(wù)。實(shí)驗(yàn)訓(xùn)練了三種模型變體：

FLAMe，通用評(píng)分器；

FLAMe-RM，用FLAMe初始化，并均勻混合了四個(gè)成對(duì)評(píng)估數(shù)據(jù)集進(jìn)行微調(diào)，性能評(píng)估標(biāo)準(zhǔn)包括聊天對(duì)話、推理和安全性；

FLAMe-Opt-RM，使用獎(jiǎng)勵(lì)模型優(yōu)化的混合權(quán)重進(jìn)行訓(xùn)練，并使用尾部補(bǔ)丁微調(diào)策略（tail-patch fine-tuning）。

FLAMe

從基準(zhǔn)訓(xùn)練方法開(kāi)始，使用監(jiān)督多任務(wù)訓(xùn)練的方式，對(duì)PaLM-2-24B模型進(jìn)行指令微調(diào)，進(jìn)行固定數(shù)量的30K訓(xùn)練步驟。

采用示例比例混合權(quán)重（examples-proportiaonal mixture weights），每個(gè)任務(wù)采樣上限為為2^16，以避免對(duì)大型數(shù)據(jù)集進(jìn)行過(guò)采樣。

FLAMe模型顯著提高了對(duì)各種held-out任務(wù)的泛化能力，在許多任務(wù)上優(yōu)于GPT-4、Claude-3和Llama-3等模型。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

以上數(shù)據(jù)能夠證明FLAMe具有的的基礎(chǔ)功能，即進(jìn)行大規(guī)模多任務(wù)指令微調(diào)，可以讓模型發(fā)展出通用的質(zhì)量評(píng)估能力。

然而，F(xiàn)LAMe對(duì)于獎(jiǎng)勵(lì)模型評(píng)估等專門(mén)的下游應(yīng)用來(lái)說(shuō)并不是最佳的，因此論文進(jìn)一步提出針對(duì)特定下游分布的模型變體。

FLAMe-RM

受FLAMe研究結(jié)果的啟發(fā)，作者更加深入地研究了FLAMe的拓展，將其作為進(jìn)一步微調(diào)特定下游應(yīng)用的起點(diǎn)。

作者采用了大量獎(jiǎng)勵(lì)模型評(píng)估作為案例研究。通過(guò)在四個(gè)成對(duì)評(píng)估數(shù)據(jù)集的混合上微調(diào)FLAMe來(lái)創(chuàng)建FLAMe-RM。

數(shù)據(jù)集包括：HelpSteer、PRM800K、CommitPack和HH-RLHF Harmless。

由于FLAMe已經(jīng)在這些數(shù)據(jù)集上進(jìn)行了訓(xùn)練，因此僅對(duì)其進(jìn)行50個(gè)步驟的微調(diào)。

由此產(chǎn)生的FLAMe-RM模型將原始FLAMe的RewardBench總體得分從86.0%準(zhǔn)確率提高到87.8%。

值得注意的是，F(xiàn)LAMe-RM-24B是專門(mén)在許可數(shù)據(jù)上訓(xùn)練的性能最佳的生成模型，超過(guò)了GPT-4(85.9%) 和GPT-4o (84.7%)。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

FLAMe-Opt-RM

雖然FLAM在許多任務(wù)中表現(xiàn)良好，但它需要大量的訓(xùn)練才能在某些專門(mén)的下游應(yīng)用程序（例如RewardBench）上獲得強(qiáng)大的性能。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

為了解決這個(gè)問(wèn)題，研究引入了一種尾部補(bǔ)丁消融策略（tail-patch ablation），該策略分析每個(gè)數(shù)據(jù)集對(duì)目標(biāo)分布的影響。

這能夠幫助找到多任務(wù)混合中各個(gè)數(shù)據(jù)集的最佳比例，從而有效地優(yōu)化混合權(quán)重超參數(shù)。

通過(guò)這種優(yōu)化過(guò)的混合數(shù)據(jù)微調(diào)PaLM-2-24B僅需要5000步，相比RewardBench上的基線模型（86.0%）實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能 (87.0%)，而且所用的訓(xùn)練數(shù)據(jù)也減少了約25倍。

研究直接根據(jù)RewardBench性能變化（由于缺乏開(kāi)發(fā)集）優(yōu)化了多任務(wù)混合。

值得注意的是，研究的目標(biāo)不是實(shí)現(xiàn)最佳的RewardBench結(jié)果，而是展示如何針對(duì)目標(biāo)分布進(jìn)行多任務(wù)混合的優(yōu)化方法。

通過(guò)測(cè)試發(fā)現(xiàn)，和FLAMe-RM 一樣，微調(diào)進(jìn)一步提高了RewardBench性能。

此外，F(xiàn)LAMe-Opt-RM在其他held-out任務(wù)中的優(yōu)秀表現(xiàn)表明,moxing 并沒(méi)有過(guò)度擬合RewardBench，這證實(shí)了FLAMe-Opt-RM在不同任務(wù)中的廣泛適用性。

訓(xùn)練細(xì)節(jié)

研究使用了PaLM-2-24B模型對(duì)FLAMe和 FLAMe-Opt-RM進(jìn)行初始化，并在Flan集合上進(jìn)行指令調(diào)整，分別訓(xùn)練30000步和5000步，然后將FLAMe進(jìn)一步微調(diào)50步以創(chuàng)建 FLAMe-RM。

模型使用T5X和Adam優(yōu)化器進(jìn)行訓(xùn)練，學(xué)習(xí)率為 0.0001，dropout為 0.05。

FLAMe在256個(gè)PU芯片上進(jìn)行訓(xùn)練，批大小為32，而FLAMe-RM和FLAMe-Opt-RM使用128個(gè)TPU芯片，批大小為8。

評(píng)估實(shí)驗(yàn)

討論過(guò)FLAMe系列模型的構(gòu)建方法后，作者使用了包含12個(gè)自動(dòng)評(píng)分器基準(zhǔn)的評(píng)估套件，將FLAMe與幾個(gè)流行的LLM-as-a-Judge自動(dòng)評(píng)分器進(jìn)行對(duì)比。

12個(gè)基準(zhǔn)中，只有HelpSteer作為held-in驗(yàn)證，其余的RewardBench、LLM-AggreFact等11個(gè)作為held-out測(cè)試。

評(píng)估數(shù)據(jù)同樣涵蓋了53個(gè)任務(wù)，但為了降低模型API成本，每個(gè)測(cè)試集（除RewardBench）僅隨機(jī)抽取256個(gè)樣本。

對(duì)比的基線包括Llama-3-70B-Instruct、Mixtral8×7B、Claude-3-Opus等流行的LLM-as-a-Judge模型，以及RewardBench官方排行榜上列出的Gemini-1.5-Pro、Nemotron-4-340B-Reward等。

FLAMe的3種模型變體都參與了評(píng)估，而且還包括了進(jìn)行指令微調(diào)前的PaLM-2-24B，以更好說(shuō)明FLAMe訓(xùn)練的效果。

表1列舉了FLAMe系列在12個(gè)基準(zhǔn)上與流行基線模型的對(duì)比。

其中8個(gè)都取得了最優(yōu)性能，尤其是Contr Search和HelpSteer上相比次優(yōu)模型有大幅度提升，讓我們看到了「許可數(shù)據(jù)」超越「專有數(shù)據(jù)」的希望。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

在RewardBench排行榜上，截止7月15日，F(xiàn)LAMe-RM-24B在所有生成模型中排名第2（僅次于Gemini-1.5-Pro），在所有模型中排名第6，在4個(gè)類別中都取得了強(qiáng)勁表現(xiàn)。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

雖然RewardBench是評(píng)估獎(jiǎng)勵(lì)模型時(shí)被廣泛使用的基準(zhǔn)，但作者也在實(shí)驗(yàn)時(shí)發(fā)現(xiàn)了其中的評(píng)估偏差問(wèn)題，比如有對(duì)輸出答案的長(zhǎng)度偏好，以及偏愛(ài)「sorry」、「I'm sorry」等短語(yǔ)。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

RewardBench4個(gè)類別任務(wù)對(duì)響應(yīng)長(zhǎng)度的不同偏好

在AggreFact基準(zhǔn)的結(jié)果中（表3），F(xiàn)LAMe-24B獲得了整體最佳性能，比GPT-4o高出將近1分。

在總共4個(gè)類別的用例中，F(xiàn)LAMe系列變體在其中3個(gè)取得了最優(yōu)性能，僅在Long-formQA上表現(xiàn)不佳，與表1中LFQA Eval的結(jié)果相一致。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

此外，上述3個(gè)表格中都能發(fā)現(xiàn)，相比原有的PALM-2-24B，經(jīng)過(guò)訓(xùn)練后的FLAMe-24B性能有大幅度的提升，證明了FLAMe訓(xùn)練方法的有效性。

分析

模型大小、數(shù)據(jù)集大小和數(shù)據(jù)質(zhì)量等因素在最近的多任務(wù)學(xué)習(xí)和指令調(diào)優(yōu)工作中已經(jīng)得到了廣泛的研究。

論文更加著重探索LLM自動(dòng)評(píng)分器固有的潛在偏見(jiàn)，這也是影響評(píng)估準(zhǔn)確性的一個(gè)重要方面。

另外，F(xiàn)LAMe對(duì)于AI開(kāi)發(fā)還有許多潛在用途，例如對(duì)高質(zhì)量響應(yīng)數(shù)據(jù)進(jìn)行采樣。

自動(dòng)評(píng)分器偏差分析

對(duì)LLM自動(dòng)評(píng)估器（LLM-as-a-Judge autorater）的常見(jiàn)批評(píng)主要涉及他們對(duì)某些判斷的偏見(jiàn)。

通過(guò)在自動(dòng)評(píng)估器偏見(jiàn)基準(zhǔn)CoBBLEr上評(píng)估 FLAMe及其變體，論文發(fā)現(xiàn)FLAMe模型比其他流行的LLM自動(dòng)評(píng)估器的偏見(jiàn)要小得多。

CoBBLEr主要測(cè)量LLM自動(dòng)評(píng)估器中的6種偏見(jiàn):

順序:自動(dòng)評(píng)估器對(duì)回復(fù)順序是否有偏好?
同情心:當(dāng)使用生成響應(yīng)的LLM的實(shí)際名稱（例如「GPT-4」）而不是「Model A」等別名時(shí)，自動(dòng)評(píng)估者的判斷會(huì)改變嗎?
長(zhǎng)度:自動(dòng)評(píng)估器是否會(huì)偏好較長(zhǎng)或較短的輸出?
以自我為中心:自動(dòng)評(píng)估器是否偏愛(ài)自己生成的輸出?
見(jiàn)風(fēng)使舵:自動(dòng)評(píng)估器是否會(huì)被「90% 的人更喜歡回答 A」這樣的句子所左右?
注意力：自動(dòng)評(píng)估器是否被不相關(guān)的上下文信息干擾

評(píng)估結(jié)果如表4所示，可以看到，相比其他基線模型，F(xiàn)LAMe系列在大部分維度都表現(xiàn)出明顯較低的偏見(jiàn)，而且總體偏見(jiàn)值最低。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

使用FLAMe對(duì)解碼輸出重新排序

最后，研究還探索了LLM自動(dòng)評(píng)估器在從多個(gè)響應(yīng)中選擇最佳輸出方面的應(yīng)用，這種方法稱為「Best-of-N」采樣。

實(shí)驗(yàn)中使用了OpenAI的3個(gè)代碼生成模型，并通過(guò)循環(huán)機(jī)制（round-robin）讓FLAMe分別對(duì)它們生成的10個(gè)代碼樣本進(jìn)行重新排名，然后使用排名靠前的代碼示例，在HumanEval Python基準(zhǔn)中測(cè)試其性能。

結(jié)果表明，F(xiàn)LAMe在所有三個(gè)模型中都顯著提高了pass@1準(zhǔn)確率。

87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

值得注意的是，F(xiàn)LAMe將CodeGen16B的pass@1準(zhǔn)確率從21.2提高到31.1，與Oracle排名器 (46.9) 的差距縮小了近40%。

結(jié)論與討論

FLAMe是一系列基礎(chǔ)自動(dòng)評(píng)估器模型，可以執(zhí)行各種質(zhì)量評(píng)估任務(wù)。訓(xùn)練所用的數(shù)據(jù)不僅大規(guī)模而且多樣化，僅來(lái)自許可數(shù)據(jù)集，包含標(biāo)準(zhǔn)化的人類評(píng)估意見(jiàn)且經(jīng)過(guò)精心設(shè)計(jì)。

研究展示了FLAMe強(qiáng)大的零樣本泛化能力，在許多懸而未決的任務(wù)中，其性能優(yōu)于使用GPT-4和Claude-3等專有數(shù)據(jù)訓(xùn)練的模型。

FLAMe還可以有效地作為進(jìn)一步下游微調(diào)的強(qiáng)大起點(diǎn)。FLAMe-RM變體針對(duì)獎(jiǎng)勵(lì)模型評(píng)估進(jìn)行了微調(diào)，盡管僅在許可數(shù)據(jù)上進(jìn)行訓(xùn)練，但仍是RewardBench上表現(xiàn)最好的生成模型之一，其性能優(yōu)于GPT-4-0125和GPT-4o。

此外，論文提出了一種計(jì)算效率更高的方法，使用新穎的尾部補(bǔ)丁微調(diào)策略來(lái)優(yōu)化目標(biāo)分布的多任務(wù)混合FLAMe模型，以顯著減少的計(jì)算量提供有競(jìng)爭(zhēng)力的性能。

FLAMe變體在12個(gè)自動(dòng)評(píng)估基準(zhǔn)中的8個(gè)優(yōu)于流行的專有LLM-as-aJudge模型，涵蓋53項(xiàng)質(zhì)量評(píng)估任務(wù)，包括RewardBench和LLM-AggreFact。

最后，分析表明，與CoBBLEr自動(dòng)評(píng)分器偏差基準(zhǔn)上流行的LLM-as-a-Judge模型相比，F(xiàn)LAMe表現(xiàn)出明顯較低的偏見(jiàn)，同時(shí)能夠有效地識(shí)別代碼生成的高質(zhì)量響應(yīng)。

局限性和未來(lái)工作

由于評(píng)估標(biāo)準(zhǔn)不斷變化以及評(píng)估新的LLM功能的需要，評(píng)估LLM具有挑戰(zhàn)性，通過(guò)開(kāi)源貢獻(xiàn)擴(kuò)大我們的數(shù)據(jù)收集范圍可以解決這個(gè)問(wèn)題。

此外，模型主要在上下文長(zhǎng)度為2048個(gè)token的英語(yǔ)數(shù)據(jù)上進(jìn)行訓(xùn)練，可能在多語(yǔ)言或長(zhǎng)上下文上表現(xiàn)不佳。

在未來(lái)的版本中，作者計(jì)劃包括對(duì)更多具有更長(zhǎng)上下文的多語(yǔ)言數(shù)據(jù)集的訓(xùn)練。

最后，這項(xiàng)工作一直以有監(jiān)督的多任務(wù)方式訓(xùn)練FLAMe模型。探索RLHF和DPO等其他訓(xùn)練方法是未來(lái)工作的一個(gè)有希望的方向。

道德考慮和道德風(fēng)險(xiǎn)

針對(duì)預(yù)訓(xùn)練和指令微調(diào)的LLMs工作概述的所有注意事項(xiàng)和風(fēng)險(xiǎn)也都適用于LLM自動(dòng)評(píng)估器，研究也都遵循標(biāo)準(zhǔn)實(shí)踐來(lái)負(fù)責(zé)任地開(kāi)發(fā)FLAMe模型。

此外，由于評(píng)估能力和評(píng)估質(zhì)量的增強(qiáng)，LLM自動(dòng)評(píng)估器也帶來(lái)了新的風(fēng)險(xiǎn)。

首先，模型可能會(huì)繼承并放大人類評(píng)估的偏見(jiàn)，導(dǎo)致不公平或歧視性的結(jié)果。

例如，該模型可能會(huì)復(fù)制訓(xùn)練數(shù)據(jù)中與種族、性別或其他敏感屬性相關(guān)的偏見(jiàn)，這可能會(huì)損害某些群體利益。

其次，過(guò)度依賴LLM自動(dòng)評(píng)估器可能會(huì)導(dǎo)致需要人類理解和同理心的決策不經(jīng)思考而只根據(jù)LLM判定。

為了減輕這些風(fēng)險(xiǎn)，模型開(kāi)發(fā)和使用的透明度，以及偏見(jiàn)處理、數(shù)據(jù)匿名化和納入不同觀點(diǎn)等強(qiáng)有力的措施，對(duì)于促進(jìn)公平、問(wèn)責(zé)和可信度至關(guān)重要。

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/k182lwGFycz20LcHmuwZ1A??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

ChatGPT能預(yù)測(cè)未來(lái)特定事件，準(zhǔn)確率高達(dá)97%

Aceryt ? 4292瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來(lái) MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥(niǎo) ? 4862瀏覽 ? 0回復(fù)
Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率

大語(yǔ)言模型論文跟蹤 ? 7015瀏覽 ? 0回復(fù)
GPT-4o背后可能的語(yǔ)音技術(shù)

魚(yú)蟲(chóng)子 ? 4591瀏覽 ? 0回復(fù)
Claude3.5突然發(fā)布！GPT-4o不香了

Crystalcxt ? 4406瀏覽 ? 0回復(fù)
GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

angel ? 3452瀏覽 ? 0回復(fù)
登頂新SOTA！阿里新開(kāi)源語(yǔ)音模型Qwen2-Audio ，實(shí)測(cè)優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步

51CTO技術(shù)棧 ? 4450瀏覽 ? 0回復(fù)
最強(qiáng)GPT-4o正確率僅55.8%，開(kāi)源模型不如瞎蒙

duhorse ? 4468瀏覽 ? 0回復(fù)
超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%

AI論文解讀 ? 4019瀏覽 ? 0回復(fù)
谷歌發(fā)布Gemini Live：對(duì)標(biāo)GPT-4o，讓每一個(gè)人都有賈維斯

Aceryt ? 3521瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開(kāi)源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 3488瀏覽 ? 0回復(fù)
ChunkRAG：比CRAG提升10個(gè)點(diǎn)準(zhǔn)確率

大語(yǔ)言模型論文跟蹤 ? 3673瀏覽 ? 0回復(fù)
改個(gè)名字，數(shù)倍提升Function Calling準(zhǔn)確率！

ermulong ? 3819瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

Aceryt ? 3766瀏覽 ? 0回復(fù)
怎么提升向量數(shù)據(jù)庫(kù)的召回準(zhǔn)確率

AI探索時(shí)代 ? 4516瀏覽 ? 0回復(fù)
微軟開(kāi)源最強(qiáng)小模型Phi-4，超GPT-4o、可商用

Aceryt ? 3836瀏覽 ? 0回復(fù)
Graph RAG 迎來(lái)記憶革命：“海馬體”機(jī)制如何提升準(zhǔn)確率？

凝固的雨_1 ? 4590瀏覽 ? 0回復(fù)
MES-RAG：準(zhǔn)確率提升 25%！

大語(yǔ)言模型論文跟蹤 ? 2452瀏覽 ? 0回復(fù)
清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 5334瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開(kāi)源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開(kāi)源DeepEP通信庫(kù)，千億MoE訓(xùn)推顛覆級(jí)創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門(mén)推薦

用 Cognee 構(gòu)建端到端知識(shí)圖譜，實(shí)現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)

2025 年最強(qiáng) OCR 大比拼：從識(shí)別文本到文檔智能，誰(shuí)才是終極解法？ 0回復(fù)

8%價(jià)格，2倍速度！國(guó)產(chǎn)MiniMax M2暴打Claude Sonnet 4.5？我們實(shí)測(cè)后發(fā)現(xiàn)堪稱性價(jià)比之王！ 0回復(fù)

上一篇： Midjourney V6.1再進(jìn)化！人像逼真細(xì)節(jié)拉滿，攝影級(jí)畫(huà)面秒生成

下一篇： OpenAI版終結(jié)者降臨！地表最強(qiáng)機(jī)器人Figure 02問(wèn)世，進(jìn)寶馬狂飆20小時(shí)

社區(qū)精華內(nèi)容

目錄

国产精品久久久久免费a∨| 亚洲第一男人天堂| 夜夜嗨av一区二区三区网页| 久久精品国产2020观看福利| 先锋资源在线视频| 绿色成人影院| 国产精品美女久久久久久久网站| 亚洲自拍偷拍区| 国产午夜性春猛交ⅹxxx| 成人午夜国产| 亚洲国产一区二区三区四区| 色播五月综合网| 97天天综合网| 中文字幕制服丝袜成人av | 亚洲欧美在线一区二区| 九九九九九国产| 日韩伦理在线一区| 樱桃视频在线观看一区| 日韩偷拍一区二区| 熟妇高潮一区二区高潮| 国产主播一区二区| 国产极品jizzhd欧美| 久久久久亚洲av片无码下载蜜桃| 国产成人影院| 亚洲国产精品人久久电影| 中文字幕中文在线| 亚洲高清黄色| 精品国产91久久久久久| 国产日产欧美一区二区| 国产露出视频在线观看| av在线播放不卡| 亚洲一区二区三区视频| 最近中文字幕在线观看视频| 午夜在线一区| 97视频色精品| 亚洲精品午夜久久久久久久| 一区二区影视| 久久色在线播放| 久久精品日韩无码| 日韩精品一卡| 日韩成人激情| 午夜久久久久久| 欧美a级免费视频| 国产成人在线视频免费观看| 国产精品免费av| 欧美午夜精品久久久久免费视| 午夜视频福利在线观看| 国产999精品久久| 97se亚洲综合| 国产极品久久久| 国产一区二区在线观看免费| 亚洲free性xxxx护士白浆| 在线免费观看av片| 久久国产精品一区二区| 成人激情视频在线| 97人妻一区二区精品免费视频| 蓝色福利精品导航| 成人午夜黄色影院| av一区二区三| 成人网页在线观看| 久久久久久精| 国产片在线观看| 中文字幕乱码亚洲精品一区| 亚洲午夜精品久久久中文影院av| 在线视频91p| 亚洲欧洲精品一区二区三区不卡| 亚洲最新免费视频| 50度灰在线| 亚洲丶国产丶欧美一区二区三区| 波多野结衣综合网| 成人亚洲欧美| 欧美日韩国产精选| 色男人天堂av| 欧美电影完整版在线观看| 精品亚洲精品福利线在观看| 免费看黄色av| 午夜影院欧美| 国模叶桐国产精品一区| 亚洲影院在线播放| 免费在线看成人av| 亚洲综合在线播放| 天天操天天干天天插| 18+激情视频在线| 国产精品观看| 欧美在线视频播放| 在线免费av网| 成人精品电影在线观看| 美国av一区二区三区| 77导航福利在线| 一区二区三区四区在线播放| 六月丁香婷婷激情| 日韩一级特黄| 亚洲成年网站在线观看| 国产人妻大战黑人20p| 午夜久久免费观看| 欧美在线观看网站| 亚洲一区二区三区高清视频| 东方欧美亚洲色图在线| 色噜噜一区二区| 精品精品导航| 欧美日韩精品电影| 少妇一级淫片免费放播放| 精品国产123区| 久久久免费精品视频| 最新中文字幕免费| jizz一区二区| 正义之心1992免费观看全集完整版| 男人天堂亚洲天堂| 欧美日韩一区二区欧美激情 | 成人综合激情网| 日韩精品久久久毛片一区二区| 直接在线观看的三级网址| 色婷婷一区二区三区四区| 亚洲国产综合av| 日本a口亚洲| 26uuu亚洲国产精品| 国产美女精品视频国产| 久久综合久色欧美综合狠狠| 蜜臀av性久久久久蜜臀av| 性欧美gay| 亚洲国产欧美一区二区三区同亚洲| 国精产品久拍自产在线网站| 美女久久网站| 麻豆av福利av久久av| 欧美xxxx免费虐| 美女一区二区视频| 91精品免费观看| 黑丝av在线播放| 合欧美一区二区三区| 成人黄色短视频在线观看 | 国产亚洲欧洲在线| 国产精品久久久免费视频| 国产成人自拍在线| 中文字幕日韩一区二区三区| 在线一区视频观看| 亚洲午夜女主播在线直播| 国产精品黄色网| av在线不卡网| 福利视频一二区| 久久黄色影视| 97精品国产97久久久久久免费| 亚洲高清视频在线播放| 亚洲免费毛片网站| 无码人妻一区二区三区在线视频| 欧美电影《轻佻寡妇》| 国产精品久久av| 91最新在线| 欧美日本在线视频| 久久精品日韩无码| 国产一区在线观看麻豆| 欧美少妇在线观看| 五月亚洲婷婷| 欧美日韩国产91| 欧美日韩国产在线| 亚洲一区二区精品久久av| 久久久久久久穴| 精久久久久久| 久久精品magnetxturnbtih| 手机av在线| 日韩精品免费视频| 日韩国产成人在线| 国产精品你懂的在线| 中文字幕线观看| 欧美日韩亚洲一区| 国产综合动作在线观看| 在线日韩影院| 日韩在线观看视频免费| jlzzjlzzjlzz亚洲人| 亚洲第一狼人社区| 亚洲第一香蕉网| 免费成人美女在线观看| 免费成人深夜夜行网站视频| 国产农村妇女精品一区| 国产一区日韩| 国产精品自产拍高潮在线观看| 日本a在线播放| 日韩欧美你懂的| 欧美一区二区三区四| 国产午夜精品久久久久久久 | 国产一区二区三区在线观看精品| 黄色一级片国产| 精品淫伦v久久水蜜桃| 日本乱人伦a精品| 免费a级毛片在线播放| 精品日产卡一卡二卡麻豆| 欧美a∨亚洲欧美亚洲| 国产精品成人在线观看| 99久久久无码国产精品性波多 | 国产91九色视频| 免费看a在线观看| 亚洲黄在线观看| 无码人妻丰满熟妇精品区| 亚洲欧美日韩电影| 日韩一级视频在线观看| 精品一区二区三区视频 | 欧美成人手机视频| 久久久夜色精品亚洲| 激情成人在线观看| 视频精品一区二区| 大胆欧美熟妇xx| 欧美日韩水蜜桃| 国产一区免费视频| 亚洲伦理网站| 国产成人精品日本亚洲专区61| 成年人黄视频在线观看| 国产视频自拍一区| 亚洲经典一区二区| 欧美三级一区二区| 五月天综合激情网| 洋洋av久久久久久久一区| www..com.cn蕾丝视频在线观看免费版| 国产成人精品亚洲午夜麻豆| 亚洲一区二区三区四区五区xx| 亚洲日韩成人| 久久免费一级片| 色天天久久综合婷婷女18| 久久精品国产第一区二区三区最新章节| 中文字幕人妻互换av久久| 亚洲精品中文字幕乱码| 欧洲久久久久久| 久久影视三级福利片| 3d精品h动漫啪啪一区二区 | 日本福利一区二区| 中文字幕亚洲精品在线| 亚洲影院在线观看| 久久高清内射无套| 中文字幕中文字幕一区| 免费看91的网站| 久久你懂得1024| 国产福利短视频| 成人福利视频在线看| 天天干天天曰天天操| 精品一区二区三区在线播放视频| 青青艹视频在线| 99国产精品视频免费观看一公开 | 不卡影院免费观看| 美女搡bbb又爽又猛又黄www| 国产精品88888| 国产精品中文久久久久久| 国产一区亚洲一区| 亚洲av无一区二区三区久久| 寂寞少妇一区二区三区| 午夜一区二区视频| 九色porny丨国产精品| 中文字幕资源在线观看| 极品少妇xxxx精品少妇偷拍| 爽爽爽在线观看| 激情av综合网| 亚洲成人激情小说| 成人精品视频一区二区三区尤物| 欧美激情一区二区三区p站| 成人国产免费视频| 国产黄色三级网站| 久久久综合精品| 先锋影音av在线| 亚洲欧洲精品一区二区三区不卡| 亚洲熟女毛茸茸| 一区二区理论电影在线观看| 久久久久久国产精品视频| 亚洲一区免费视频| 久久国产视频一区| 欧美日韩一区国产| 精品国产亚洲av麻豆| 亚洲国产精品va在线观看黑人| 亚洲人在线观看视频| 亚洲欧洲免费视频| 国精品人伦一区二区三区蜜桃| 免费福利视频一区| 久久一区二区三区av| 精品久久美女| 欧美a级黄色大片| 在线亚洲自拍| 日韩av在线中文| 国产91在线|亚洲| 中文字幕免费看| 亚洲欧美经典视频| 在线观看黄网站| 欧美精品1区2区3区| 免费成人在线看| 中文字幕亚洲欧美日韩在线不卡| 八戒八戒神马在线电影| 欧美中文在线免费| 91精品国产一区二区在线观看 | 成人高清电影网站| 91免费版看片| 日韩中文字幕一区二区三区| 日本黄色www| 国产欧美中文在线| 妺妺窝人体色www聚色窝仙踪| 欧美性猛交xxxxx免费看| 国产又爽又黄免费软件| 亚洲成人亚洲激情| 色开心亚洲综合| 午夜精品一区二区三区在线| 午夜不卡一区| 久久综合色一本| 欧美日韩国产在线一区| 亚洲精品高清无码视频| 国产成人综合在线播放| 国产一级久久久久毛片精品| 亚洲国产欧美在线人成| 亚洲天堂中文字幕在线| 日韩精品视频在线观看网址 | 一区二区在线电影| 日本视频免费观看| 精品久久国产字幕高潮| 最近高清中文在线字幕在线观看| 97视频免费在线看| 欧州一区二区三区| 色乱码一区二区三在线看| 国产精品久久久久9999高清| 波多野结衣电影免费观看| 亚洲国产成人在线| 99精品人妻国产毛片| 欧美精品一区二区三区很污很色的| 久热国产在线| 国产精品成人久久久久| 亚洲97av| 国产毛片视频网站| 国产99久久久精品| 国产精品免费人成网站酒店| 在线免费观看日本欧美| 天天干天天操av| 久久人人爽人人爽人人片av高清| 91亚洲精品在看在线观看高清| 视频一区二区三| 久久一区激情| 欧美日韩国产影片| www.五月婷婷.com| 日韩av在线影院| 日韩伦理av| ts人妖另类在线| 欧美日韩亚洲一区在线观看| 伊人五月天婷婷| 亚洲欧美偷拍另类a∨色屁股| 在线视频中文字幕| 中文字幕一精品亚洲无线一区 | 久久九九电影| 日本免费福利视频| 欧美性xxxx18| 你懂的免费在线观看视频网站| 性欧美在线看片a免费观看| 国产精品天天看天天狠| 国产精品国产对白熟妇| 成人午夜电影网站| 久久一二三四区| 亚洲第一区中文99精品| 免费污视频在线| 国产日韩三区| 亚洲欧美久久久| 国产精品国产三级国产专业不 | 超级砰砰砰97免费观看最新一期| 亚洲丝袜另类动漫二区| 精品国产伦一区二区三| 欧美激情中文字幕在线| 中文字幕一区日韩精品| 国产九色porny| 久久视频一区二区| 国产精品无码粉嫩小泬| 精品国产欧美一区二区三区成人| 大胆国模一区二区三区| 99久久久精品视频| 99视频在线观看一区三区| 亚洲天堂av片| 中文字幕在线精品| 成人自拍视频| 3d动漫一区二区三区| 久久精品人人爽人人爽| 一本到在线视频| 欧美精品电影在线| 国产不卡一区| 想看黄色一级片| 亚洲一区在线观看视频| 国产在线小视频| 91在线观看免费| 亚洲一区二区三区高清不卡| 国产精品成人在线视频| 日韩一区二区在线观看视频播放| av在线播放资源| 亚洲精品美女久久7777777| 国产乱国产乱300精品| 国产综合色一区二区三区| 欧美区一区二区| 人妻有码中文字幕| 中文字幕在线不卡| 先锋av资源站| 成人福利视频网| 国产欧美日本| 男人的午夜天堂| 亚洲精品视频在线播放| 亚洲欧美专区| 欧美一级黄色片视频| 亚洲品质自拍视频网站| 日本v片在线免费观看| 91理论片午午论夜理片久久| 国产毛片久久| 九九热国产精品视频| 在线日韩精品视频| 国内精品偷拍| 亚洲在线观看网站|