精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

指令跟隨大比拼!Meta發布多輪多語言基準Multi-IF:覆蓋8種語言,超4500種任務

人工智能 新聞
Meta全新發布的基準Multi-IF涵蓋八種語言、4501個三輪對話任務,全面揭示了當前LLM在復雜多輪、多語言場景中的挑戰。所有模型在多輪對話中表現顯著衰減,表現最佳的o1-preview模型在三輪對話的準確率從87.7%下降到70.7%;在非拉丁文字語言上,所有模型的表現顯著弱于英語。

在大語言模型(LLMs)不斷發展的背景下,如何評估這些模型在多輪對話和多語言環境下的指令遵循(instruction following)能力,成為一個重要的研究方向。

現有評估基準多集中于單輪對話和單語言任務,難以揭示復雜場景中的模型表現。

最近,Meta GenAI團隊發布了一個全新基準Multi-IF,專門用于評估LLM在多輪對話和多語言指令遵循(instruction following)中的表現,包含了4501個三輪對話的多語言指令任務,覆蓋英語、中文、法語、俄語等八種語言,以全面測試模型在多輪、跨語言場景下的指令執行能力。

圖片

論文鏈接:https://arxiv.org/abs/2410.15553

Multi-IF下載鏈接:https://huggingface.co/datasets/facebook/Multi-IF

實驗結果表明,多數LLM在多輪對話中表現出顯著的性能衰減。

例如,表現最佳的o1-preview模型在第一輪指令的平均準確率為87.7%,但到第三輪下降至70.7%

此外,非拉丁文字語言(如印地語、俄語和中文)的錯誤率明顯更高,反映出模型在多語言任務中的局限性。這些發現展示了當前LLM在處理復雜多輪和多語言指令任務上的挑戰和改進空間。

Multi-IF的發布為研究人員提供了更具挑戰性的評估基準,有望推動LLM在全球化、多語言應用中的發展。

數據集構建

Multi-IF數據集的構建過程經過了多輪精細的設計和篩選,既有模型也有人類專家的參與。

多輪擴展

首先,研究團隊基于已有的單輪指令遵循數據集IFEval,將每個單輪指令擴展為多輪指令序列。通過隨機采樣和模型生成,研究團隊為每個初始指令增加了兩輪新指令,形成一個完整的三輪對話場景。

首先隨機采樣一個指令類型(Intruction Type)比如「字數限制」、「限制輸出格式為列表」、「添加特定關鍵短語」等等,然后將之前的指令和這個指令類型提供給語言模型,讓它生成一個符合上下文的指令,比如「旅行計劃不超過400詞」;隨機采樣可能導致指令之間存在沖突。

為了確保多輪指令的邏輯一致性和層次遞進性,研究團隊設計了一套兩步沖突過濾機制:

1. 模型過濾:使用Llama 3.1 405B模型自動檢測可能存在矛盾的指令組合。例如,如果第一輪要求生成詳細描述,而第二輪要求簡潔總結,這種沖突指令會被篩選出來。

2. 人工審核:在初步過濾后,團隊通過人工標注對指令進行細化和調整,以確保每一輪指令既具有挑戰性又保持邏輯連貫。

多語言擴展

為了提高數據集的多語言適用性,研究團隊采用了以下方法將數據集從英文擴展至多語言版本:

1. 自動翻譯:使用Llama 3.1 405B模型將原始英語指令翻譯為中文、法語、俄語、印地語、西班牙語、意大利語和葡萄牙語七種語言。

2. 人工校對:翻譯結果經過語言專家的人工審校,以確保在語義和語法上貼合各語言的自然使用習慣,同時消除因翻譯可能帶來的歧義或誤導。

這一多輪擴展和多語言適配的構建流程,使Multi-IF成為全面評估LLM指令遵循能力的強大工具。

圖片

總體實驗結果

在Multi-IF基準上,Meta團隊對14種最先進的大語言模型(LLMs)進行了評估,涵蓋了OpenAI的o1-preview、o1-mini,GPT-4o,Llama 3.1(8B、70B和405B),Gemini 1.5系列,Claude 3系列,Qwen-2.5 72B,以及Mistral Large等。

實驗顯示,整體上o1-preview和Llama 3.1 405B表現最佳,在平均準確率上領先其他模型。特別是在多輪指令任務中,o1-preview和Llama 3.1 405B模型在三輪指令的平均準確率分別為78.9%和78.1%,展現了較高的指令遵循能力。

圖片

多輪對話中的指令遵循

實驗表明,所有模型在多輪對話中的指令遵循準確率隨著輪次增加而顯著下降。這種下降在某些模型中尤為明顯,如Qwen-2.5 72B在第一輪準確率較高,但在后續輪次中的表現迅速下滑。

相比之下,o1-preview和Llama 3.1 405B在多輪任務中的準確率相對穩定,展現出較強的持續指令遵循能力??傮w而言,這些結果說明,多輪對話對當前LLM構成了較大挑戰,模型在多輪次中遵循指令的能力有待提高。

圖片

多輪對話中的指令遺忘

在多輪對話中,模型往往出現「指令遺忘」現象,即在后續輪次中未能遵循前一輪成功執行的指令,研究團隊引入了「指令遺忘率」(Instruction Forgetting Ratio, IFR)來量化這種現象。

IFR值表明,高性能模型如o1-preview和Llama 3.1 405B在多輪對話中的遺忘率相對較低,而有些模型比如Gemini在IFR值上明顯偏高,表現出較高的指令遺忘傾向。

圖片

此外,對于Llama 3.1系列模型,隨著模型規模從8B擴展到405B,其指令遺忘率(即IFR)逐漸降低。這表明,增大模型規模可以有效提升其在多輪對話中保持指令一致性的能力。

多輪對話中的自我糾正

模型在多輪任務中是否能夠糾正之前的錯誤也是一個重要的性能衡量標準,實驗通過計算「錯誤自我修正率」(Error Correction Ratio, ECR)來評估這一能力。

結果顯示,o1-preview和o1-mini在錯誤自我修正方面表現突出,能夠在后續輪次中糾正約25%的之前未遵循的指令。這些模型似乎能夠利用某種“反思”能力來提高指令執行的水平。

圖片

相比之下,其他模型在自我修正方面表現一般,這一結果表明,具備反思能力的模型在多輪任務中能夠更好地處理錯誤并提升指令遵循的穩定性。 

多語言指令遵循

在多語言環境下,模型的指令遵循能力表現出顯著的語言差異。實驗顯示,英語的指令執行準確率普遍最高,尤其是在Llama 3.1 405B模型上,英語準確率接近0.85。法語和意大利語的表現也較為接近英語,而俄語、印地語和中文等非拉丁文字的準確率則明顯較低。

例如,o1-preview模型在俄語和印地語中的準確率低于其在英語、法語等語言中的表現??傮w而言,非拉丁文字語言的錯誤率高于拉丁文字語言,這在多語言指令任務中尤為突出。

實驗結果還表明,不同模型在多語言指令遵循中的表現存在一定差異。o1-preview在所有語言中的表現相對穩定,并在中文、西班牙語、意大利語和印地語中稍勝Llama 3.1 405B,而GPT-4o的表現則略遜于前兩者。

圖片

平均而言,非拉丁文字的語言往往會出現更高的指令遵循錯誤,表明當前模型在多語言環境,尤其是對非拉丁文字的支持方面,仍有提升空間。

這些結果反映出,盡管現有的先進LLM在多語言任務上已經展現出一定的能力,但在處理俄語、印地語和中文等非拉丁文字語言的指令遵循任務時仍存在明顯的局限性。這也為未來多語言模型的改進指出了明確的方向。 

結論

綜上所述,Multi-IF基準通過多輪對話和多語言環境的復雜指令任務,揭示了當前大語言模型在指令遵循能力上的不足之處。

實驗結果表明,多數模型在多輪任務中存在準確率下降和指令遺忘的問題,且在非拉丁文字的多語言任務中表現較差。Multi-IF為進一步提升LLM的多輪對話和跨語言指令遵循能力提供了重要的參考。

作者介紹

圖片

通訊作者Yun He(賀赟)是Meta GenAI團隊的一名研究科學家,博士畢業于Texas A&M University,專注于大語言模型Post-training的研究和應用。

他的主要研究方向包括指令跟隨(instruction following)、推理能力(Reasoning)以及工具使用(tool usage),旨在推動大語音模型在復雜多輪對話中的表現。

圖片

共同一作金帝是Meta GenAI Senior Research Scientist,負責Meta AI Agentic Code Execution和Data Analysis方向,博士畢業于MIT。主要研究方向為大模型后訓練對齊(RLHF,Alignment),模型推(Model Reasoning),和大模型智能體(Agent)方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-23 14:14:14

技術模型

2025-07-10 01:00:00

編程語言PythonJava

2010-12-13 17:12:31

2011-09-21 17:56:07

2009-07-24 16:51:12

ASP.NET論壇程序

2023-09-04 19:19:36

語言模型LLM

2011-01-19 11:10:30

2010-03-18 14:54:46

主流無線技術

2009-11-16 09:05:47

PostgreSQLInnoDB多版本并發控制

2009-07-17 10:36:28

2010-07-14 13:38:51

Perl開發工具

2020-08-04 17:06:40

Merging Rebasing Git

2017-09-10 14:29:03

眼力

2014-01-07 17:08:02

Java開源框架

2010-09-08 15:41:28

SIP協議棧

2010-05-28 11:09:51

SVN功能

2011-11-08 10:29:44

2021-03-15 21:07:17

IT行業薪酬薪水

2010-08-25 16:12:34

職場

2023-05-26 15:53:48

MidjourneyAI圖像
點贊
收藏

51CTO技術棧公眾號

娇妻高潮浓精白浆xxⅹ| 一区二区精品免费视频| 国产无遮挡呻吟娇喘视频| 亚洲人成精品久久久| 欧美日韩午夜在线| 九九久久九九久久| 精品乱码一区二区三四区视频 | 69久久夜色精品国产69乱青草| 美国黄色一级毛片| 成 人 免费 黄 色| 新版中文在线官网| 99在线精品视频| 国产日韩在线观看av| 日韩和一区二区| 久久久久亚洲| 亚洲欧美精品一区| 丰满少妇中文字幕| 亚洲国产尤物| 午夜视频在线观看一区二区 | 雨宫琴音一区二区三区| 国产视频欧美视频| 无码人妻一区二区三区在线视频| 电影一区二区三| 亚洲一区在线视频| 亚洲精品中文字幕乱码三区不卡| 少妇高潮久久久| 韩国欧美一区二区| 国产精品黄色影片导航在线观看| 日韩精品一区二区不卡| 亚洲激情中文| 日韩在线中文字| 欧美一级片黄色| 精品中文字幕一区二区三区| 欧美天堂一区二区三区| 日本三级免费网站| 暖暖在线中文免费日本| 综合欧美一区二区三区| 婷婷久久青草热一区二区| 四虎免费在线观看| 高清成人免费视频| 成人区精品一区二区| 国产乱淫av片免费| 久久 天天综合| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 日韩精品一线二线三线| 内射后入在线观看一区| 精品人妻午夜一区二区三区四区 | 久久精品99久久久香蕉| 五月天精品视频| 久久99视频| 精品视频偷偷看在线观看| xxxxxx黄色| 黑色丝袜福利片av久久| 欧美精品一区二区在线观看| 精品国产aⅴ一区二区三区东京热| 国产精区一区二区| 日韩午夜激情免费电影| 久久国产免费视频| 欧美理论电影在线精品| 亚洲精品福利在线观看| 亚洲精品乱码久久久久久不卡| 久久97精品| 日韩电影大全免费观看2023年上| 国产肉体xxxx裸体784大胆| 香蕉精品久久| 在线亚洲欧美视频| 老熟妻内射精品一区| 欧美在线日韩| 久久久免费高清电视剧观看| 欧美日韩精品区| 久久三级视频| 成人免费在线视频观看| 国产视色精品亚洲一区二区| 深夜福利免费在线观看| 久久久久国产一区二区三区四区| 亚洲精品白虎| 亚洲资源一区| 精品久久久久久中文字幕| 男人天堂999| 成人国产精品入口免费视频| 日韩欧美一区二区免费| 日本免费福利视频| 欧美hentaied在线观看| 欧美精品一区三区| 日韩久久中文字幕| 久久91精品久久久久久秒播| 99久久一区三区四区免费| 无码国产精品高潮久久99| 国产片一区二区| 51xx午夜影福利| 一区二区乱码| 精品一区91| 欧美在线观看一二区| 国产高清999| 色橹橹欧美在线观看视频高清| 在线观看精品自拍私拍| 免费中文字幕视频| 日韩国产欧美在线观看| 国产传媒一区二区| aⅴ在线视频男人的天堂| 一区二区三区不卡在线观看| 日韩在线xxx| aiai久久| 久久久精品日本| 国产精品第5页| 国产河南妇女毛片精品久久久| 欧美精品一区三区在线观看| 色呦呦在线看| 欧美日韩精品二区第二页| 一边摸一边做爽的视频17国产| 四季av一区二区凹凸精品| 欧日韩在线观看| 亚洲欧美另类综合| 国产精品第13页| 久久国产色av免费观看| 波多野结衣欧美| 久久久精品亚洲| 999视频在线| 97精品久久久午夜一区二区三区| 992tv成人免费观看| av成人亚洲| 亚洲理论在线a中文字幕| 久草免费在线视频观看| 精品亚洲成av人在线观看| 日本欧美精品久久久| a在线视频v视频| 欧美成人精品3d动漫h| 强制高潮抽搐sm调教高h| 久久av最新网址| 久久国产日韩欧美| 俄罗斯一级**毛片在线播放| 91精品国产综合久久福利软件 | 91精品国产免费久久久久久 | 亚洲欧洲第一视频| 日本熟女一区二区| 国产99久久久国产精品| 男人日女人的bb| 欧美激情精品| 久久中文字幕一区| 国产又色又爽又黄又免费| 国产精品卡一卡二卡三| 国产理论在线播放| 精品亚洲成人| 国产精品av在线| 搞黄视频在线观看| 日本精品免费观看高清观看| 国内精品久久99人妻无码| 国产欧美短视频| 蜜桃在线一区二区三区精品| 亚洲午夜天堂| 亚洲美女自拍视频| 日日夜夜狠狠操| 国产免费成人在线视频| 色综合色综合色综合色综合| 日韩精品dvd| 成人日韩av在线| 亚洲丝袜精品| 亚洲第一偷拍网| 午夜毛片在线观看| 国产丝袜美腿一区二区三区| 国产又猛又黄的视频| 97精品国产| 91亚洲人电影| 波多野结衣乳巨码无在线观看| 亚洲аv电影天堂网| 黑人一级大毛片| 国产网站一区二区三区| 奇米视频7777| 好看的亚洲午夜视频在线| 精品国产一区二区三| 免费日韩电影| 色偷偷9999www| 亚洲第九十九页| 黑人巨大精品欧美一区二区三区| 免费污网站在线观看| 美女视频黄久久| 亚洲色欲久久久综合网东京热| 欧美精品中文| 国产精品中文在线| 欧美1234区| 国产小视频91| 国产夫绿帽单男3p精品视频| 天天操天天干天天综合网| 精品人妻一区二区三区四区| 国产尤物一区二区| 又粗又黑又大的吊av| 欧美色婷婷久久99精品红桃| 亚洲专区在线视频| 综合另类专区| 久热在线中文字幕色999舞| 日本黄色三级视频| 欧美性色综合网| 久久久久99精品| 日本一二三不卡| 成人做爰www看视频软件| 日av在线不卡| 加勒比成人在线| 国产精品7m凸凹视频分类| 精品久久久三级| 国产午夜精品一区在线观看| 欧洲一区二区视频| 色婷婷在线播放| 丝袜情趣国产精品| 日韩欧美电影在线观看| 欧美一区二区三区免费视频| 中文字幕一区二区三区四区欧美| 一区二区在线观看不卡| 中文字幕伦理片| 久久综合狠狠综合久久综合88| 亚洲AV无码久久精品国产一区| 久久综合伊人| 成人午夜视频在线观看免费| 国产精品久久久乱弄| 欧美一区二区在线视频观看| 国产精品nxnn| 亚洲一区二区三区香蕉| 8av国产精品爽爽ⅴa在线观看 | 中文字幕不卡每日更新1区2区| 日韩av字幕| 鬼打鬼之黄金道士1992林正英| 黄色日韩网站| 国产成人涩涩涩视频在线观看 | 国产天堂在线| 亚洲精品一区在线观看香蕉| 国模无码一区二区三区| 91精品国产美女浴室洗澡无遮挡| 五月婷婷六月婷婷| 欧美特黄级在线| 午夜毛片在线观看| 精品人伦一区二区三区蜜桃网站 | 欧美乱熟臀69xxxxxx| 99久久久无码国产精品免费蜜柚| 福利视频第一区| 精品成人久久久| 亚洲第一福利一区| 国产亚洲精品久久久久久无几年桃 | 亚洲欧美卡通动漫| 欧美国产精品专区| 亚洲第一视频区| 亚洲国产成人私人影院tom| 亚洲人成人无码网www国产| 久久综合色之久久综合| 短视频在线观看| 久久精品一区二区三区av| 国产黄色网址在线观看| 久久久久久毛片| 免费看91的网站| 国产精品看片你懂得| 影音先锋男人资源在线观看| 中文字幕在线观看一区二区| 最新av电影网站| 亚洲免费av在线| 国产一级一级片| 精品女厕一区二区三区| 九九热在线免费观看| 色视频欧美一区二区三区| 成人黄色三级视频| 欧美日韩精品一区二区三区蜜桃| 国产精品怡红院| 精品蜜桃在线看| 人妻少妇精品无码专区| 日韩大片免费观看视频播放| 韩国福利在线| 综合网日日天干夜夜久久| 免费av网站在线观看| 久久91精品国产91久久跳| av中文字幕在线看| 国产精品99久久久久久www| 成人51免费| 国产一区高清视频| 国产毛片一区二区三区| 一级黄色录像免费看| 激情综合网址| 亚洲中文字幕无码中文字| 蜜臀av性久久久久蜜臀aⅴ四虎| 久久精品视频在线观看免费| 成人久久久精品乱码一区二区三区| 六十路息与子猛烈交尾| 欧美激情一区二区三区四区| 麻豆changesxxx国产| 大荫蒂欧美视频另类xxxx| 亚洲一卡二卡在线| 亚洲高清一区二| yw视频在线观看| 高清在线视频日韩欧美| 精品123区| 99在线看视频| 区一区二视频| www.99热这里只有精品| 免费av网站大全久久| youjizz.com日本| 国产精品乱码一区二三区小蝌蚪| 国产成人精品av久久| 欧美亚洲国产一区在线观看网站| www.欧美国产| 中文字幕综合在线| 一区二区精品伦理...| 亚洲一区二区三区毛片| 精品欧美激情在线观看| 男人插女人视频在线观看| 精品在线播放免费| a视频免费观看| 一区二区激情视频| 中文字幕一区2区3区| 日韩精品亚洲精品| 日本欧美电影在线观看| 国产精品中文在线| 国产传媒欧美日韩成人精品大片| 成人一区二区av| 久久国产精品露脸对白| 国产真实乱人偷精品人妻| 亚洲国产欧美日韩另类综合| 伊人久久国产精品| 亚洲欧美在线免费| 草草在线视频| 懂色av一区二区三区在线播放| 欧美oldwomenvideos| 男人天堂成人在线| 91蜜桃在线免费视频| 国产午夜精品无码| 欧美一区二区三区免费观看视频| 3d成人动漫在线| 国产激情999| 国产成人三级| 国产乱子伦农村叉叉叉| 成人免费观看男女羞羞视频| a级片在线观看免费| 7777精品伊人久久久大香线蕉的| 九色在线播放| 日本精品久久久久久久| 日韩极品少妇| 国产成人在线免费看| 99这里都是精品| 日韩精品1区2区| 亚洲激情视频在线观看| 超级白嫩亚洲国产第一| 国产精品美女黄网| 黄色精品一区| jlzzjizz在线播放观看| 香蕉加勒比综合久久| 日本免费一区视频| 2018日韩中文字幕| 日韩超碰人人爽人人做人人添 | 久久国产精品色婷婷| 亚洲ⅴ国产v天堂a无码二区| 91福利区一区二区三区| 黄视频在线观看免费| 国产精品7m视频| 第一会所sis001亚洲| 最新天堂中文在线| 日韩一区欧美小说| 精品人妻一区二区三区浪潮在线| 久久福利视频网| 成人爽a毛片| 99精品在线免费视频| 久久网站最新地址| 中文字幕久久久久| 久久精品中文字幕电影| 免费精品一区二区三区在线观看| youjizz.com在线观看| 成人污视频在线观看| 国产微拍精品一区| 一本色道久久综合亚洲精品小说 | 午夜av在线免费观看| 国产精品区二区三区日本| 国产视频久久| 91精品国自产在线| 在线播放91灌醉迷j高跟美女 | 国产精品高潮呻吟久久av无限| 日韩欧美高清| 国产精品久久久久野外| 五月婷婷综合网| 国产高清视频在线| 亚洲www在线观看| 亚洲免费播放| 黄色国产在线播放| 欧美成人bangbros| 国产伦精品一区二区三区视频金莲| 日韩精品久久久免费观看 | 91精品入口蜜桃| 老鸭窝亚洲一区二区三区| 国精产品视频一二二区| 亚洲电影av在线| 久久免费资源| 水蜜桃色314在线观看| 国产欧美日韩中文久久| 成人激情四射网| 国产精品成人久久久久| 欧美三级午夜理伦三级中文幕| 亚洲欧美色图视频| 在线播放国产精品二区一二区四区| 成年男女免费视频网站不卡| 亚洲激情电影在线| 本田岬高潮一区二区三区| 69视频免费看| 高清欧美性猛交xxxx黑人猛交| 日韩久久久久| 最近中文字幕无免费| 91精品国产综合久久久久久漫画 | 97视频资源在线观看|