精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4完成正確率僅6%!北大等提出首個(gè)「多輪、多模態(tài)」PPT任務(wù)完成基準(zhǔn)PPTC

人工智能 新聞
為了填補(bǔ)LLM在復(fù)雜多模態(tài)環(huán)境中利用復(fù)雜工具完成多輪、多模態(tài)指令的評(píng)估空白,研究人員引入了PowerPoint任務(wù)完成(PPTC)基準(zhǔn)測(cè)試,以評(píng)估LLM創(chuàng)建和編輯PPT文檔的能力。

最近對(duì)大型語言模型(例如ChatGPT和GPT-4)進(jìn)行的評(píng)估工作主要側(cè)重于在基本自然語言任務(wù)上的能力,以及模型生成用于解決單句用戶指令的API的工具使用能力,卻忽略了在理解復(fù)雜多模態(tài)環(huán)境中使用API完成用戶指令的難題。

此外,現(xiàn)有評(píng)估方法主要集中在比較生成的API與標(biāo)簽API序列,但在存在多個(gè)/無限正確解決方案的復(fù)雜情況下,這種方法也變得不再適用。

為了解決這個(gè)挑戰(zhàn),來自北大和微軟亞洲研究院的研究人員們提出了測(cè)試大模型在多輪,多模態(tài)環(huán)境下完成PPT任務(wù)的評(píng)估數(shù)據(jù)集PPTC(PowerPoint Task Completion)。

論文地址:http://arxiv.org/abs/2311.01767

開源項(xiàng)目:https://github.com/gydpku/PPTC

如圖1(a)所示,為了幫助用戶完成對(duì)PPT文檔的創(chuàng)建和編輯,研究人員采取多輪人機(jī)對(duì)話的形式來構(gòu)建數(shù)據(jù)集。

==

圖1:(a)模擬了人類與語言模型之間的多輪對(duì)話場(chǎng)景,以評(píng)估語言模型在PPT任務(wù)完成性能方面的表現(xiàn)。(b)對(duì)話單元的輪次數(shù)量分布。

每輪開始于用戶的指令,大模型需要生成對(duì)應(yīng)的API序列作為解決方法,執(zhí)行并返回生成的PPT文檔給用戶。

數(shù)據(jù)集中一共有279個(gè)像這樣的多輪對(duì)話單元,如圖1(b)所示,大部分單元由3到10對(duì)話輪次組成。

更進(jìn)一步,如圖2(a)所示,數(shù)據(jù)集中包含各種難度的用戶指令(由所需API數(shù)量決定),如數(shù)百個(gè)涉及到統(tǒng)計(jì)圖表、表格、圖像、空間位置相關(guān)多模態(tài)操作的指令。

圖2:(a)指令所需最少API數(shù)量分布。(b)涉及到統(tǒng)計(jì)圖表,表格,圖片和位置操作的用戶指令數(shù)量。

生成和執(zhí)行API序列

為了完成每輪用戶的指令,研究人員主要考慮:

  1. 當(dāng)前輪次的用戶指令
  2. 之前輪次的用戶指令(對(duì)話歷史)
  3. PPT文檔(環(huán)境信息)
  4. 可使用的API列表作為大模型輸入,prompt大模型生成對(duì)應(yīng)的API序列作為解決方案。

圖3:一個(gè)會(huì)話單元中語言模型如何完成一個(gè)輪次。(A)用當(dāng)前的指令、之前的指令(對(duì)話歷史)、PPT文件內(nèi)容以及API參考文件作為輸入prompt大模型。(B)然后,語言模型生成API序列并執(zhí)行它,以獲取預(yù)測(cè)的PPT文件。(C)評(píng)估預(yù)測(cè)文件中的屬性和位置關(guān)系

為了方便大模型處理信息,研究人員提供一個(gè)PPT文檔讀取函數(shù)來將多模態(tài)文檔轉(zhuǎn)化為文字形式的文檔內(nèi)容,以及一個(gè)API執(zhí)行函數(shù)來自動(dòng)執(zhí)行大模型生成的API序列,從而生成對(duì)應(yīng)的預(yù)測(cè)PPT文檔。

評(píng)估大模型生成的PPT文檔

本文提出PPTX-Match評(píng)估系統(tǒng)來評(píng)估大模型生成的文檔是否正確。

如圖3所示,它使用PPTX庫來抽取生成的文檔中所有的元素,并逐一驗(yàn)證元素間的空間位置關(guān)系是否正確,并驗(yàn)證元素的屬性內(nèi)容是否和標(biāo)簽文檔的對(duì)應(yīng)內(nèi)容匹配。

本文的評(píng)測(cè)系統(tǒng)只評(píng)測(cè)最終生成的PPT文檔,因此允許各種API序列來完成用戶指令。

基于這個(gè)系統(tǒng),本文的評(píng)測(cè)指標(biāo)分別包括只考慮當(dāng)前輪次的輪次層面表現(xiàn)和考慮整個(gè)單元的單元層面表現(xiàn)。

實(shí)驗(yàn)結(jié)果  

本文在3個(gè)閉源大模型和6個(gè)開源大模型上測(cè)試PPTC數(shù)據(jù)集。進(jìn)一步的,本文測(cè)試計(jì)劃算法(零樣本思維鏈(Zero-shot CoT)和思維樹(ToT)算法)以及PPT內(nèi)容和API選擇算法是否能進(jìn)一步提升GPT-4模型在PPTC上的表現(xiàn)。

從表1和表2展現(xiàn)出的結(jié)果中,可以得出以下結(jié)論:

(1)GPT-4是9個(gè)大模型中表現(xiàn)最強(qiáng)的模型,在創(chuàng)建新PPT文檔任務(wù)中它甚至能實(shí)現(xiàn)75%的輪次層面正確率。

(2)基于開源大模型(LLaMa-2)的進(jìn)一步代碼預(yù)訓(xùn)練(code-LLaMa)和對(duì)齊能夠進(jìn)一步提升模型輪次層面表現(xiàn)

本文在3個(gè)閉源大模型和6個(gè)開源大模型上測(cè)試PPTC數(shù)據(jù)集。進(jìn)一步的,本文測(cè)試計(jì)劃算法(零樣本思維鏈(Zero-shot CoT)和思維樹(ToT)算法)以及PPT內(nèi)容和API選擇算法是否能進(jìn)一步提升GPT-4模型在PPTC上的表現(xiàn)。

從表1和表2展現(xiàn)出的結(jié)果中,可以得出以下結(jié)論:
(1)GPT-4是9個(gè)大模型中表現(xiàn)最強(qiáng)的模型,在創(chuàng)建新PPT文檔任務(wù)中它甚至能實(shí)現(xiàn)75%的輪次層面正確率。
(2)基于開源大模型(LLaMa-2)的進(jìn)一步代碼預(yù)訓(xùn)練(code-LLaMa)和對(duì)齊能夠進(jìn)一步提升模型輪次層面表現(xiàn)

表1:9個(gè)大語言模型的結(jié)果?!窽D-003」是指Text-Davinci-003模型

(3)計(jì)劃算法和選擇算法能夠進(jìn)一步提升GPT-4 2到5個(gè)百分點(diǎn)的輪次層面正確率。然而,本文發(fā)現(xiàn),盡管思維樹相對(duì)零樣本思維鏈花了超過數(shù)倍的推斷成本,它的表現(xiàn)卻并沒有明顯進(jìn)一步的提升。

表2:GPT-4和基于GPT-4模型的算法的結(jié)果。'CoT'和'ToT'分別是思維鏈和思維樹算法

三個(gè)PPTC上的主要挑戰(zhàn)

進(jìn)一步的,本文分析得出大模型在PPTC上遇到的三個(gè)主要的挑戰(zhàn):

1.錯(cuò)誤累計(jì)導(dǎo)致大模型單元層面表現(xiàn)糟糕

盡管諸如GPT-4這樣的大模型在輪次層面表現(xiàn)較好,但當(dāng)本文測(cè)試大模型在包含多個(gè)輪次的單元層次表現(xiàn)時(shí),大模型表現(xiàn)普遍糟糕。

如表1所示,在創(chuàng)建新文檔任務(wù)中,GPT-4只正確完成了不到百分之23的多輪次單元。

2.大模型處理長(zhǎng)PPT模版的能力欠佳

在PPT文檔編輯任務(wù)中,大模型需要基于給予的長(zhǎng)PPT模板完成用戶指令。

圖4: 創(chuàng)建新的PPT文件任務(wù)(任務(wù)1)和編輯PPT模板任務(wù)(任務(wù)2)的分析結(jié)果。在子圖(a)中,本圖展示了涉及圖表、表格、圖片、位置和純文本的指令的平均基于輪次的準(zhǔn)確度。在子圖(b)中,本圖展示了GPT-4的四種常見錯(cuò)誤的比例。

然而,如表1所示,即使是GPT-4,也只實(shí)現(xiàn)了百分之38的輪次正確率,只完成了6%的多輪次單元。如圖4(b)所示,對(duì)文檔的誤解成為編輯任務(wù)的主要錯(cuò)誤原因。

3.多模態(tài)指令提高了任務(wù)難度

如圖4(a)所示,大模型在處理圖表,表格,圖像,空間位置相關(guān)的指令上的表現(xiàn)遠(yuǎn)不如處理只涉及純文本操作的指令表現(xiàn),特別是涉及到移動(dòng)空間位置的指令。

如圖4(b)所示,糟糕的空間位置感知成為創(chuàng)建新文檔任務(wù)的主要錯(cuò)誤原因。

總結(jié)

  1. 本文提出了PowerPoint任務(wù)完成評(píng)估測(cè)試(PPTC),用于衡量在 PowerPoint 官方軟件中的語言模型的任務(wù)完成性能。這一基準(zhǔn)測(cè)試包含了279個(gè)多輪會(huì)話單元,涵蓋了復(fù)雜的多模式環(huán)境中的數(shù)百個(gè)多模式指令。
  2. 本文提出了PPTX-Match評(píng)估系統(tǒng),用于自動(dòng)測(cè)量語言模型在PPTC中的性能。本文測(cè)試了3個(gè)閉源語言模型和6個(gè)開源語言模型,發(fā)現(xiàn)GPT-4是所有語言模型中性能最強(qiáng)的。
  3. 本文進(jìn)一步發(fā)現(xiàn)了三個(gè)關(guān)鍵的錯(cuò)誤因素:會(huì)話中的錯(cuò)誤累積、長(zhǎng)的PPT模板處理和多模態(tài)感知。這些發(fā)現(xiàn)為未來的語言模型和基于語言模型的agent系統(tǒng)提出了重要的挑戰(zhàn)。
責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-18 08:49:00

模型系統(tǒng)AI

2024-08-08 13:04:28

2023-10-17 12:47:26

AI數(shù)據(jù)

2024-06-28 18:13:05

2024-05-20 08:20:00

OpenAI模型

2025-06-09 08:50:00

2023-10-30 15:06:00

模型數(shù)據(jù)

2023-11-09 15:10:00

訓(xùn)練數(shù)據(jù)

2023-03-10 13:30:01

微軟人工智能

2025-08-18 08:40:00

模型AI算法

2025-05-30 03:10:00

AISeePhys多模態(tài)短板

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-03-10 13:03:09

人工智能模型

2015-07-31 11:37:49

任務(wù)完成率

2025-05-15 09:10:00

2024-07-02 01:09:02

2023-05-08 10:14:07

模型AI

2024-03-01 11:58:26

MLLMs大語言模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

在线观看免费黄色| 九九久久久久99精品| 国产精品国产福利国产秒拍| 中文字幕一区二区在线观看视频| 久久国产黄色片| 国产麻豆精品| 秋霞午夜鲁丝一区二区老狼| 欧美成人欧美edvon| 一级二级三级欧美| 亚洲大片免费观看| 九九精品在线| 富二代精品短视频| 国内精品二区| 欧美精品一区二区蜜桃| 日本午夜免费一区二区| 日本一区二区免费在线| 55夜色66夜色国产精品视频| 一级全黄裸体片| 婷婷色在线资源| 精品一区二区av| 最近中文字幕2019免费| 毛葺葺老太做受视频| 欧美3p视频在线观看| 国产精品日韩| 日韩av综合网| 久色视频在线播放| 日本在线一二三| 国产欧美日韩亚洲一区二区三区| 永久555www成人免费| 黄色av免费在线播放| 青草在线视频| 成人免费视频app| 国外成人免费在线播放| 国产极品一区二区| 看黄在线观看| 久久一二三国产| 国产精品电影网站| 一级片中文字幕| 最新亚洲精品| 亚洲成人在线视频播放| xxxx18hd亚洲hd捆绑| 天天操天天干天天舔| 在线一区视频| 一区二区欧美亚洲| 素人fc2av清纯18岁| 偷拍视频一区二区三区| 中文字幕久久午夜不卡| 91精品久久久久久久久久入口| 天天做夜夜爱爱爱| 999精品视频在这里| 欧美日韩一区二区精品| 精品少妇在线视频| 国产天堂在线播放视频| 91亚洲国产成人精品一区二区三| 国产精品久久久久一区二区| 538精品在线视频| 日韩黄色网络| 在线不卡中文字幕| 精品视频在线观看一区| 欧洲精品二区| 亚洲成人资源网| 亚洲7777| 日本美女一级视频| 免费的国产精品| 久久久久亚洲精品国产| 久久免费精彩视频| 欧美亚洲国产激情| 日韩欧美一区二区久久婷婷| 欧美性大战久久久久xxx| 欧美性天天影视| 波多野结衣亚洲一区| 国产精品com| 国产中文字字幕乱码无限| 国产精品免费不| 91精品国产全国免费观看| 日韩电影在线播放| 91久久精品国产91性色69| 亚洲精彩视频| 精品电影一区二区三区| 成年人在线看片| 中文字幕中文字幕在线中高清免费版| 久久一二三区| 欧美激情性做爰免费视频| 国产又爽又黄无码无遮挡在线观看| 国内露脸中年夫妇交换精品| 91国偷自产一区二区三区观看| 夜夜爽www精品| 午夜在线视频播放| 丁香婷婷综合五月| 久久一区二区精品| 精品人妻一区二区三区换脸明星| 性一交一乱一区二区洋洋av| 亚洲美女动态图120秒| 国产成人av免费观看| 伊人久久在线| 91福利社在线观看| 日韩不卡一二三| 久久国产精品黑丝| 欧美日韩人人澡狠狠躁视频| 国产成人久久婷婷精品流白浆| 黄色网在线播放| 国产欧美日韩三区| 9999在线观看| 日本不卡免费播放| 中文字幕中文乱码欧美一区二区| 好吊妞www.84com只有这里才有精品 | 国产日韩精品在线播放| 国产精品自拍视频一区| 99国产精品一区二区| 5566中文字幕一区二区电影| 精品人妻人人做人人爽| 国产午夜精品久久久久免费视| 一二三区精品福利视频| 中日韩在线视频| 9191在线| 五月天欧美精品| 久久视频免费在线| 日本精品一区二区三区在线播放| 亚洲欧美另类图片小说| 欧美精品七区| 成人高清免费在线| 久久婷婷色综合| 亚洲一区尤物| 制服诱惑亚洲| 色嗨嗨av一区二区三区| 佐山爱在线视频| 精品成人18| 欧美三级视频在线观看| 国产一区视频免费观看| 日本一区二区三区播放| 日韩一区二区在线观看视频| 国产高清999| 亚洲区小说区| 亚洲精品中文字幕av| 中文字幕求饶的少妇| 外国成人在线视频| 欧美激情xxxx性bbbb| 狠狠人妻久久久久久综合| 欧美日韩1区| 欧美激情综合亚洲一二区| 夜夜爽妓女8888视频免费观看| 国产99久久久久久免费看农村| 亚洲第一在线综合在线| 国产在线自天天| 久久夜色精品国产噜噜av| 法国空姐在线观看免费| 99福利在线| 欧美伊人久久久久久久久影院| 色一情一乱一伦一区二区三区日本| 999久久久精品一区二区| 综合欧美国产视频二区| 粉嫩av性色av蜜臀av网站| 日韩av不卡一区二区| 久久精品国产精品国产精品污| 亚洲成人第一区| 成人av网站在线观看免费| 99热这里只有精品7| 精品三级在线| 亚洲最新av在线网站| 亚洲大片免费观看| 久久久久久亚洲综合| 蜜臀久久99精品久久久酒店新书 | 国产精品一区二区欧美| 亚洲第一黄色片| 一区二区三区在线观看国产| 色哟哟免费网站| 在线视频成人| 日韩av在线一区| 999这里只有精品| 成人丝袜高跟foot| 国产一区二区网| 欧美精品国产白浆久久久久| 亚洲欧美999| 黄色一级视频免费看| 国产午夜精品久久| 国产又黄又猛又粗又爽的视频| 91夜夜蜜桃臀一区二区三区| 久久久精品久久久久| 国产极品美女高潮无套嗷嗷叫酒店| 蜜桃在线一区二区三区| 男女激烈动态图| а√中文在线天堂精品| 97色在线观看免费视频| 啪啪小视频网站| 国产精品私人自拍| 一级网站在线观看| 欧美一区二区三区久久精品茉莉花| 久久久之久亚州精品露出| 少妇高潮一区二区三区69| 狠狠躁18三区二区一区| 韩国三级hd中文字幕| 亚洲精品久久久| av成人午夜| 国产理论电影在线观看| 亚洲一级电影视频| 波多野结衣家庭教师在线播放| 欧美热在线视频精品999| 国产精品中文字幕在线观看| www.黄色片| 精品久久久香蕉免费精品视频| 一区二区黄色片| 亚洲视频碰碰| 91九色在线观看| 丰满大乳少妇在线观看网站| 一本色道久久综合亚洲精品小说 | lutube成人福利在线观看| 欧美剧在线免费观看网站| 久久久久久久黄色| 26uuu久久天堂性欧美| www.com黄色片| 亚洲视频综合| 亚洲精品成人a8198a| 97久久综合精品久久久综合| 国产99视频在线观看| 在线免费观看的av| 精品一区二区三区三区| 午夜精品久久久久久久99| 色妹子一区二区| 久草网在线观看| 中文一区在线播放| 污污内射在线观看一区二区少妇| 日韩成人免费看| 久久久久国产精品视频| www.成人在线视频| 国语对白做受69| 国产乱色在线观看| 亚洲天堂男人天堂| 男女视频免费看| av不卡在线播放| 久久视频免费在线| 国产毛片一区二区三区| 国产精品香蕉视屏| 色综合一区二区日本韩国亚洲 | 精品人妻少妇嫩草av无码| 国产又粗又猛又爽又黄91精品| 日本福利视频在线| 亚洲国产影院| 亚洲自拍偷拍视频| 精品无人乱码一区二区三区| 2020久久国产精品| 超碰在线caoporn| 日韩一区二区福利| 国产按摩一区二区三区| 一区二区三区欧美激情| 国产真人做爰视频免费| 99re热这里只有精品视频| 成人短视频在线观看免费| 欧美日韩水蜜桃| 欧洲一区二区在线观看| 国产成人福利av| 韩国成人动漫在线观看| 91精品久久久久久综合五月天| 欧美激情日韩图片| a视频在线观看免费| 久久手机精品视频| 免费黄色在线看| 精品国产一区二区三区四区在线观看 | 欧美日韩精品一区二区天天拍小说| 三级黄色片在线观看| www日韩大片| 黄色a一级视频| 六月婷婷色综合| 男人的天堂99| 日本不卡视频在线| 国产又大又黄又猛| 蜜乳av一区二区| 午夜免费福利视频在线观看| 日韩av网站在线观看| 91蝌蚪视频在线观看| 六月丁香婷婷色狠狠久久| 亚洲美女性囗交| 激情综合色综合久久综合| 成年人三级黄色片| 国产精品一区专区| 日本japanese极品少妇| 91网站在线播放| 国产中年熟女高潮大集合| 久久精品男人的天堂| 国产综合精品久久久久成人av| 国内欧美视频一区二区| 国产大片一区二区三区| 精品伊人久久久久7777人| 五十路熟女丰满大屁股| 亚洲狼人精品一区二区三区| 超碰97人人射妻| 久久精品123| 国产成人艳妇aa视频在线 | 99热在这里有精品免费| 欧美做受xxxxxⅹ性视频| 国产精品久久久久久亚洲毛片 | 91网址在线看| 99国产精品免费| 一区二区三区中文在线| 日韩av在线播| 欧美在线免费视屏| av官网在线观看| 日韩二区三区在线| 在线看av的网址| 欧美黄色性视频| 欧美亚洲天堂| 国产精品一香蕉国产线看观看| 国产色99精品9i| 久久精品第九区免费观看| 欧美亚洲在线日韩| 免费av观看网址| 狠狠网亚洲精品| 182在线视频| 中文字幕一区在线观看| 日韩久久精品视频| 色婷婷av久久久久久久| 免费av网站在线播放| 在线播放日韩专区| 91桃色在线观看| 91麻豆国产语对白在线观看| 中文不卡1区2区3区| 97在线看福利| 六九午夜精品视频| 欧日韩一区二区三区| 黄色在线成人| 亚洲色图欧美自拍| 欧美国产综合色视频| 91看片在线播放| 欧美色爱综合网| 国产私人尤物无码不卡| 欧美精品久久久久久久| 激情久久一区二区| 久久精品国产理论片免费| 自拍日韩欧美| 91极品视频在线观看| 91在线高清观看| 深夜福利影院在线观看| 欧美三级视频在线观看| 亚洲黄色小说网| 亚洲天堂色网站| 欲香欲色天天天综合和网| 国产精品白丝jk白祙| 91精品国产视频| 中文字幕天天干| 久久九九99视频| 国产真实夫妇交换视频| 日韩精品在线看片z| 黄色成人影院| 国产欧美日韩91| 精品freesex老太交| 131美女爱做视频| 国产精品亚洲一区二区三区在线| 貂蝉被到爽流白浆在线观看 | 久久精品国产久精国产思思| 玛雅亚洲电影| 国产精品10p综合二区| 亚洲视频一二| 中文字幕在线视频播放| 亚洲国产精品久久久男人的天堂| a天堂在线观看视频| 久久亚洲春色中文字幕| 亚洲女同志freevdieo| 丁香婷婷久久久综合精品国产| 中文精品久久| 国产亚洲色婷婷久久| 亚洲综合一二三区| 亚洲欧美另类一区| 国内精久久久久久久久久人| 超碰在线亚洲| 欧美日韩性生活片| 久久蜜臀中文字幕| 无码视频在线观看| 国产亚洲精品91在线| 婷婷激情一区| 热re99久久精品国99热蜜月| 美女视频免费一区| 亚洲天堂一级片| 欧美一区二区三级| 国产羞羞视频在线播放| 国产高清一区二区三区| 国产视频一区在线观看一区免费| 野花社区视频在线观看| 色综合天天做天天爱| 成年人视频网站在线| 亚洲综合日韩在线| 激情综合中文娱乐网| 内射中出日韩无国产剧情| 91黄色激情网站| av网站网址在线观看| 国产精品视频一区二区三区经| 好看的日韩av电影| 久久精品国产亚洲av久| 欧洲色大大久久| a天堂中文在线88| 国产精品久久波多野结衣| 亚洲一区二区成人| 美女福利视频网| 欧美精品一区二区不卡| 78精品国产综合久久香蕉| 国产成人一二三区| www国产精品av| 亚洲中文一区二区三区| 亚洲成人av在线| 美女100%一区| 99re99热| 2022国产精品视频|