精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌DeepMind全新ToT基準:全面評估LLM時間推理能力

人工智能 新聞
近日,來自谷歌DeepMind的研究人員,推出了專門用于評估大語言模型時間推理能力的基準測試——Test of Time(ToT),從兩個獨立的維度分別考察了LLM的時間理解和算術能力。

大語言模型的時間推理能力怎么樣?

我們先來看一道幼兒園的題目:

圖片

給出切爾西歷年的主教練名單,向模型提問:Pochettino之前的教練是誰?

此時,LLM能夠給出正確的回答(Lampard),——貌似有點實力?

但是,如果我們把人名來個變量代換(E1~E5),其他內容保持不變,LLM瞬間就降智了:

圖片

事實上,在第一次的題干里,我們并沒有說明Lampard教練叫什么名字,而答案里直接就出現了Frank。

所以LLM有可能只是碰到了原題?

于是小編用這兩道題分別測試了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。

從結果來看,上面被公開處刑的應該是ChatGPT。

圖片

而Gemini 1.0 pro和Claude 3 Sonnet甚至還不如ChatGPT,兩題全錯(雖然也給出了全名),估計是刷題的時候懈怠了。

相比之下,Llama 3的回答則呈現出智力上的優越:

圖片

在如此簡單的問題上,不同的LLM卻「各顯神通」,看來是時候搞個權威的考核指導一下了。

近日,來自谷歌DeepMind的研究人員,推出了專門用于評估大語言模型時間推理能力的基準測試——Test of Time(ToT)。

圖片

論文地址:https://arxiv.org/pdf/2406.09170

值得注意的是,ToT是基準測試的名字,不是顏文字表情

ToT由兩門考試組成:

第一關:ToT-semantic,考驗LLM在進行時間推理時,對于語義和邏輯的理解。

第二關:ToT-arithmetic,考驗LLM進行時間相關算術的能力。

ToT-semantic中的問題是合成的,保證LLM在考試中不會遇見原題;

而ToT-arithmetic采取眾包的形式,保證了問題的深度和廣度。

圖片

基準測試和數據集:https://huggingface.co/datasets/baharef/ToT

ToT的數據集分為三個子集:ToT-semantic包含1850個示例,ToT-arithmetic包含2800個示例,另外還有一個ToT-semantic-large,包含46480個示例,能夠在更大的尺度上衡量時間理解的語義和邏輯。

ToT的使用方法很簡單,先安裝Huggingface數據集,然后兩行代碼導入即可:

from datasets import load_dataset 

dataset = load_dataset("baharef/ToT")

數據格式

ToT-semantic和ToT-semantic-large數據集包含以下字段:

  • question:包含問題的文本。
  • graph_gen_algorithm:圖生成器算法的名稱。
  • question_type:對應于數據集中的7種問題類型之一。
  • sorting_type:對應用于事實的排序類型。
  • prompt:包含用于評估LLM任務的完整提示文本。
  • label: 問題的標準答案。

而ToT-arithmetic數據集包含question、question_type和label三個字段。

Test of Time

LLM的時間推理最近獲得了極大的關注,許多研究集中在增強LLM對時間概念的理解上,通過預訓練和微調策略來提高他們的時間推理能力。

而相應的基準測試則大多以知識圖譜為中心:比如TempTabQA提供了基于維基百科信息框的眾包問題,而TGQA是一個源自YAGO11k知識圖譜的數據集。

為防止數據泄露,TGQA將每個實體名稱更改為GPT3.5生成的名稱,保證名稱與實體類型一致,并且不會以其他方式出現在YAGO11k中。

圖片

但這種策略有兩個問題:首先是會引入虛假的實體名稱相關性,其次可能會產生事實不正確或違反常識的聲明。

于是,本文選擇了合成數據的方式來建立LLM的評估基準。

同時,研究人員將時間推理能力拆分成兩個不同的維度:理解時間的語義和邏輯,以及執行準確的時間算術。

兩個維度分別建立任務,獨立進行評估,能夠更好地展現LLM的優勢和劣勢。

ToT-semantic

ToT-semantic能夠分離和分析一個LLM的核心推理能力,同時避免依賴預先存在的知識。

ToT-semantic的創建過程如下圖所示:

圖片

第 1 步:生成隨機結構,然后使用這些結構來創建時間問題。為了確保隨機結構的多樣化,這里參考圖結構的生成。

研究人員采用幾種現有的算法來生成具有不同屬性的圖結構,包括ER圖、無標度網絡(SFN)、遵循BA模型和隨機塊模型(SBM)的圖,以及星形圖。

每種圖生成算法都表現出不同的屬性,對應于不同的應用場景。例如,ER圖通常是稀疏的,平均度數較低,而BA圖是密集的,表現出冪律分布。

建立出世的圖結構之后,我們就為邊緣分配關系。對于每個圖,我們首先確定要分配給邊的多個關系類型,并將這些關系類型中的每個類型分配給一對一、一對多、多對一和多對多之一。

第 2 步:問題生成。這里考慮了以下八種類型的問題,常見于日常生活中,以及各種基準測試中。

圖片

EventAtTimeT:詢問在T時刻哪個實體與實體E有某種關系R

EventAtWhatTime:詢問兩個實體E1和E2之間的關系R在什么時間開始/結束

NumberOfEventsInTimeInterval:詢問有多少實體在T1到T2之間與實體E有關系R

BeforeAfter:詢問在E1之前/之后哪個實體與E2有關系R

EventAtTimeOfAnotherEvent:詢問當E1與E2有關系R1時,哪個實體與E3有關系R2

FirstLast:詢問哪個實體是第一個與E建立關系R的實體

RelationDuration:詢問E1和E2之間第k次建立關系R時,持續了多長時間

Timeline:要求按時間順序對與E有關系R的實體進行排序

ToT-Arithmetic

ToT-Arithmetic將任務從合成數據轉移到了現實世界。

創建ToT-Arithmetic數據集的步驟如下圖所示:

圖片

下面分別介紹每個步驟的工作:

種子集:檢查現有基準中出現的時間算術問題類型,并通過網絡搜索,來收集一小部分初始問題。

擴展:向15名注釋者展示種子集,注釋者負責提出不在種子集中的新問題,或者提供與其他場景或問題模板相對應的問題。

過濾器:人工瀏覽所有問題,并過濾那些專注于極端情況、或者需要廣泛知識的問題。

分類:將合格的問題分為七類,如下表所示:

圖片

AddSubtract:從日期或時間中添加或減去一個數字

Compare:按時間順序比較以不同格式提供的日期/時間

Duration:計算兩個日期/時間之間的差值

Schedule:在多塊時間內找到相互空閑點

Timezone:涉及處理不同的時區

Trick:有一點腦筋急轉彎

MultiOp:涉及需要上述多個操作的問題

函數化:將問題寫成函數,以便為每個問題抽取不同的值并根據這些值進行求解。

抽樣:從函數中抽取問題和答案,保證樣本數量與屬于每個類別的不同問題的數量成正比。

具體來說,AddSubtract采樣了350個,Compare采樣了350個,Duration采樣了200個,Schedule采樣了250個,Timezone采樣了100個,Trick采樣了250個,MultiOp采樣了350個——構成了總共包含1850個問題的數據集。

實驗分析

實驗評估了三個前沿的大語言模型,他們是:Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。

另外,由于ToT-Semantic任務需要較長的上下文,所以使用GPT4-Turbo代為出戰。

通過實驗,我們可以探討以下幾個問題:

1:時間結構對LLM性能有什么影響?

2:什么樣的時間問題更容易/更難回答?

3:模型提示中事實的順序有多重要,對事實進行排序的最佳方式是什么?

4:前沿模型在時間推理的兩個方面(語義和算術)的表現如何?

如下表所示,時間關系的圖結構會顯著影響LLM性能。

圖片

比如GPT-4的準確率因圖的類型而異,從完整圖的40.25%到AWE圖的92%。

以前的研究基本上都盯著知識圖譜,而這個實驗結果表明,圖的結構很重要。

那么,不同的圖大小是否會影響結果呢?

如下圖所示,增加ToT-Semantic數據集中的邊或節點數量會導致LLM性能下降。

圖片

下面的實驗研究了不同時間任務(類型)對LLM推理能力的影響。這里通過評估模型在各種任務中的性能來量化這種影響

圖片

與需要整合多個事實的任務相比,LLM在需要檢索單個事實的任務上始終表現出卓越的性能。

單事實問題主要依賴于相關信息的識別和提取,而多事實問題則要求對檢索到的信息進行更深入的理解和綜合。

另外,即使在零階推理任務中,LLM也表現出不同程度的性能。例如,EventAtTimeT和EventAtWhatTime在結構上相似,但LLM往往擅長后者。

原因可能是EventAtTimeT需要簡單的時間算術運算來識別時間戳T落在時間間隔 [T1,T2]內,而EventAtWhatTime不需要任何時間算術運算。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-23 07:20:00

LLM逆向思維語言模型

2023-08-11 14:18:52

谷歌研究

2023-05-22 15:17:02

谷歌AI

2025-01-13 12:12:19

2020-11-29 20:24:13

數據谷歌DeepMind

2025-10-20 09:12:00

2023-12-01 10:20:00

谷歌技術

2025-03-05 04:00:00

2023-11-27 13:19:54

模型訓練

2025-03-07 09:34:14

2025-07-17 13:05:35

2024-06-17 13:34:54

2024-08-14 14:06:01

2024-01-02 10:20:42

清華大學人工智能

2021-10-14 09:43:59

人工智能AI機器人

2024-04-11 14:12:53

2024-08-08 13:04:28

2024-08-02 13:14:51

2023-06-01 17:23:26

AI模型

2025-06-03 03:15:00

點贊
收藏

51CTO技術棧公眾號

91高清视频在线免费观看| 一区二区三区波多野结衣在线观看| 欧美一级片免费在线| 国产在线观看h| 日韩欧美激情| 亚洲国产综合在线| 欧美国产二区| 中文字幕人妻一区二区在线视频| 91精品电影| 日韩av中文字幕在线播放| 牛夜精品久久久久久久| 尤物在线网址| 国产亚洲一区二区三区四区| 亚洲一区二区三区视频播放| 国产免费av一区| 亚洲欧洲美洲一区二区三区| 亚洲精品一二区| 涩多多在线观看| 黄色成人免费网| 亚洲女子a中天字幕| 欧美成人免费在线| 国产不卡精品视频| 日韩成人免费在线| 久久久久这里只有精品| 网爆门在线观看| 亚洲婷婷影院| 日韩精品一区二区在线观看| 最新中文字幕2018| 周于希免费高清在线观看| 亚洲人成网站影音先锋播放| 日本在线免费观看一区| 婷婷视频在线观看| 国产一区二区三区免费在线观看| 国产福利视频一区二区| 亚洲一区欧美在线| 国产真实久久| 欧美成人精品在线| 色哟哟一一国产精品| 精品一区二区三区的国产在线观看| 亚洲精品白浆高清久久久久久| 国产精品无码自拍| 国产视频一区二区在线播放| 欧美日韩国产一级片| 成人黄色片视频| 亚洲啊v在线| 欧美激情一区在线| 精品乱人伦小说| 国产成人精品一区二区在线| 青青草原在线免费观看| 日韩一区亚洲二区| 国产亚洲xxx| 亚洲av无码一区二区二三区| 美女视频免费精品| 亚洲成人动漫在线播放| 三上悠亚 电影| 日韩中文字幕| 精品欧美一区二区久久| 制服下的诱惑暮生| 久久久久久爱| 日韩精品一区二| 午夜视频在线免费看| 日本午夜精品久久久久| 日韩和的一区二区| 欧美在线一级va免费观看| 亚洲天堂日韩av| 伊人成人在线视频| 久久久亚洲精选| 日韩在线视频免费播放| 亚洲视频www| 成人手机电影网| 国产九色精品| 日本黄在线观看| 久久久国产精品麻豆| 亚洲v国产v| 国产激情小视频在线| 一区二区在线观看免费| 成人一区二区免费视频| 国产高清不卡| 欧美视频三区在线播放| 8x8x成人免费视频| 一区二区亚洲视频| 亚洲精品一区中文字幕乱码| 夫妇露脸对白88av| 女生裸体视频一区二区三区| 97视频在线观看视频免费视频 | 国产高清在线观看视频| 成人精品国产福利| 日韩中文字幕av在线| av片在线观看永久免费| 亚洲成在线观看| 冲田杏梨av在线| 亚洲成人影音| 亚洲午夜av久久乱码| www.毛片com| 免费看黄裸体一级大秀欧美| 国产主播在线一区| 天天操天天射天天| 国产精品沙发午睡系列990531| 菠萝蜜视频在线观看入口| 性欧美18一19sex性欧美| 在线综合视频播放| 亚洲av无码成人精品国产| 日韩欧美中字| 91av在线播放视频| 国产精品一级视频| 久久综合久久综合久久| 男女h黄动漫啪啪无遮挡软件| 韩国精品一区| 欧美一级免费观看| 极品人妻videosss人妻| 亚洲网站在线| 成人a级免费视频| 国产又爽又黄网站亚洲视频123| 中文字幕人成不卡一区| 日韩在线视频在线观看| 欧美精品影院| 中文字幕亚洲欧美日韩高清| 91在线看视频| 国产成人免费视频| 香蕉精品视频在线| 日日av拍夜夜添久久免费| 亚洲精品在线网站| 欧美做爰爽爽爽爽爽爽| 免费观看日韩电影| 蜜桃欧美视频| 99re6在线精品视频免费播放| 6080日韩午夜伦伦午夜伦| 欧美激情aaa| 国产午夜精品一区二区三区欧美| 99精品国产一区二区| 日本在线人成| 欧美视频第二页| 丁香激情五月少妇| 美女精品一区| 九色91在线视频| 超碰在线最新网址| 欧美一二三区精品| 日本免费网站视频| 美洲天堂一区二卡三卡四卡视频| 久久久免费看| 日本蜜桃在线观看视频| 亚洲国产第一页| 国产一级做a爱免费视频| 国产精品中文字幕日韩精品| 中国成人在线视频| 亚洲精品tv| www高清在线视频日韩欧美| 日韩一级片中文字幕| 国产午夜一区二区三区| 97在线播放视频| 在线日本制服中文欧美| 日韩av色综合| www.av在线| 777午夜精品视频在线播放| 精品少妇一区二区三区密爱| 久久电影国产免费久久电影| 三级网在线观看| 日韩成人在线看| 久久久久久成人| 风流老熟女一区二区三区| 亚洲一区日韩精品中文字幕| 高清中文字幕mv的电影| 亚洲人人精品| 好看的日韩精品视频在线| 秋霞伦理一区| 国产亚洲视频在线观看| 一个人看的www日本高清视频| 中文字幕一区二区三区在线观看| 欧洲美女亚洲激情| 精品福利av| 欧美三日本三级少妇三99| 天堂久久午夜av| 色偷偷888欧美精品久久久| 国产又粗又猛又爽| 亚洲一区电影777| 无码人妻aⅴ一区二区三区| 久久精品系列| 自拍偷拍99| 成人av综合网| 日本精品视频网站| 免费在线观看av| 8x8x8国产精品| 久久午夜免费视频| 国产欧美va欧美不卡在线 | 风流少妇一区二区| 欧美日韩国产精品激情在线播放| 成人精品影院| 俄罗斯精品一区二区| 伊伊综合在线| 久久精品成人欧美大片| 好吊视频一区二区三区| 色欧美片视频在线观看在线视频| 看黄色录像一级片| 不卡av在线免费观看| 任你操这里只有精品| 亚洲精品a级片| 蜜桃999成人看片在线观看| 亚洲高清国产拍精品26u| 欧美一级大片视频| 国产一二三区在线观看| 亚洲精品日韩久久久| 国产精品伦理一区| 欧美色另类天堂2015| 国产精品国产精品88| 久久久五月婷婷| 性一交一黄一片| 美女一区二区三区在线观看| 日韩精品一区在线视频| 亚洲成人一区| 污视频在线免费观看一区二区三区| 亚洲综合网狠久久| 国产美女久久精品| 成人教育av| 97视频免费在线看| 性欧美video高清bbw| 中文字幕日韩欧美精品在线观看| 日韩一区二区三区不卡| 69精品人人人人| 一级特黄免费视频| 欧美日韩亚洲视频| 久草视频精品在线| 亚洲视频免费在线观看| 日本综合在线观看| 97久久人人超碰| 国产精久久久久| 国产麻豆欧美日韩一区| 999精彩视频| 老司机午夜免费精品视频 | 奇米精品一区二区三区在线观看| 91免费黄视频| 激情一区二区| 日韩精品一区二区三区四| 天天揉久久久久亚洲精品| 日韩国产美国| 九九热爱视频精品视频| 欧美人xxxxx| 偷拍一区二区| 久久国产精品久久精品国产| 国产精品17p| 99久久伊人精品影院| 精品午夜视频| y111111国产精品久久婷婷| 国产在线不卡一区二区三区| 成人福利免费观看| 日韩黄色碟片| 成人精品视频久久久久| 亚洲高清影院| 亚洲综合社区网| 视频一区在线| 国产精品自拍首页| 加勒比色综合久久久久久久久 | 国产一区二区精品福利地址| 久久偷看各类wc女厕嘘嘘偷窃 | 亚洲欧洲日夜超级视频| 国产成人调教视频在线观看| 欧美一级二级三级| 国产中文字幕一区二区三区| 热re99久久精品国产99热 | 女人床在线观看| 中文字幕亚洲综合久久五月天色无吗'' | 国产精品久久久久久久久果冻传媒| 少妇久久久久久久久久| 国产精品免费看片| 九九热视频在线免费观看| 亚洲摸摸操操av| 日本一级淫片色费放| 狠狠综合久久av一区二区小说 | 丁香花视频在线观看| 7m精品福利视频导航| 美女100%一区| 国产啪精品视频| 亚洲福利合集| 麻豆成人av| 久久中文亚洲字幕| 日韩亚洲欧美一区二区| 国产欧美精品| 天天操,天天操| 国产成人一区在线| 久久国产精品无码一级毛片| 国产欧美精品国产国产专区| 日本a级片视频| 欧美日韩国产综合新一区| 伊人久久成人网| 欧美大黄免费观看| 毛片在线播放网站| 久久夜色精品国产欧美乱| 24小时免费看片在线观看| 国产精品精品视频| 欧美一级片网址| 久久综合毛片| 伊人青青综合网| 久久久久狠狠高潮亚洲精品| 久久99久久精品| 国产毛片毛片毛片毛片毛片毛片| 国产精品色婷婷| 国产午夜免费视频| 欧美日韩中文字幕一区| 懂色av蜜臀av粉嫩av分享吧| 日韩在线小视频| а√在线中文网新版地址在线| 国产精品视频久| 全国精品免费看| 亚洲精品偷拍视频| 鲁大师成人一区二区三区| 26uuu国产| 国产精品国产三级国产有无不卡 | 五月婷婷视频在线观看| 国产精品久久久久久中文字| 成人香蕉社区| 一本一道久久久a久久久精品91| 亚洲精品乱码| 欧美高清精品一区二区| 国产日韩一级二级三级| 久久免费精彩视频| 欧美精品在线一区二区| 青草久久伊人| 91精品国产777在线观看| 日韩高清一区| 中文字幕99| 日韩成人一区二区三区在线观看| 亚洲精品在线视频免费观看| 一区二区三区欧美视频| 夜夜爽8888| 在线国产精品播放| 日本不卡一二三| 精品国产综合久久| 在线成人av| 天堂va欧美va亚洲va老司机| 亚洲三级电影网站| 一区二区的视频| 中文字幕在线日韩 | www.久久久| 欧美一区精品| 国产精品久久久久久久av福利| 国产欧美一区二区精品久导航| 成人免费a视频| 亚洲精品国产成人| 看黄在线观看| 好吊色欧美一区二区三区视频| 亚洲福利国产| 国产xxxx视频| 亚洲a一区二区| 天堂网在线播放| 91av视频在线观看| 窝窝社区一区二区| 99久久激情视频| 国产丝袜在线精品| 中文字幕一区二区三区四区免费看| 亚洲精品日韩欧美| 日韩精品一区二区三区av| 日韩欧美亚洲区| 精彩视频一区二区| 日本黄色免费片| 日韩一级免费观看| 草美女在线观看| 激情视频在线观看一区二区三区| 99精品国产在热久久婷婷| 国产肉体xxxx裸体784大胆| 欧美午夜精品伦理| 电影在线一区| 成人网中文字幕| 狠狠噜噜久久| www.色多多| 欧美日韩国产美女| 欧洲一区二区三区| 免费精品视频一区| 日本伊人色综合网| 欧美老熟妇一区二区三区| 日韩欧美国产三级| 小草在线视频免费播放| 日韩中文一区| 国产成人在线看| 欧美性猛交bbbbb精品| 中文字幕av一区| 三级欧美日韩| 国产成人亚洲精品无码h在线| 国产精品国产成人国产三级| 国产99久久九九精品无码免费| 性色av一区二区三区免费| 国产欧美日韩一区二区三区四区| xxx国产在线观看| 午夜影院在线观看欧美| 国产精品秘入口| 99国精产品一二二线| 性欧美videos另类喷潮| 日韩欧美视频免费观看| 精品粉嫩超白一线天av| 欧美男体视频| 久草视频这里只有精品| 国产情人综合久久777777| 国产成人免费看一级大黄| 人人做人人澡人人爽欧美| 91tv精品福利国产在线观看| 国产中文字幕一区二区| 欧美日韩一二三| 国产理论在线| 一区二区三区国产福利| av午夜一区麻豆| 国产精品免费无遮挡| 欧洲亚洲在线视频|