精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首個標注詳細解釋的多模態科學問答數據集,深度學習模型推理有了思維鏈

人工智能 新聞
深度學習模型是否可以打開「黑箱」,對其推理過程提供一個思維鏈呢?近日,UCLA 和艾倫人工智能研究院(AI2)提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA,用于測試模型的多模態推理能力。

在回答復雜的問題時,人類可以理解不同模態的信息,并形成一個完整的思維鏈(Chain of Thought, CoT)。深度學習模型是否可以打開「黑箱」,對其推理過程提供一個思維鏈呢?近日,UCLA 和艾倫人工智能研究院(AI2)提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA,用于測試模型的多模態推理能力。在 ScienceQA 任務中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思維鏈的提示學習,從而使得模型能在生成答案的同時,生成相應的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實現了 75.17% 的準確率;并且人類評估表明,其可以生成較高質量的解釋。

像人類一樣有效地學習并完成復雜的任務是人工智能追求的長遠目標之一。人類在決策過程中可以遵循一個完整的思維鏈(CoT)推理過程,從而對給出的答案做出合理的解釋。

然而,已有的機器學習模型大多依賴大量的輸入 - 輸出樣本訓練來完成具體的任務。這些黑箱模型往往直接生成最終的答案,而沒有揭示具體的推理過程。

科學問答任務(Science Question Answering)可以很好地診斷人工智能模型是否具有多步推理能力和可解釋性。為了回答科學問題,一個模型不僅需要理解多模態內容,還需要提取外部知識以得出正確答案。同時,一個可靠的模型還應該給出揭示其推理過程的解釋。然而,目前的科學問答數據集大多缺乏對答案的詳細解釋,或者局限于文字模態。

因此,作者收集了全新的科學問答數據集 ScienceQA,它包含了 21,208 道來自中小學科學課程的問答多選題。一道典型的問題包含多模態的背景(context)、正確的選項、通用的背景知識(lecture)以及具體的解釋(explanation)

圖片

ScienceQA 數據集的一個例子。

要回答上圖所示的例子,我們首先要回憶關于力的定義:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一個多步的推理過程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最終得到正確答案:「This force is a pull. 」。

在 ScienceQA 任務中,模型需要在預測答案的同時輸出詳細地解釋。在本文中,作者利用大規模語言模型生成背景知識和解釋,作為一種思維鏈(CoT)來模仿人類具有的多步推理能力

實驗表明,目前的多模態問答方法在 ScienceQA 任務不能取得很好的表現。相反,通過基于思維鏈的提示學習,GPT-3 模型能在 ScienceQA 數據集上取得 75.17% 的準確率,同時可以生成質量較高的解釋:根據人類評估,其中 65.2% 的解釋相關、正確且完整。思維鏈也可以幫助 UnifiedQA 模型在 ScienceQA 數據集上取得 3.99% 的提升。

圖片

  • 論文鏈接:https://arxiv.org/abs/2209.09513
  • 代碼鏈接:https://github.com/lupantech/ScienceQA
  • 項目主頁:https://scienceqa.github.io/
  • 數據可視化:https://scienceqa.github.io/explore.html
  • Leaderboard:https://scienceqa.github.io/leaderboard.html

1、ScienceQA 數據集

數據集統計

ScienceQA 的主要統計信息如下所示。

圖片

ScienceQA 數據集的主要信息

ScienceQA 包含 21208 個例子, 其中有 9122 個不同的問題(question)。10332 道(48.7%)有視覺背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有視覺 + 文本的背景信息。絕大部分問題標注有詳細的解釋:83.9% 的問題有背景知識標注(lecture),而 90.5% 的問題有詳細的解答(explanation)。

圖片

ScienceQA 數據集中問題和背景分布。

數據集主題分布

不同于已有的數據集,ScienceQA 涵蓋自然科學、社會科學和語言學三大學科分支,包含 26 個主題(topic)、127 個分類(category)和 379 個知識技能(skill)

圖片

ScienceQA 的主題分布。

數據集詞云分布

如下圖的詞云分布所示,ScienceQA 中的問題具有豐富的語義多樣性。模型需要理解不同的問題表達、場景和背景知識。

ScienceQA 的詞云分布。

數據集比較

ScienceQA 是第一個標注詳細解釋的多模態科學問答數據集。相比于已有的數據集,ScienceQA 的數據規模、題型多樣性、主題多樣性等多個維度體現了優勢。

圖片

ScienceQA 數據集與其它科學問答數據集的比較。

2、模型和方法

Baselines

作者在 ScienceQA 數據集了評估不同的基準方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大規模語言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。對于語言模型 UnifiedQA 和 GPT-3,背景圖片會被轉換成文本形式的注釋(caption)。

GPT-3 (CoT)

最近的研究工作表明,在給定合適的提示后,GPT-3 模型可以在不同的下游任務表現出卓越的性能。為此,作者提出 GPT-3 (CoT) 模型,在提示中加入思維鏈(CoT),使得模型在生成答案的同時,可以生成對應的背景知識和解釋

具體的提示模板如下圖所示。其中 Ii 表示訓練例子,It 表示測試例子。訓練例子包含問題(Question)、選項(Options)、背景(Context)和答案(Answer)元素,其中答案由正確答案、背景知識(Lecture)和解釋(Explanation)組成。GPT-3 (CoT) 會根據輸入的提示信息,補全測試例子的預測答案、背景知識和解釋。

圖片

GPT-3 (CoT) 采用的提示模板。

3、實驗與分析

實驗結果

不同的基準和方法在 ScienceQA 測試集上的準確率結果如下表所示。當前最好的 VQA 模型之一的 VisualBERT 只能達到 61.87% 的準確率。在訓練的過程引入 CoT 數據,UnifiedQA_BASE 模型可以實現 74.11% 的準確率。而 GPT-3 (CoT) 在 2 個訓練例子的提示下,實現了 75.17% 的準確率,高于其它基準模型。人類在 ScienceQA 數據集上表現優異,可以達到 88.40% 的總體準確率,并且在不同類別的問題上表現穩定。

圖片

不同的方法在 ScienceQA 測試集上的結果。

生成解釋的評估

作者用自動評估指標如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 評估了不同方法生成的解釋。由于自動評估指標只能衡量預測結果和標注內容的相似性,因此作者進一步采用了人工評估的方法,來評估生成解釋的相關性、正確性和完整性。可以看到,GPT-3 (CoT) 生成的解釋中 65.2% 符合了 Gold 標準

不同評估方法對生成解釋的結果。

不同的提示模板

作者比較了不同的提示模板對 GPT-3 (CoT) 準確率的影響。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以獲得最大的平均準確率和最小的方差。另外,GPT-3 (CoT) 在 2 個訓練例子的提示下,表現最佳。

不同提示模板的結果比較。

模型上限

為了探索 GPT-3 (CoT) 模型的性能上限,作者把標注的背景知識和解釋加入模型的輸入(QCMLE*-A)。我們可以看到 GPT-3 (CoT) 可以實現高達 94.13% 的準確率。這也提示了模型提升的一個可能方向:模型可以進行分步推理,即先檢索到準確的背景知識和生成準確的解釋,然后把這些結果作為輸入。這個過程和人類解決復雜問題的過程很相似。

圖片

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者進一步討論了 GPT-3 (CoT) 在生成預測時,不同的 ALE 位置對結果的影響。在 ScienceQA 上的實驗結果表明,如果 GPT-3 (CoT) 先生成背景知識 L 或解釋 E,再生成答案 A,其預測準確率會大幅下降。其主要原因是背景知識 L 和解釋 E 有較多的詞語數量,如果先生成 LE,GPT-3 模型有可能用完最大詞數,或者提前停止生成文本,從而不能得到最終的答案 A。

圖片不同的 LE 位置。

成功案例

如下 4 個例子中,GPT-3 (CoT) 不但能生成正確的答案,也能給出相關、正確且完整的解釋。這說明 GPT-3 (CoT) 在 ScienceQA 數據集上表現出較強的多步推理和解釋能力。

圖片

圖片

圖片

圖片

GPT-3 (CoT) 生成正確答案和解釋的例子。

失敗案例 I

在下面的三個例子中,GPT-3 (CoT) 雖然生成了正確的答案,但是生成的解釋不相關、不正確或者不完整。這說明 GPT-3 (CoT) 對于生成邏輯一致的長序列還面臨較大的困難。

圖片

圖片

圖片

GPT-3 (CoT) 能生成正確答案、但是生成的解釋不正確的例子。

失敗案例 II

在下面的四個例子中,GPT-3 (CoT) 不能生成正確的答案,也不能生成正確的解釋。其中的原因有:(1)當前的 image captioning 模型還不能準確地描述示意圖、表格等圖片的語義信息,如果用圖片注釋文本表示圖片,GPT-3 (CoT) 還不能很好地回答包含圖表背景的問題;(2)GPT-3 (CoT) 生成長序列時,容易出現前后不一致(inconsistent)或不連貫(incoherent)的問題;(3)GPT-3 (CoT) 還不能很好地回答需要特定領域知識的問題。

圖片

圖片

圖片

圖片

GPT-3 (CoT) 能生成錯誤答案和解釋的例子。

4、結論與展望

作者提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA。ScienceQA 包含 21208 道來自中小學科學學科的多選題,涵蓋三大科學領域和豐富的話題,大部分問題標注有詳細的背景知識和解釋。ScienceQA 可以評估模型在多模態理解、多步推理和可解釋性方面的能力。作者在 ScienceQA 數據集上評估了不同的基準模型,并提出 GPT-3 (CoT) 模型在生成答案的同時,可以生成相應的背景知識和解釋。大量的實驗分析和案例分析對模型的改進提出了有利的啟發。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-16 07:30:00

2023-06-05 10:01:18

模型測評

2024-04-08 00:12:19

2024-08-12 09:40:00

模型數據

2025-05-14 08:51:00

2025-03-25 09:06:11

2025-05-21 08:47:00

2025-06-10 03:30:00

2024-12-18 18:57:58

2025-10-10 01:25:00

大模型訓練數據OpenAI

2025-02-13 09:00:00

2025-06-27 08:40:00

模型推理AI

2025-08-28 09:22:23

2024-09-23 08:20:00

模型訓練

2025-06-09 08:37:00

2020-09-29 17:00:33

人工智能

2022-11-08 09:59:07

數據集技術

2025-05-30 15:54:16

模型AI生成

2023-11-19 23:36:50

點贊
收藏

51CTO技術棧公眾號

国产麻豆一精品一男同| 少妇一级淫片免费放播放| 黄色的网站在线观看| 国产精品1区2区3区| 97视频在线播放| 少妇av片在线观看| 一区二区三区四区精品视频| 福利微拍一区二区| 亚洲欧美丝袜| 乱色精品无码一区二区国产盗| 国产精品亚洲欧美| 麻豆国产va免费精品高清在线| 男人网站在线观看| 日韩黄色碟片| 大桥未久av一区二区三区| 在线不卡日本| 欧美新色视频| 国产一区二区三区蝌蚪| 欧美一级电影免费在线观看| 国产一区二区精彩视频| 性欧美lx╳lx╳| 91精品国产乱码久久蜜臀| 99福利在线观看| 五月花成人网| 欧美激情一区二区三区全黄| 国产视频一区二区不卡| 国产一区二区麻豆| 美日韩精品视频| 免费av一区二区| 在线视频这里只有精品| 欧美**字幕| 亚洲黄色av网站| 制服.丝袜.亚洲.中文.综合懂| 日韩不卡视频在线观看| 精品福利在线看| 天天想你在线观看完整版电影免费| 国产高清一区在线观看| 91丨porny丨最新| 国模精品娜娜一二三区| 亚洲欧美激情国产综合久久久| 美女性感视频久久| 国产精品mp4| 麻豆精品久久久久久久99蜜桃| 影音先锋中文字幕一区| 九九久久久久久久久激情| 91制片厂在线| 99精品在线免费在线观看| 在线观看国产欧美| 毛片aaaaaa| 欧美视频免费| 国产一区二区激情| 日本人亚洲人jjzzjjz| 欧美精品羞羞答答| 在线国产精品播放| 日本黄区免费视频观看| 日韩激情图片| 日韩午夜在线视频| 精品国产国产综合精品| 午夜精品毛片| 欧美另类在线播放| 黄色一级免费视频| 激情一区二区| 日本欧美一级片| 特级西西444www大胆免费看| 日韩av不卡一区二区| 国产精品免费在线免费| 一级淫片免费看| 国产一区二区三区四| 国产精华一区二区三区| 手机看片1024国产| 欧美国产一区视频在线观看| 这里只有精品66| 青草视频在线免费直播| 亚洲va国产天堂va久久en| 女人天堂av手机在线| 高清电影一区| 91精品国产免费| 亚洲中文字幕一区| 精品久久久久久久久久久aⅴ| 一区二区福利视频| 老妇女50岁三级| 亚洲精品裸体| 国产精品久久久久91| 国产深喉视频一区二区| 成人激情视频网站| 日韩高清dvd| aa在线视频| 欧美午夜激情在线| 911av视频| av不卡一区| 中国日韩欧美久久久久久久久| 国产精品白丝喷水在线观看| 中文亚洲免费| 91美女片黄在线观看游戏| 香蕉视频911| 亚洲视频在线一区| 亚洲国产精品久久久久爰色欲| ww久久综合久中文字幕| 亚洲精品一区二区三区99| www色com| 极品尤物久久久av免费看| 国产精品视频在线观看| 欧美一级淫片aaaaaa| 国产欧美一区二区精品忘忧草 | 久草在线综合| 俺也去精品视频在线观看| 天堂网一区二区三区| 国产制服丝袜一区| 日本在线观看不卡| av老司机免费在线| 911精品产国品一二三产区| 国产精品1000部啪视频| 欧美另类综合| 国产精品一区二区三区久久久| 天天综合网在线观看| 亚洲九九爱视频| 另类小说第一页| 妖精视频一区二区三区 | 周于希免费高清在线观看 | 国产精品成人播放| 五月天婷婷在线播放| 一区二区三区四区精品在线视频| 91激情视频在线| 日韩系列在线| 性色av香蕉一区二区| 国产视频第一页| 中文字幕 久热精品 视频在线 | 91精品韩国| 亚洲精品国产拍免费91在线| 青青草手机视频在线观看| 美女国产一区二区| 视频一区二区三| 性欧美gay| 国产视频在线观看一区二区| 国产精品99精品无码视| 成人av网在线| 大陆av在线播放| 亚洲国产中文在线| 久久69精品久久久久久国产越南| 国产精品系列视频| 亚洲色图欧洲色图婷婷| 中文字幕一区久久| 99久久精品国产亚洲精品| 国产精品一区二区电影| 成人性爱视频在线观看| 在线观看免费亚洲| 摸摸摸bbb毛毛毛片| 日韩 欧美一区二区三区| 日韩免费av电影| 巨胸喷奶水www久久久| 国产亚洲激情在线| 中文字幕av影视| 国产精品色婷婷久久58| 97超碰人人爽| 中国成人一区| 肥熟一91porny丨九色丨| 欧美人与动牲性行为| 精品国产亚洲在线| 日韩男人的天堂| 久久奇米777| 热久久精品免费视频| 欧美gayvideo| av一区二区三区免费| 欧美videossex| 日韩大片在线观看视频| 天天天天天天天干| 国产精品不卡在线| 人妻精品久久久久中文字幕69| 国产精品啊v在线| 国产主播一区二区三区四区| 欧美大胆性生话| 久久精品福利视频| 免费国产精品视频| 91国产丝袜在线播放| 成人黄色短视频| 国产精品88888| 亚洲欧洲日产国码无码久久99 | 国产欧美综合一区| 美日韩黄色大片| 国产精品久久久久久久久久小说 | 亚洲欧美日韩久久| 亚洲天堂美女视频| 日韩**一区毛片| wwwwww欧美| 精品中文一区| 91最新国产视频| 亚洲人成在线网站| 久久久999精品免费| 全国男人的天堂网| 精品视频999| 日韩毛片在线视频| 国产精品久久看| 制服丝袜在线第一页| 日韩成人一区二区三区在线观看| dy888午夜| 久久99久久人婷婷精品综合| 亚洲专区在线视频| 亚洲1234区| 久久久久久久久久久免费 | 无码精品在线观看| 4438成人网| 国产一级一级国产| 一区二区日韩av| 精品人妻一区二区三区蜜桃视频| 国产高清不卡二三区| 精品久久久久av| 红桃视频国产一区| 在线观看一区二区三区三州| 卡通动漫精品一区二区三区| 国产欧美精品一区二区三区介绍| 国产h片在线观看| 久久国产精品视频| 永久免费av在线| 亚洲精品视频在线播放| 成人h动漫精品一区二区无码| 在线观看国产日韩| 亚洲 欧美 日韩 综合| 一区二区三区在线观看视频| 成年人视频软件| 久久久久久久电影| 国产视频久久久久久| 国产精品自在欧美一区| 亚洲图色中文字幕| 日本一不卡视频| 免费观看精品视频| 国产精品亚洲综合久久| 2018中文字幕第一页| 欧美一区二区三区免费看| 一级做a爰片久久| 日本一区二区高清不卡| 日韩不卡av| 成人嫩草影院| 日韩中文一区| 不卡在线一区二区| 欧美日本韩国国产| 亚洲亚洲免费| 久久影院理伦片| 秋霞影视一区二区三区| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 亚洲精品国偷拍自产在线观看蜜桃| 欧美美女一区二区三区| 国产精品国产精品国产| 欧美午夜精品理论片a级按摩| 日韩电影在线观看一区二区| 欧美午夜激情视频| 人妻 日韩精品 中文字幕| 日韩欧美综合在线视频| av网站中文字幕| 91高清视频在线| 波多野结衣午夜| 欧美日韩一区小说| 国产精品久久久久久久免费| 337p亚洲精品色噜噜| 国产av一区二区三区精品| 日韩欧美亚洲国产另类| 欧美 日韩 国产 成人 在线| 亚洲精品国偷自产在线99热 | 99国产精品视频免费观看| 无码国产69精品久久久久网站 | 综合毛片免费视频| 日韩av片永久免费网站| 日本一区二区电影| 91在线无精精品一区二区| 一区二区三区国产好| 好吊妞www.84com只有这里才有精品 | 欧美午夜在线观看| 国产精品久久久久久久成人午夜| 日韩一级免费观看| 污视频在线免费观看| 亚洲欧美色图片| 欧美人xxx| 欧美激情aaaa| 欧美18av| 91在线无精精品一区二区| 久久中文字幕导航| 五月天亚洲综合情| 欧美日韩一区二区三区四区在线观看 | 国精产品视频一二二区| 亚洲自拍欧美精品| 免费视频久久久| 欧美高清你懂得| 污视频在线免费| 久久人体大胆视频| 午夜伦理福利在线| 国产在线日韩在线| 久久婷婷国产| 超碰成人在线免费观看| 亚洲毛片av| 中文字幕免费高清在线| av在线一区二区| 国产精品精品软件男同| 精品久久久久久久久久久久久久| 日韩乱码一区二区三区| 精品av久久707| 女女色综合影院| 欧美一级bbbbb性bbbb喷潮片| 91精品福利观看| 日韩jizzz| 亚洲伦理精品| 亚洲精品乱码久久久久久9色| 久久久亚洲国产美女国产盗摄| 色欲一区二区三区精品a片| 欧美性猛交xxxx乱大交| 精品久久国产视频| 中文欧美日本在线资源| 白浆视频在线观看| 51国偷自产一区二区三区的来源| 国产不卡一二三区| 国产主播自拍av| 国产一区二区三区av电影| 日本一级免费视频| 五月婷婷综合网| 亚洲精品久久久久久久久久久久久久| 一区二区三区黄色| 在线观看网站免费入口在线观看国内 | 6080成人| 中文字幕第50页| 经典三级在线一区| 国产精品理论在线| 色综合天天性综合| 色窝窝无码一区二区三区| 欧美成人性色生活仑片| 久久天堂影院| 亚洲成人av动漫| 日韩成人午夜精品| 亚洲熟妇无码av| 日韩欧美黄色动漫| 五月激情婷婷网| 97精品久久久中文字幕免费| 91精品短视频| 黄色a级片免费看| 国产精品一色哟哟哟| 开心激情五月网| 欧美片网站yy| 欧美三级理伦电影| 国产精品女人久久久久久| 精品香蕉视频| 美女喷白浆视频| 日本一区二区成人在线| 艳妇乳肉豪妇荡乳av无码福利 | 国产黄色小视频在线| 成人午夜激情网| 久久精品影视| aaaaaaaa毛片| 一区二区三区精品| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 欧美精品中文字幕一区| 天堂精品久久久久| 国产成人永久免费视频| 成人福利在线看| 亚洲精品午夜国产va久久成人| 亚洲精品按摩视频| 成人av三级| 婷婷四房综合激情五月| 久久精品国产第一区二区三区| 黄色激情小视频| 日韩一区二区三区精品视频 | 亚洲高清在线精品| 无码精品在线观看| 国产成人一区二| 欧美国产一级| 伊人av在线播放| 精品福利一区二区| shkd中文字幕久久在线观看| 国产精品美女久久久久久免费 | 久99九色视频在线观看| 福利片一区二区| www黄色av| 日韩理论在线观看| 男人的天堂a在线| 国产91色在线|免| 天天色综合色| 四虎永久免费观看| 91福利视频久久久久| 麻豆av在线免费看| 国产精品区一区二区三含羞草| 亚洲一区二区三区免费在线观看 | 久久伦理在线| 国产精品99精品无码视亚| 欧美视频在线免费| 欧美成人hd| 精品乱码一区| 久久超级碰视频| 日韩精品一区二区av| 色婷婷综合成人av| 欧美日韩导航| 手机av在线免费| 精品国产999| 高h视频在线观看| 欧美日韩亚洲一区二区三区在线观看 | 亚洲九九在线| 在线免费看黄视频| 日韩欧美高清在线| 久久野战av| 黄页网站大全在线观看| 中文字幕免费观看一区| 日韩一级片免费观看| 国产日韩精品在线| 亚洲免费网站| 久久免费公开视频|