精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

新聞 人工智能 算法
DeepMind 的一項研究登上《Nature》封面,通過引導直覺解決了兩大數學難題;之后,OpenAI 教 GPT-3 學會了上網,能夠使用基于文本的 Web 瀏覽器。

  

前段時間,DeepMind 的一項研究登上《Nature》封面,通過引導直覺解決了兩大數學難題;之后,OpenAI 教 GPT-3 學會了上網,能夠使用基于文本的 Web 瀏覽器。

就在 2021 年的最后一天, MIT 與哥倫比亞大學、哈佛大學、滑鐵盧大學的聯合研究團隊發表了一篇長達 114 頁的論文,提出了首個可以大規模自動解決、評分和生成大學水平數學問題的模型,可以說是人工智能和高等教育的一個重要里程碑。其實在這項研究之前,人們普遍認為神經網絡無法解決高等數學問題。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

值得一提的是,該研究用到了 OpenAI 的 Codex。

這項研究有多厲害呢?我們以下圖為例,下圖展示了計算洛倫茨吸引子及其投影,計算和演示奇異值分解 (SVD) 方法的幾何形狀等。機器學習模型很難解決上述問題,但這項研究表明它們不僅可以解決這些問題,還可以大規模解決所屬課程以及許多此類課程問題。

該研究表明對文本進行預訓練并在代碼上進行微調的神經網絡,可以通過程序合成(program synthesis)解決數學問題。具體而言,該研究可將數學問題轉化為編程任務,自動生成程序,然后執行,以解決 MIT 數學課程問題和來自 MATH 數據集的問題。其中,MATH 數據集是專門用于評估數學推理的高等數學問題最新基準,涵蓋初級代數、代數、計數與概率、數論與微積分。

此外,該研究還探索了一些提示(prompt)生成方法,使 Transformer 能夠為相應主題生成問題解決程序,包括帶有圖象的解決方案。通過量化原始問題和轉換后的提示之間的差距,該研究評估了生成問題的質量和難度。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

論文地址:https://arxiv.org/pdf/2112.15594.pdf

方法

數據集

該研究首先從 MIT 的以下六門課程中,每門課程隨機選取了 25 個問題:

  • 單變量微積分;
  • 多元微積分;
  • 微分方程;
  • 概率與統計概論;
  • 線性代數;
  • 計算機科學數學。

對于 MATH 數據集,該研究從每個主題中隨機抽取 5 個問題,并通過在應用線性代數新課程 COMS3251 上的實驗驗證了該方法的結果不僅僅是過擬合訓練數據。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

方法流程

如下圖 2 所示,該研究使用 Codex 將課程問題轉換為編程任務并運行程序以解決數學問題。下圖共包含 A-E 5 個面板,每個面板的左側部分顯示了原始問題和重新表述的提示,其中提示是通過添加上下文、交互、簡化描述等形成的。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

該研究將從原始課程問題到 Codex 提示的轉換分為以下三類:

  • 原生提示:Codex 提示和原始問題相同;
  • 自動提示轉換:Codex 提示和原始問題不同,由 Codex 自動生成;
  • 手動提示轉換:Codex 提示和原始問題不同,由人工生成。

問題與提示之間的差距

將問題轉換為 Codex 提示的關鍵是:從語義上講,原始問題與產生正確解決方案的提示之間的接近程度。為了度量原始問題和成功提示之間的差距,該研究使用 Sentence-BERT 嵌入之間的余弦相似度,如下圖 3 所示。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

Sentence-BERT 使用 siamese 和 triplet 神經網絡結構對預訓練的 BERT 模型進行微調。其中至關重要的是,Sentence-BERT 能夠在句子級別生成語義嵌入,從而可以在長文本之間進行語義相似性比較。

在該研究的實驗中,原始問題和生成正確答案的提示之間的相似度如下圖 4 所示。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

Codex 用于提示生成

在某些課程中,直接使用未轉換的原始問題提示 Codex,無法產生正確的解決方案。因此,需要將原始問題轉化為 Codex 可以處理的形式,主要分為以下三類:

  • 主題上下文形式:該形式為 Codex 提供了與一般課程和特定問題相關的主題和子主題,以幫助指導 Codex 生成相關正確的答案。例如,對于概率中的條件期望問題,提供有關貝葉斯定理、期望等的上下文信息會很有幫助。
  • 庫上下文:該形式為 Codex 提供了解決給定問題所需的編程包 / 庫。例如,指導 Codex 使用 Python 中的 numpy 包來解決線性代數問題。
  • 定義上下文:很多時候,Codex 對某些術語的定義缺乏現實背景。舉例來說,Codex 不理解撲克牌中的 Full House 是什么意思。因此讓 Codex 理解這些術語并明確定義,可以更好地指導其程序合成。

生成問題以及人類評估

該研究使用 Codex 為每門課程生成新的問題,通過數據集創建有編號的問題列表來完成,這個列表在生成隨機數量的問題之后會被截斷斷,結果將用于提示 Codex 生成下一個問題。不斷的重復這個過程,就可以為每門課程產生許多新的問題。

該研究對參加過這些課程或同等課程的、來自 MIT 和哥倫比亞大學的學生進行了一項長期調查。調查的目的是比較每門課程機器生成的問題與人工編寫的問題的質量和難度。該研究為每門 MIT 的課程隨機抽取五個原始問題和五個生成的問題。在調查中,學生被要求閱讀每門課程的十個問題,這些問題是人工編寫的問題和機器生成的問題的混合。

對于 60 個問題中的每一個,學生都被問到三個問題,如圖 5 所示:他們是否認為給定的問題是 (i) 人工編寫的或機器生成的,(ii) 適合或不適合特定課程,以及 (iii) ) 在 1(最簡單)和 5(最難)之間的范圍內,問題的難度級別是多少。要求學生提供他們對數學問題的評分,而不是解決這些問題。該調查以在線和匿名的形式提供。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

調研結果

問題求解

研究者共求解了補充資料中展示的 210 個問題,其中包括 6 門課程各自對應的 25 個隨機問題以及 MATH 數據集中 6 個主題(初級代數、代數、數論、計數與概率、中極代數、微積分)各自對應的 10 個隨機問題。

生成新問題

研究者生成了 120 個新問題,其中包括 6 門課程和 6 個 MATH 主題各自對應的 10 個新問題。下表 2 展示了每門課程和每個 MATH 主題對應的一個生成問題。生成一個問題只需不到 1 秒的時間,研究者可以生成任意數量的問題。他們為 Codex 能夠生成正確答案的 25 個隨機選擇的問題創建了提示,切入隨機問題,并讓 Codex 完成下一個新問題。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

學生調研結果

研究者表示,共有 13 位參與者完成了全部 60 個問題的問答調研,平均耗時 40 分鐘。下圖 6 總結了學生調研中人工編寫(human-written)和機器生成(machine-generated)問題的比較情況,并得出了以下幾項結果:

  • 機器生成的問題要比人工編寫的問題難度高,但在置信區間內;
  • 人工編寫的問題要比機器生成的問題更適合課程;
  • 人工編寫的問題更容易被認為人寫的,并且將機器生成問題看作機器生成和人工編寫的概率相同。
AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

答案定級

Codex 能夠回答所有隨機采樣的大學水平和 MATH 數據集數學問題,無論它們是原始狀態還是整理后狀態。

挑戰

研究者的方法還有一些無法解決的技術障礙。

1、輸入圖像。Codex 的一個基礎限制是它只能接收基于文本的輸入。因此,Codex 無法使用圖形或圖表等必要的視覺組件來回答問題。

2、高等數學證明。這項研究的另一個限制是缺乏對高等數學的證明。研究者強調稱,這是由研究自身的廣度而不是 Codex 的證明能力導致的。事實上,該研究中提交至 Codex 的大多數簡單分析證明都已成功地被執行,這令人震驚,因為證明通常不是基于代碼的。

3、程序評估。該研究的最后一步是執行程序,例如使用 Python 解釋器。參加大學水平課程的學生也會編寫代碼來解決他們的部分問題。因此,該研究以與人類學生相同的方式測試神經網絡解決問題的能力,讓他們使用必要的工具。還有關于神經程序評估的工作,演示了使用機器學習來預測程序輸出。LSTM 用于成功預測某些線性時間和恒定空間程序的輸出 (18)。這些都增加了內存暫存器以允許更大的程序類別 (19)。最近的方法使用因果 GNN (20) 和 transformer (21)。盡管評估任意代碼是不可判定的,但特殊情況,例如由另一個 transformer 生成的用于解決簡單數學問題的程序,原則上應該是可學習的。

4、理論復雜性。計算復雜度的結果表明,該研究無法解決大學數學課程中一般問題的每一個具體實例。例如,以下問題具有難以處理的結果:向量 v 可以表示為來自集合 S 的向量之和嗎?以下一階微分方程的解是什么?但是,我們知道作業和考試給出的問題可以由人類解決,因此這些復雜性結果不適用于該研究的特定實例解決。

 

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2020-11-25 15:58:59

AI 數據人工智能

2023-10-14 13:06:11

AI視頻

2020-08-24 14:25:02

AI 數據人工智能

2023-07-11 13:07:53

中國AI麻將

2025-07-02 07:25:00

惡意數據集LLMAI

2025-04-15 08:01:12

2011-10-13 10:08:51

iOS 5iOS

2016-11-10 16:28:04

2020-06-09 10:15:21

模型人工智能自然語言

2015-09-14 16:12:12

云計算大數據高度

2020-11-17 20:25:22

智能人機數智化

2025-01-23 20:42:44

2020-07-03 18:01:06

邊緣計算物聯網技術

2024-09-25 14:57:52

2025-04-17 14:19:46

2025-05-21 09:04:38

點贊
收藏

51CTO技術棧公眾號

日韩视频在线视频| 亚洲tv在线观看| xxx在线播放| 日本肉肉一区| 怡红院av一区二区三区| 国产精品伊人日日| 日韩欧美在线观看免费| 日本大胆欧美| 欧美精品一区二区三区四区 | 亚洲3atv精品一区二区三区| 精品卡一卡二| 在线观看免费观看在线| 牛夜精品久久久久久久99黑人| 日韩av影片在线观看| 一区二区三区网址| √8天堂资源地址中文在线| 国产人妖乱国产精品人妖| 91gao视频| 波多野结衣电车痴汉| 国产一区日韩一区| 中国人与牲禽动交精品| xxxwww国产| 午夜精品久久久久久毛片| 天天色 色综合| 好吊色这里只有精品| 黄色在线视频观看网站| 国v精品久久久网| 国产精品视频久| 日本一区二区三区四区五区| 91欧美日韩| 亚洲欧美激情在线视频| 影音先锋资源av| 国产日本亚洲| 欧美日韩国产精选| 国产无套内射久久久国产| 欧美hdxxx| 自拍av一区二区三区| 日韩精品欧美专区| 无套内谢的新婚少妇国语播放| 国产一区二区三区久久悠悠色av| 国产精品第10页| 综合网在线观看| 999亚洲国产精| 久久久久久91| 久久在线视频精品| 一区二区三区四区日韩| 色999日韩欧美国产| 国产一区二区三区精品在线| 视频福利一区| 日韩精品视频中文在线观看| 麻豆传媒在线看| 超碰国产精品一区二页| 欧美日本韩国一区二区三区视频 | 日韩欧美久久久| 天天干天天色天天干| 成人免费视频观看| 91黄视频在线观看| 无码内射中文字幕岛国片| 超碰一区二区| 日本韩国欧美国产| 无码人妻精品一区二区三区66| 成人教育av| 色噜噜狠狠成人网p站| 一本久道综合色婷婷五月| 伊人久久综合一区二区| 色猫猫国产区一区二在线视频| 狠狠爱免费视频| 深夜成人影院| 欧美日韩国产区一| 成人在线短视频| 四虎精品永久免费| 日韩久久免费av| 97人妻精品一区二区三区免费| 欧美日韩导航| 亚洲香蕉成视频在线观看| 日韩欧美黄色网址| 我不卡伦不卡影院| 久久久噜噜噜久久中文字免| 色播视频在线播放| 日韩有码一区二区三区| 成人福利网站在线观看| www.日韩在线观看| 95精品视频在线| 午夜精品视频在线观看一区二区 | 美日韩黄色大片| 亚洲免费一级电影| 后入内射无码人妻一区| 国产精品99一区二区| 青草青草久热精品视频在线网站 | 精品无人区一区二区三区| 人成免费电影一二三区在线观看| 欧美国产一区视频在线观看| www.亚洲一区二区| 三妻四妾的电影电视剧在线观看| 91福利视频久久久久| 欧美一级免费在线| 亚洲电影男人天堂| 色哟哟网站入口亚洲精品| 久草资源在线视频| 三级精品在线观看| 91中文字精品一区二区| 韩国三级在线观看久| 伊人夜夜躁av伊人久久| 日本熟妇人妻xxxxx| 精品中文字幕一区二区三区四区| 亚洲第一福利网站| 秋霞欧美一区二区三区视频免费| 亚洲精品九九| 91在线免费观看网站| 欧美成人片在线| 亚洲一区在线视频观看| 欧美成人黄色网址| 老牛国内精品亚洲成av人片| 久久夜色精品国产亚洲aⅴ| 少妇一级淫片免费放中国| 久久99热99| 欧美极品日韩| 色老头在线观看| 欧洲另类一二三四区| 白嫩情侣偷拍呻吟刺激| 我不卡影院28| 国产精品综合久久久| 天堂中文在线8| 亚洲一区二区在线免费观看视频| 久久久久国产一区| 久久超碰99| 91国语精品自产拍在线观看性色 | 亚洲女同性videos| 国产亚洲精品av| 精品系列免费在线观看| 日本精品一区二区三区视频| 黄色软件视频在线观看| 日韩欧美国产精品| 看免费黄色录像| 久久国产精品72免费观看| 欧美一区二区影视| 女厕盗摄一区二区三区| 亚洲成人av在线播放| 欧美黄色免费看| 黑人巨大精品欧美黑白配亚洲| 日韩精品一区二区三区色偷偷| 色在线中文字幕| 亚洲精品国产福利| av资源吧首页| 成人国产精品免费网站| 日韩国产小视频| 日本亚州欧洲精品不卡| 免费av一区二区| 国产老妇伦国产熟女老妇视频| 国产精品久久久久久久浪潮网站| 国产视频一区二区视频| 精品国产123区| 国产成人精品在线播放| wwwxxx在线观看| 欧美午夜宅男影院| 国产视频123区| 看片的网站亚洲| 少妇熟女一区二区| 日韩视频一区二区三区四区| 欧美疯狂做受xxxx高潮| 黄色片一区二区| 欧美日韩一区二区精品| 美女100%无挡| 蜜臀av性久久久久蜜臀aⅴ四虎 | 日本在线www| 9191久久久久久久久久久| 婷婷久久综合网| 国产99久久久久久免费看农村| 女人帮男人橹视频播放| 奇米影视777在线欧美电影观看| 欧美又大粗又爽又黄大片视频| 日韩黄色影片| 欧美精品自拍偷拍动漫精品| 日韩福利小视频| 懂色av一区二区三区免费看| 91专区在线观看| 国产精品一国产精品| 成人精品在线观看| av在线小说| 亚洲人成在线播放| 一区二区三区日| 亚洲第一狼人社区| 精品无人区无码乱码毛片国产| 久热成人在线视频| 国产91沈先生在线播放| 伊人久久大香线蕉无限次| 成人黄色短视频在线观看| av福利在线导航| 中文在线资源观看视频网站免费不卡| 97视频免费在线| 五月天精品一区二区三区| 免费网站在线高清观看| 国产高清在线精品| 国产成人精品无码播放| 欧美色图麻豆| 日韩jizzz| 中文字幕一区二区三区中文字幕 | 澳门成人av| 国产精品成久久久久三级| 3d玉蒲团在线观看| 亚洲欧美日韩中文在线制服| 国产精品高潮呻吟av| 欧美丝袜一区二区| 欧美日韩色视频| 久久久五月婷婷| 欧美激情一区二区三区p站| 日韩不卡在线观看日韩不卡视频| 国产成人一区二区三区别| 精品一区电影| 久久av一区二区三区漫画| 国产精品一区二区三区av| 国产成人精品在线视频| 97超碰免费在线| 久久这里只有精品99| 国产在线观看精品一区| 欧美精品一区二区三区蜜桃| 92久久精品一区二区| 色哟哟精品一区| 日韩手机在线观看| 一片黄亚洲嫩模| 午夜三级在线观看| 日本一区二区成人在线| 亚洲欧美色图视频| caoporen国产精品视频| 色欲无码人妻久久精品| 蜜桃av一区二区三区| 熟女少妇精品一区二区| 亚洲影院一区| 浮妇高潮喷白浆视频| 很黄很黄激情成人| 喜爱夜蒲2在线| 91久久高清国语自产拍| 日韩中文不卡| 精品视频亚洲| 色99中文字幕| 欧美日韩一区二区综合| 欧洲亚洲一区二区三区四区五区| 一区二区导航| 久久福利电影| 欧美黑人做爰爽爽爽| av一区和二区| 国产精品乱战久久久| 91亚色免费| 99久热这里只有精品视频免费观看| 91免费视频网站| 91精品一久久香蕉国产线看观看| 国产精品亚洲网站| 欧美成人免费全部网站| 国产精品久久久久影院日本| 国产精品亲子伦av一区二区三区| 国产精品久久久久久久久久免费| 刘亦菲一区二区三区免费看| 日韩av免费在线看| 国产电影一区二区三区爱妃记| 国产精品久久99久久| 欧美性aaa| 91在线高清免费观看| 日韩精品一级| 韩国成人av| 美日韩中文字幕| 亚洲开发第一视频在线播放| 国产精品99久久久久久动医院| 超碰免费在线公开| 欧美~级网站不卡| 国产不卡一区二区视频| 亚洲综合另类| 91淫黄看大片| 国产一区二区三区四区在线观看| 精品无码av一区二区三区不卡| 国产91丝袜在线观看| 亚洲精品乱码久久| 国产无遮挡一区二区三区毛片日本| 老鸭窝一区二区| 亚洲国产成人私人影院tom| 黄色片在线观看网站| 一级精品视频在线观看宜春院 | 伊人久久久大香线蕉综合直播| 日韩欧美国产综合在线| 欧美亚洲三区| 性欧美在线视频| 不卡一区二区在线| 精品人伦一区二区| 亚洲女女做受ⅹxx高潮| 香蕉免费毛片视频| 欧美猛男男办公室激情| 免费观看国产视频| 在线观看成人黄色| 七七久久电影网| 国产精品福利小视频| 日韩欧美久久| 日韩和欧美的一区二区| 午夜欧美精品久久久久久久| 黄色高清无遮挡| 国产精品99久久不卡二区| 毛片网站免费观看| 亚洲品质自拍视频网站| 亚洲天堂av片| 欧美一级黄色大片| 国产粉嫩一区二区三区在线观看| 久久久精品亚洲| 黑人巨大精品| 99久久精品无码一区二区毛片| 国产一区二区三区电影在线观看| 免费成人深夜夜行网站视频| 午夜亚洲一区| 国产伦理在线观看| 日本一二三四高清不卡| 97久久久久久久| 欧美一卡二卡在线观看| 国产原创av在线| 午夜精品蜜臀一区二区三区免费| 国内欧美日韩| 欧美裸体网站| 狠狠88综合久久久久综合网| 天堂av2020| 国产午夜精品一区二区三区视频 | 免费在线看黄| 国产精品久久久精品| 精品福利一区| 欧美日韩中文字幕在线播放 | 不卡的一区二区| 亚洲国产精品av| 亚洲欧美偷拍视频| 精品不卡在线视频| 在线观看中文| 91精品视频一区| 日韩免费av| 免费看a级黄色片| 久久精品亚洲精品国产欧美kt∨| 久久亚洲国产成人精品性色| 91精品国产手机| 天堂中文8资源在线8| 国产精品久久久久久久久久久久久| 亚洲理论电影| 亚洲人成色77777| 久久影院午夜论| 国产区一区二区三| 日韩电影免费观看在线观看| 福利网站在线观看| 国产99视频精品免费视频36| 亚洲破处大片| 中文字幕中文在线| 亚洲欧洲成人精品av97| 国产口爆吞精一区二区| 久久伊人精品天天| 日韩成人久久| 97在线国产视频| av资源站一区| 国产无人区码熟妇毛片多| 亚洲精品国产电影| 亚洲欧美一区二区三区| 久久久久久久久久久久久久久久av| 99精品国产在热久久| 人体私拍套图hdxxxx| 午夜电影网亚洲视频| 青青草手机在线| 国产91热爆ts人妖在线| 欧美色爱综合| 五月六月丁香婷婷| 亚洲精品免费看| 三级网站免费观看| 欧美亚洲视频一区二区| re久久精品视频| 中文字幕亚洲影院| 一区二区久久久久久| 日本免费网站在线观看| 欧美专区在线视频| 成人午夜av| 无套内谢丰满少妇中文字幕| 亚洲二区在线观看| 欧美捆绑视频| 国产在线播放不卡| 欧美三区视频| 国产精品毛片一区二区| 欧美日韩免费一区二区三区视频| 国内精品不卡| 国产综合欧美在线看| 日韩精品成人一区二区三区| 成人信息集中地| 日韩美女一区二区三区| 成人性生交大片免费观看网站| 亚州欧美一区三区三区在线| 国产一区二区三区视频在线播放| 日韩激情在线播放| 国产亚洲成精品久久| 国产精品毛片aⅴ一区二区三区| 国产精品日韩三级| 国产亚洲制服色| 国产婷婷在线视频| 欧美在线欧美在线| 亚洲女同中文字幕| 美国黄色a级片| 制服视频三区第一页精品| 日本不卡1234视频| 免费观看中文字幕| 26uuu亚洲综合色欧美 | 精品亚洲aⅴ在线观看| 日本a人精品| 99精品人妻少妇一区二区| 综合网在线视频|