精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM會(huì)寫代碼≠推理+規(guī)劃!AAAI主席揭秘:代碼數(shù)據(jù)質(zhì)量太高|LeCun力贊

人工智能 新聞
亞利桑那州立大學(xué)教授揭秘代碼生成質(zhì)量高的原因:語言模型是一個(gè)近似檢索器,GitHub代碼質(zhì)量高,而文本數(shù)據(jù)中價(jià)值觀沖突太多,僅此而已!

自從ChatGPT發(fā)布后,各種基于大模型的產(chǎn)品也快速融入了普通人的生活中,但即便非AI從業(yè)者在使用過幾次后也可以發(fā)現(xiàn),大模型經(jīng)常會(huì)胡編亂造,生成錯(cuò)誤的事實(shí)。

不過對(duì)于程序員來說,把GPT-4等大模型當(dāng)作「代碼輔助生成工具」來用的效果明顯要比「事實(shí)檢索工具」要好用很多,因?yàn)榇a生成往往會(huì)涉及到復(fù)雜的邏輯分析等,所以也有人將這種推理(廣義規(guī)劃)能力歸因于大型語言模型(LLM)的涌現(xiàn)。

學(xué)術(shù)界也一直在就「LLM能否推理」這個(gè)問題爭(zhēng)論不休。

圖片

最近,計(jì)算機(jī)科學(xué)家、亞利桑那州立大學(xué)教授Subbarao Kambhampati(Rao)以「LLM真的能推理和規(guī)劃嗎?」(Can LLMs Really Reason & Plan?)為題,全面總結(jié)了語言模型在推理和規(guī)劃方面的研究成果,其中也談到了LLM的代碼生成與推理能力的關(guān)聯(lián)。

圖片

視頻鏈接:https://www.youtube.com/watch?v=uTXXYi75QCU

PPT鏈接:https://www.dropbox.com/scl/fi/g3qm2zevcfkp73wik2bz2/SCAI-AI-Day-talk-Final-as-given.pdf

一句話總結(jié):LLM的代碼生成質(zhì)量比英語(自然語言)生成質(zhì)量更高,只能說明「在GitHub上進(jìn)行近似檢索」要比「通用Web上檢索」更容易,而不能反映出任何潛在的推理能力。

造成這種差異的原因主要有兩個(gè):

1. 用于LLM訓(xùn)練的代碼數(shù)據(jù)質(zhì)量要比文本質(zhì)量更高

2. 形式語言中「語法和語義的距離」比高度靈活的自然語言要低

圖片

圖靈獎(jiǎng)得主Yann LeCun也表示贊同:自回歸LLM對(duì)編碼非常有幫助,即便LLM真的不具備規(guī)劃能力。

Rao教授是AAAI的主席,IJCAI的理事,以及Partnership on AI的創(chuàng)始董事會(huì)成員;他的主要研究方向?yàn)椋?/span>

圖片

1. 面向人類的AI系統(tǒng)(Human-Aware AI Systems):可解釋的人工智能交互。人工智能系統(tǒng)的規(guī)劃和決策。人機(jī)組隊(duì)。主動(dòng)決策支持。可學(xué)習(xí)的規(guī)劃模型和Model Lite規(guī)劃。可解釋的行為和解釋。人為因素評(píng)估。

2. 自動(dòng)規(guī)劃(Automated Planning,AI):度量、時(shí)間、部分可訪問和隨機(jī)世界中的規(guī)劃合成、啟發(fā)式方法。規(guī)劃的多目標(biāo)優(yōu)化。用富有表現(xiàn)力的動(dòng)作推理。行程安排。加快學(xué)習(xí)以幫助規(guī)劃者。約束滿足與運(yùn)籌學(xué)技術(shù)。規(guī)劃在自動(dòng)化制造和空間自主方面的應(yīng)用。

3. 社交媒體分析與信息整合(Social Media Analysis & Information Integration):社交媒體平臺(tái)上的人類行為分析。信息集成中用于查詢優(yōu)化和執(zhí)行的自適應(yīng)技術(shù)。源發(fā)現(xiàn)和源元數(shù)據(jù)學(xué)習(xí)。

代碼生成≠推理+規(guī)劃

已故的計(jì)算機(jī)科學(xué)家Drew McDermott曾經(jīng)說過,規(guī)劃只是一種語言的自動(dòng)編程,每個(gè)原語都對(duì)應(yīng)于可執(zhí)行的操作(planning is just automatic programming on a language with primitives corresponding to executable actions)。

也就是說,廣義上的規(guī)劃可以寫成程序,如果GPT-4或其他大模型可以正確地生成代碼,那也就證明了LLM具有規(guī)劃能力。

比如說去年5月,英偉達(dá)、加州理工等研究團(tuán)隊(duì)合作開發(fā)出了Voyager(旅行者)智能體,也是Minecraft(《我的世界》游戲)中首個(gè)基于LLM的具身、終身學(xué)習(xí)智能體(embodied lifelong learning agent),可以不斷探索世界,獲得各種技能,并在沒有人為干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。

論文鏈接:https://arxiv.org/abs/2305.16291

Voyager的核心思想就是讓LLM輸出代碼來執(zhí)行任務(wù),并且在模擬器中運(yùn)行,包含三個(gè)關(guān)鍵組件:最大化探索(exploration)的自動(dòng)課程(curriculum );用于存儲(chǔ)和檢索復(fù)雜行為的可執(zhí)行代碼的不斷增長(zhǎng)的技能庫(kù);新的迭代提示機(jī)制,包含環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證以改進(jìn)程序。

Voyager通過黑盒查詢與GPT-4進(jìn)行交互,從而無需對(duì)模型參數(shù)進(jìn)行微調(diào)。

雖然還有其他類似Voyager的工作可以利用LLM以代碼生成的方式完成規(guī)劃,但這也并不能證明LLM就具有規(guī)劃能力。

從原理上說,LLM本質(zhì)上是一個(gè)近似檢索器(approximate retrieval),能否成功規(guī)劃取決于訓(xùn)練數(shù)據(jù)的質(zhì)量。

在自然語言生成上,LLM需要吞噬海量數(shù)據(jù),其中很多數(shù)據(jù)在事實(shí)基礎(chǔ)或是價(jià)值體系上都存在很大分歧,比如地平論者和疫苗反對(duì)者也有自己的一套理論,可以寫出令人信服的文章。

而在代碼生成上,訓(xùn)練數(shù)據(jù)主要來自GitHub上的開源代碼,其中大部分都是「有效數(shù)據(jù)」,而且軟件工程師的價(jià)值體系對(duì)代碼的質(zhì)量影響微乎其微,這也可以解釋為什么代碼生成的質(zhì)量要比文本補(bǔ)全的質(zhì)量更高。

盡管如此,但代碼生成的本質(zhì)上仍然是近似檢索,其正確性無法保證,所以在使用GitHub Copilot等輔助工具時(shí),經(jīng)常可以看到有人抱怨花了太長(zhǎng)時(shí)間在生成代碼的調(diào)試上,生成的代碼往往看似運(yùn)行良好,但背地里蘊(yùn)藏bug

代碼看起來能正常運(yùn)行的部分原因可以歸結(jié)為兩個(gè)原因:

1. 系統(tǒng)中存在一個(gè)輔助工具(增量解釋器),可以標(biāo)記處明顯的執(zhí)行異常,可以讓人類程序員在調(diào)試過程中注意到;

2. 語法上正確的代碼段在語義上也可能是正確的,雖然無法完全保證,但語法正確是可執(zhí)行的先決條件(對(duì)于自然語言來說也是如此)。

語言模型的自我驗(yàn)證

在少數(shù)情況下,例如上面提到的Voyager模型,其開發(fā)者聲稱:生成的代碼質(zhì)量已經(jīng)足夠好,可以直接在世界上運(yùn)行,但仔細(xì)閱讀就會(huì)發(fā)現(xiàn),這種效果主要依賴于世界對(duì)規(guī)劃模糊性的寬容。

某些論文中也會(huì)采用「LLM自我驗(yàn)證」(self-verify,self-critique自我批評(píng))的方式,即在運(yùn)行代碼之前在目標(biāo)場(chǎng)景中嘗試執(zhí)行驗(yàn)證一次,但同樣,沒有理由相信LLM具有自我驗(yàn)證的能力。

下面兩篇論文就對(duì)模型的驗(yàn)證能力產(chǎn)生質(zhì)疑。

論文鏈接:https://arxiv.org/abs/2310.12397

這篇論文系統(tǒng)地研究LLMs的迭代提示的有效性在圖著色(Graph Coloring)的背景下(一個(gè)典型的NP完全推理問題),涉及到命題可滿足性以及實(shí)際問題,如調(diào)度和分配;文中提出了一個(gè)原則性的實(shí)證研究GPT4在解決圖著色實(shí)例或驗(yàn)證候選著色的正確性的性能。

在迭代模式中,研究人員要求模型來驗(yàn)證自己的答案,并用外部正確的推理機(jī)來驗(yàn)證所提出的解決方案。

結(jié)果發(fā)現(xiàn):

1. LLMs在解決圖著色實(shí)例方面很差;

2. 在驗(yàn)證解決方案方面并沒有更好的表現(xiàn)-因此在迭代模式下,LLMs批評(píng)LLM生成的解決方案無效;

3. 批評(píng)的正確性和內(nèi)容(LLMs本身和外部求解器)似乎在很大程度上與迭代提示的性能無關(guān)。

第二篇論文研究了大模型能否通過自我批評(píng)來改進(jìn)規(guī)劃。

論文鏈接:https://arxiv.org/abs/2310.08118

這篇論文的研究結(jié)果表明,自我批評(píng)似乎會(huì)降低規(guī)劃生成性能,在使用GPT-4的情況下,無論是外部驗(yàn)證器還是自我驗(yàn)證器都在該系統(tǒng)中產(chǎn)生了非常多的誤報(bào),損害了系統(tǒng)的可靠性。

并且反饋信號(hào)為二元(正確、錯(cuò)誤)和詳細(xì)信息對(duì)規(guī)劃生成的影響都很小,即LLM在自我批評(píng)、迭代規(guī)劃任務(wù)框架下的有效性值得懷疑。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-01-29 09:40:00

AI訓(xùn)練

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-11-24 17:01:30

模型推理

2025-03-05 04:00:00

2021-02-18 00:02:53

數(shù)據(jù)庫(kù)工具低代碼

2013-03-04 09:46:06

2013-08-23 14:22:45

SA系統(tǒng)管理員運(yùn)維

2015-12-09 15:12:13

產(chǎn)品經(jīng)理寫代碼

2013-03-21 10:51:06

開發(fā)者代碼質(zhì)量開發(fā)經(jīng)驗(yàn)

2025-02-05 09:10:00

2018-06-03 08:22:55

Oracle云計(jì)算開源

2022-03-25 09:22:42

代碼開發(fā)

2025-06-23 08:30:05

2020-02-10 20:16:04

程序員AI人工智能

2011-07-18 09:29:39

項(xiàng)目經(jīng)理

2018-01-02 13:30:04

代碼質(zhì)量代碼預(yù)言

2012-11-07 09:48:26

2025-02-25 10:21:15

2023-06-09 13:37:00

排行模型

2021-02-20 08:05:35

代碼效率C++
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产日产一区| heyzo在线欧美播放| 乱人伦精品视频在线观看| 精品国产乱码久久久久久久 | 日本久久高清视频| 91精品国产综合久| 亚洲深深色噜噜狠狠爱网站| 欧美日韩激情在线| 亚洲在线色站| 精品人妻无码一区二区| 成年网站在线| 日韩不卡一区二区三区| 一区三区二区视频| 日韩av在线中文| 久草免费在线观看| 国产黄色精品网站| 午夜欧美不卡精品aaaaa| 少妇精品一区二区| 欧美性猛交xxx高清大费中文| 国产网站一区二区三区| 青青精品视频播放| 欧美性猛交xxxx乱大交少妇| 欧一区二区三区| 亚洲高清免费一级二级三级| 免费h精品视频在线播放| 亚洲中文一区二区三区| 黑人一区二区| 亚洲欧美中文日韩在线| 91网址在线观看精品| 超碰激情在线| 国产精品免费久久久久| 亚洲专区在线视频| 欧美一区二区三区爽爽爽| 巨人精品**| 欧美日韩一二三| a级黄色小视频| 日本中文在线观看| 白白色 亚洲乱淫| 国产精品在线看| 国产在线观看免费视频今夜| 精品国产91| 欧美老人xxxx18| 欧美亚洲另类色图| yw193.com尤物在线| 国产**成人网毛片九色| 国产精品丝袜久久久久久不卡| 久久久久99精品成人片毛片| 成人区精品一区二区婷婷| 精品精品欲导航| 182午夜在线观看| 在线播放高清视频www| 亚洲私人黄色宅男| 亚洲激情图片| www.av黄色| 美腿丝袜亚洲一区| 1769国产精品| 久久久久久久伊人| 91精品啪在线观看国产18| 亚洲欧美国产精品va在线观看| 日本中文字幕精品| 亚洲男人在线| 欧美在线观看视频一区二区| 男女超爽视频免费播放| av男人的天堂在线| 久久免费看少妇高潮| 国产在线欧美日韩| 成人无码一区二区三区| 国产一区二区在线观看免费| 国产精品极品美女粉嫩高清在线| 成年人免费高清视频| 精久久久久久| 欧美高清视频在线观看| 欧美亚洲日本在线| 久久久9色精品国产一区二区三区| 永久免费精品影视网站| 在线国产视频一区| 欧美激情在线精品一区二区三区| 日韩精品亚洲视频| xxxx黄色片| 里番精品3d一二三区| 亚洲国产精品久久久久秋霞不卡| 国产一精品一aⅴ一免费| 91综合久久爱com| 日韩精品中文字幕在线一区| 亚洲第一天堂久久| 亚洲欧美专区| 欧美一区二区国产| 亚洲第一色av| 欧美经典影片视频网站| 日韩精品一区在线| 丰满熟女人妻一区二区三区| 国产精品对白| 日韩av在线资源| 3d动漫精品啪啪一区二区下载| 久久伊人精品| 精品91自产拍在线观看一区| 国产精品无码专区| 成人羞羞网站入口| 欧美成人免费全部| www成人在线| 捆绑调教一区二区三区| 超碰97国产在线| 男人久久精品| 自拍偷拍欧美精品| 大陆极品少妇内射aaaaa| 粉嫩av一区二区三区四区五区| 制服视频三区第一页精品| 国产老熟女伦老熟妇露脸| 日韩精品二区| 69视频在线播放| 亚洲特级黄色片| 成人国产精品视频| 亚洲欧美综合一区| 91豆花视频在线播放| 欧美最猛黑人xxxxx猛交| 特黄特黄一级片| 国产成人ay| 久久久久中文字幕2018| 自拍偷拍精品视频| av一二三不卡影片| 欧美精品一区二区性色a+v| 周于希免费高清在线观看| 4438亚洲最大| 人妻视频一区二区| 一区二区三区导航| 亚洲自拍高清视频网站| 在线激情免费视频| 欧美午夜视频一区二区| 一级全黄裸体片| 97国产精品| 国产ts一区二区| 免费观看黄一级视频| 国产精品久久久久9999吃药| 欧美成人一区二区在线观看| 在线精品国产亚洲| 久久久国产一区二区| 青青草视频在线观看免费| 成人av在线资源网站| 国产日本欧美在线| 成人在线视频免费看| 亚洲男子天堂网| 日韩av在线电影| 国产一区二区精品在线观看| 亚洲欧洲精品在线观看| 日本乱码一区二区三区不卡| 精品嫩草影院久久| 欧美黑人猛猛猛| 狠狠色综合播放一区二区| 图片区小说区区亚洲五月| sis001欧美| 亚洲精品自拍偷拍| 国产精品黄色网| 99久久精品免费观看| 男女超爽视频免费播放| 欧美电影免费网站| 国产综合在线视频| 日韩一级免费视频| 亚洲成人免费视| 日韩免费高清一区二区| 亚洲激情网站| 国产精品二区三区四区| xxx.xxx欧美| 日韩精品一二三四区| 亚洲欧美偷拍视频| 久久精品水蜜桃av综合天堂| 成人精品视频一区二区| 国产尤物久久久| 国产精品视频资源| 久草免费在线| 精品三级在线观看| 日本网站在线播放| 久久丝袜美腿综合| 中文字幕视频在线免费观看| 久久要要av| 99久re热视频这里只有精品6| 蜜桃传媒在线观看免费进入| 日韩成人网免费视频| 秋霞av一区二区三区| 国产精品日韩成人| 国产精品久久久久久9999| 欧美午夜在线| 免费不卡亚洲欧美| 四虎国产精品免费久久| 久久久久国产精品免费| 日本不卡免费播放| 欧美精品乱码久久久久久| 国产极品国产极品| 91在线免费视频观看| av无码精品一区二区三区| 国产精品精品国产一区二区| 国产精品麻豆免费版| 吉吉日韩欧美| 久久成人亚洲精品| 五月婷婷狠狠干| 欧美日韩三级一区二区| 免费一级片在线观看| 久久久久久久久久久久久久久99 | 欧美日一区二区三区| 久久久国产精品免费| 污污视频在线观看网站| 欧美日韩亚洲综合一区二区三区| 九九热精彩视频| 久久婷婷国产综合国色天香| 手机在线观看日韩av| 三级精品在线观看| 黄色一级片国产| 精品国产一区二区三区| 国产精品xxx在线观看www| 国产精品伊人| 欧洲亚洲免费视频| 中文字幕在线三区| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 蜜桃视频在线观看视频| 日韩欧美一级特黄在线播放| 精品久久久久久久久久久国产字幕| 亚洲女人小视频在线观看| 青青草福利视频| 成人一级片在线观看| 色播五月综合网| 国产日韩欧美三级| av一区二区三区免费观看| 成人同人动漫免费观看 | 免费看黄网站在线观看| 欧美理论片在线| 久久精品久久久久久久| 一个色妞综合视频在线观看| 91精品少妇一区二区三区蜜桃臀| 国产亚洲精品免费| 黄色性生活一级片| 国产成人av电影在线| 亚洲最大天堂网| 三级亚洲高清视频| 波多野结衣之无限发射| 国一区二区在线观看| 一区在线电影| 成人女性视频| 色99中文字幕| 国产99亚洲| 久久精品国产精品青草色艺| 动漫视频在线一区| 99高清视频有精品视频| 日韩黄色碟片| 国产日本欧美一区二区三区在线 | 亚洲综合第一页| 亚洲免费一区| 91久久嫩草影院一区二区| 91p九色成人| 国产精品久久久久久久av电影| 中文字幕高清在线播放| 91精品国产色综合久久不卡98| 国模私拍视频在线播放| 欧美丰满老妇厨房牲生活| 最新av在线播放| 久久综合亚洲社区| 免费大片黄在线| 北条麻妃在线一区二区| 男女啪啪在线观看| 久久精品国产96久久久香蕉| 午夜在线视频播放| 色偷偷av亚洲男人的天堂| av片在线免费观看| 色偷偷综合社区| 黄黄的网站在线观看| 久久精品99久久久久久久久 | wwwxxxx国产| 日韩精品中文字幕在线一区| 高h放荡受浪受bl| 精品蜜桃在线看| 五月婷婷在线观看视频| 亚洲美女av网站| av每日在线更新| 美女性感视频久久久| 成人在线免费观看黄色| 欧美亚洲成人xxx| 最新日韩一区| 91久久在线观看| 麻豆一区二区| 日韩国产高清一区| 欧美电影免费观看高清| 在线观看av的网址| 国产精品亚洲综合久久| 黄色片在线免费| 精品久久一区| 一区二区精品国产| 欧美激情日韩| 国产精品秘入口18禁麻豆免会员 | 91国在线精品国内播放| 天堂久久午夜av| 亚洲自拍小视频免费观看| 久久综合社区| 一级二级三级欧美| 国产精品av一区二区| 日韩久久一级片| 韩国精品久久久| 中文字幕影片免费在线观看| 中文字幕成人av| 国产亚洲欧美精品久久久www| 欧美性极品xxxx做受| 伊人久久国产精品| 日韩一区二区三区观看| 秋霞av在线| 久久精品影视伊人网| 毛片电影在线| 成人精品在线观看| 青青视频一区二区| 一区二区免费在线视频| 伊人久久亚洲热| 一本色道久久亚洲综合精品蜜桃| 成人午夜电影网站| 欧美亚洲色综久久精品国产| 亚洲国产视频a| 中文字幕自拍偷拍| 亚洲黄页视频免费观看| 午夜在线小视频| 日本免费一区二区三区视频观看| 国产高清日韩| 日本高清久久一区二区三区| 国产一区美女| 中文字幕精品一区二区三区在线| 99久久久久久99| 男人的天堂久久久| 欧美三级欧美一级| 天堂网www中文在线| 欧美成aaa人片免费看| 视频一区在线免费看| 精品国产乱码久久久久久蜜柚| 久久久久久久久99精品大| 国产一级特黄a大片免费| av中文字幕一区| 久久久久亚洲AV成人| 欧美日韩在线一区二区| 亚洲日本在线播放| 久久久久久久久久国产精品| 亚洲欧美在线人成swag| 亚洲区一区二区三区| 乱人伦精品视频在线观看| 久久久久成人精品无码中文字幕| 亚洲免费观看高清| 国产精品毛片一区视频播 | 超碰97人人干| 午夜成人免费视频| 丰满人妻一区二区| 欧美久久久精品| 97久久精品一区二区三区的观看方式| 日韩一区二区三区资源| 久久综合网络一区二区| 香蕉视频黄色在线观看| 狠狠色噜噜狠狠狠狠97| 丰满少妇高潮在线观看| 欧美黄色免费网站| 亚洲2区在线| 国产日韩亚洲欧美在线| 国产激情一区二区三区四区| 日韩女优一区二区| 日韩美一区二区三区| 超碰在线最新网址| 国产欧美综合精品一区二区| 亚洲精品国产日韩| 艳妇乳肉豪妇荡乳xxx| 天天综合网天天综合色| 日本在线视频1区| 日韩男女性生活视频| 国产成人精品三级高清久久91| 日韩亚洲在线视频| 中文字幕免费观看一区| 一区二区自拍偷拍| 久久综合久中文字幕青草| av一级亚洲| 国产一区二区在线视频播放| 久久精品视频一区| 这里只有久久精品视频| 日韩性生活视频| 亚洲午夜免费| 日韩中文字幕三区| 欧美国产日韩亚洲一区| 一区二区美女视频| xx视频.9999.com| japanese色系久久精品| 日韩av三级在线| 欧美国产一区在线| 国产精品久久久久久久一区二区 | 成人爽a毛片免费啪啪| 日本一区视频在线| 久久精品国产免费| 免费又黄又爽又色的视频| 亚洲激情视频在线| 台湾成人免费视频| 在线观看成人免费| av网站一区二区三区| 97人妻精品视频一区| 久久91亚洲人成电影网站| 羞羞答答一区二区| 久久久久久久久久一区二区| 亚洲一区二区三区中文字幕| 久久久资源网| 99精品国产高清一区二区| 老司机免费视频久久| 久青草免费视频| 亚洲性无码av在线| 中文字幕久久精品一区二区|