精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%

發布于 2024-4-9 09:31
瀏覽
0收藏

ChatGPT,再一次打破人們對它的成見!


它用自己的優秀表現證明了,很多時候自己看似失敗的表現,只是因為人類不會正確地prompt而已。


這位名叫Taelin的程序員、初創公司Higher Order的創始人表示,下面這個腦筋急轉彎,大多數孩子都能在一分鐘內解決,然而所有的AI卻都慘遭失敗。


這也就成了他給GPT「判死刑」的一個鐵證——


GPT模型在訓練集之外,沒有任何推理能力。GPT永遠無法實現AGI。7萬億肯定是白燒的,是時候尋找新的算法了。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

為此,他向公眾社區發出了一項挑戰,任何能用LLM解決這個難題的人,將獲得10000美元的獎金。


然而——他!被!打!臉!了!


兩天后,一位網友僅通過提示,就讓模型解決這道問題時達到了接近100%的成功率。

Taelin迅速「滑跪」,發布聲明承認:我最初的主張是錯誤的。


我懷疑GPT架構是否能解決某些問題,毫無疑問,它可以解決。

并且,他如約給出了10000美元獎金。


沃頓商學院教授Ethan Mollick轉發了他的帖子,評論道——


「我們經常能看到這種現象:很多時候我們一個問題LLM無法解決,只有人類能解決,但其實LLM只是需要更好的提示而已。」

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

大賽始末

Taelin小哥用來考驗大模型的A::B問題,題干如下——

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

A::B是一個包含有4個token的系統:A#、#A、B#和#B。


A::B程序是一個token序列,例如:「B# A# #В #А В#」。


要計算一個程序,我們必須使用規則重寫相鄰token:


「A# #A」變成「無」

「A# # B」變成「#B A#」

「B# #A」變成「#A B#」

「B# #B」變成「無」


換句話說,只要兩個相鄰token符的「#」相向,就必須根據相應的規則進行改寫。

例如,第一個例子的計算方法是:


B# A# #B #A B#

= B# #B A# #A B#

= A# #A B#

= B#


步驟如下:


1. 將「A# #B」替換為「#B A#」。

2. 將「#B A#」替換「B# #B」。

3. 將「A# #A」替換為「無」。

最后的結果只有「B#」。


現在,請看下面這個程序:「A# B# B# #A B# #A #B」。


一步一步完成計算。


對此,他是這樣解釋的——「GPT永遠不會解決A::B問題」,因為:


1. GPT無法真正學習到訓練集之外的新問題;

  1. GPT無法進行長期的邏輯推理,不管這個推理過程看起來多么簡單。


而這兩點是發明新科學的必要條件。


畢竟,解決某些數學問題可能需要數年時間。


如果連一個15歲的孩子在智力任務上都比不過,那么就不可能證明黎曼假設。


1萬刀的挑戰長啥樣?


小哥給大家的挑戰就是,必須開發出一個AI提示,能夠解決隨機的12-token實例的A::B問題,并且成功率超過90%。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

挑戰地址:https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec

規則

1. AI將接受一個<problem/>來解決


XML標簽中的提示將作為系統提示用于解題。例如:

<problem>A# B# #B A# A# #B #B A# A# #B A# A#</problem>

?

2.AI必須在答案中以<solution/>結束

?

答案必須在AI的回答中(一次推理調用內)直接給出,格式為純文本(不是代碼),并放在XML標簽中。例如:

... work space ...
... work space ...
... work space ...
... work space ...
<solution>#B #B #B A# A# A# A# A# A# A#</solution>

3. AI答案最多可包含32K token


這個token數,已經足夠提供充足的空間,讓AI逐步解決問題和糾錯了。


4.你可以選擇任何一個公開的GPT模型

?

任何基于GPT(Transformer)架構的公開模型都可以,條件是它完全由注意力機制、正向傳播等來生成答案。


不允許使用其他架構,如SAT求解器。底層架構不明確的專有模型,也不允許使用。


作者推薦使用的是gpt-4-0314、gpt-4-turbo-preview或claude-3-opus-20240229,設置溫度為0.0(temperature=0.0)。開源模型亦可。但簡直對問題進行微調或訓練。


不允許訪問互聯網或執行代碼。答案必須在單次推理調用中自成一體。


而且,需要格外注意模型的輸出限制。12-token的實例可能需要36步才解決,如果超出限制,導致輸出中沒有答案,也視為無效。


5.你的提示可以包含任何內容,最多8K token


允許使用任何提示技術。你可以要求AI step-by-step,使用上下文暫存器,檢查錯誤,使用錨點。


允許提供論文、代碼、盡可能多的示例。


甚至允許向AI提供金錢和情感上的獎勵,或者對它威脅。


總之,只要在8K token以內,什么都可以。


一天內,有人成功揭榜

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

大賽開始后,才短短幾小時內,開發者們就提交了眾多解決方案。


然而,這些方案幾乎都毫無例外地失敗了,成功率只勉強達到10%。


小哥感覺,自己差不多穩了。


誰料想,就在這時,兩位網友提交了一個令人印象深刻的解決方案。


在他們精心設計的提示引導下,Claude-3 Opus展現出了驚人的能力——

它不僅能從少數示例中歸納出任意隨機情況,還能嚴格遵守規則進行長期計算,并且錯誤率幾乎為零。


Taelin測試后驚訝地發現,Claude-3 Opus居然取得了56%的驚人成功率!


隨后,先后有5位參賽者,分別用Opus和GPT-4達到了相似的成功率,甚至GPT-3.5都取得了不錯的成績。


到了當天深夜,竟然有網友提交了滿分答卷!


futuristfrog發布了一條推文,聲稱僅通過精心設計的提示就實現了近乎100%的成功率。

事實證明,他的確做到了。在小哥的首次測試中,他的方案在50次嘗試中成功了47次,因此贏得了獎金,圓滿完成了這一挑戰。

討論激烈

問題一出,便引發了激烈的討論。


有網友表示自己沒做任何修改,GPT-4就做了出來。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

但很快就被其他網友指出了錯誤。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

高贊回答表示,如果讓GPT-4編寫程序,這道題實際上是非常容易的。


但很明顯,你不能說LLM + Python就能得到AGI。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

與此同時,各路網友也紛紛開始提交自己做出的答案。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

但也有不少人認為,作者出的這道題,很有問題。


Eric (e/ass)表示,正如Karpathy多次指出的,token化問題是導致序列操作成功或失敗的關鍵因素。


如果在token化過程中出現了問題,那么即使是更簡單的字符串操作也無法順利完成。


相比之下,token化處理得較好的字符串(例如連續的兩個字母)就很容易進行操作。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

當然,這并不意味著GPT在管理規則排列的token的空間布局方面沒有本質的問題。


實際上,它在這方面的表現并不出色,而且將其分解為字節也并沒有太大幫助,因為這會使需要移動的數據單元占用更多空間。


與人類能夠進行動態分塊處理不同,目前的LLM還沒有找到有效的解決方案。


你提到的邏輯問題可能確實存在,但這個例子并沒有證明GPT存在無法克服的根本性限制。


或許隨著技術的進步會誕生更強的模型,但這并不意味著如今的Transformer在進行基本推理方面存在明顯的短板。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

Edgars Nem?e也認為,這不是因為GPT推理能力不行,而是被自己的「觀察」方式限制住了。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

作者解釋

最后,為了讓大家能更好地理解這個挑戰,我們來看一看Taelin自己的詳細解釋。


1.這個問題并非由token化引起的。即便是每個符號分配一個token,GPT-4、Opus等模型仍然無法解決這類問題。即使是基于字節的GPT模型也同樣失敗。不要總是將問題歸咎于token化。

2. GPT無法解決這類問題的根本原因在于,它們缺乏進行持續邏輯推理的能力。簡而言之,任何超出訓練集范圍、哪怕只需一丁點邏輯推理的「新問題」,GPT都無法應對。這正是我們想要證明的。

3. 強大如GPT-4或Opus之類的模型,其實質上是在其權重中「演化出了一位電路設計師」。但是,注意力機制作為一種計算模型的固定性,使得這種演化的電路無法展現足夠的靈活性。這就像AGI試圖在其中成長,但由于計算和通信的限制而無法做到。相比之下,人類的大腦始終在經歷著突觸可塑性變化。

4. 一個冷知識是,當前AI熱潮的很大一部分原因是人類不善于理解規模的巨大。一旦你記住了整個互聯網的內容,你看起來會非常聰明。

5. 盡管如此,GPT依然展現出了強大的能力。它們解決了許多現實世界的問題,將普通開發者的能力提升了數百倍,并以此加速了人類進步的步伐。我相信通用人工智能的到來已經近在咫尺。但它不會是GPT,也不會是任何基于梯度下降的形式。

6. 我的看法可能完全錯誤。畢竟,我只是互聯網上的一名普通人,而且經常犯錯。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/h51nWFOFIZKICCnsrVO_Ag??

標簽
收藏
回復
舉報
回復
相關推薦
国产69精品久久久久毛片| 四季av一区二区凹凸精品| 狠狠干狠狠久久| 日韩av影视| 国产色视频在线| 亚洲伊人网站| 久久99久久99精品中文字幕| 日本一区二区三区网站| 未满十八勿进黄网站一区不卡| 亚洲自拍偷拍av| 日本成人三级| 日本精品一区二区在线观看| 日韩精品欧美成人高清一区二区| 久久国产精品99国产精| 久久亚洲无码视频| 国产图片一区| 日韩一区二区在线看| 欧美性猛交久久久乱大交小说| 午夜小视频在线观看| 国产欧美一区二区三区沐欲 | 四虎影视成人精品国库在线观看 | 久久精品亚洲一区二区三区浴池| 91久热免费在线视频| 久久精品久久久久久久| 国产一区亚洲| 久久久精品国产| 五月婷婷欧美激情| 伊人久久大香线蕉综合网站| 欧美zozozo| 污污动漫在线观看| 欧美黑人疯狂性受xxxxx野外| 亚洲午夜免费电影| 日韩国产小视频| 欧美三级理伦电影| 欧美国产97人人爽人人喊| 久久一区免费| 污视频软件在线观看| 国产成人在线视频播放| 成人国产亚洲精品a区天堂华泰| 日韩在线 中文字幕| 亚洲精品极品| 97久久精品国产| 国产在线成人精品午夜| 欧美.www| 欧美精品少妇videofree| frxxee中国xxx麻豆hd| 91欧美在线| 日韩中文字幕视频在线观看| 久久精品三级视频| av中字幕久久| 最好看的2019的中文字幕视频| 色一情一交一乱一区二区三区| 午夜欧洲一区| 亚洲女同精品视频| 亚洲精品一区二区三区影院忠贞| 欧美热在线视频精品999| 日韩精品久久久久久福利| 成人网站免费观看| 国产亚洲一卡2卡3卡4卡新区 | 日本一区不卡| 你懂的视频在线观看| 久久午夜羞羞影院免费观看| 欧美国产一二三区| yiren22亚洲综合伊人22| 中国av一区二区三区| 伊人久久大香线蕉成人综合网 | 亚洲素人在线| 亚洲三级av在线| av片在线免费看| 一区二区三区在线观看免费| 久久99视频免费| 日韩久久久久久久久| 久热精品在线| 91精品久久久久久久久久入口| 国产suv一区二区| av电影在线观看不卡| 欧美性天天影院| 永久免费av在线| 一区二区在线观看免费视频播放| 欧美一级视频免费看| 久久sese| 欧美人成免费网站| 青青草视频网站| 欧美日韩一二三四| 色综合男人天堂| 手机在线看片1024| 国产一区二区三区黄视频 | 精品一区二区三区免费观看| 147欧美人体大胆444| 色综合成人av| 国产精品福利一区| 亚洲人精品午夜射精日韩| 视频一区在线免费看| 日韩欧美一区在线| 国产特级黄色录像| 午夜久久99| 国产成人短视频| 午夜精品久久久久久久99热黄桃 | 人偷久久久久久久偷女厕| 日本视频不卡| 欧美日韩一区二区在线| 嫩草视频免费在线观看| 久久1电影院| 日韩视频免费中文字幕| 久久久久99精品成人片三人毛片| 精一区二区三区| 蜜桃精品久久久久久久免费影院| 蜜桃视频在线观看www社区| 欧美小视频在线观看| 日本r级电影在线观看| 国产精品一区二区99| 欧美国产极速在线| 国产又粗又猛又爽| 国产午夜精品一区二区三区四区| 日韩国产小视频| 少妇高潮一区二区三区99| 亚洲精品视频久久| 激情五月婷婷在线| 国模大尺度一区二区三区| 欧洲精品亚洲精品| 三妻四妾的电影电视剧在线观看| 欧美丰满一区二区免费视频| 看全色黄大色黄女片18| 久久人人88| 国产精品久久一| 欧美3p视频在线观看| 婷婷一区二区三区| 女同性αv亚洲女同志| 99久久亚洲精品蜜臀| 国产v综合ⅴ日韩v欧美大片 | 在线观看不卡的av| xfplay精品久久| 激情深爱综合网| 久久99国产精品久久99大师| 欧美大秀在线观看| a视频免费在线观看| 椎名由奈av一区二区三区| 我要看一级黄色大片| 精品一区二区三区在线| 日本久久中文字幕| 免费在线观看一级毛片| 欧美性高跟鞋xxxxhd| 亚洲国产精品成人综合久久久| 狠狠入ady亚洲精品经典电影| 91亚洲国产成人精品性色| 麻豆系列在线观看| 欧美一区二区三区四区视频| 亚洲怡红院在线观看| 久久se精品一区二区| 在线视频精品一区| 国产一区二区三区免费在线 | 国产精品一区二区果冻传媒| 26uuu成人| 粉嫩一区二区三区在线观看| 久久影院资源网| 国产情侣在线播放| 夜夜嗨av一区二区三区四季av| 国产伦精品一区二区三区妓女下载 | 欧美一区日本一区韩国一区| 国产3级在线观看| 狠狠色丁香婷综合久久| 粉嫩av一区二区三区天美传媒| 日韩精品一区国产| 国内精品久久久| 日本人妖在线| 欧美日韩午夜精品| 老湿机69福利| 成人黄页在线观看| 国产精品少妇在线视频| 日韩欧美伦理| 999在线观看免费大全电视剧| 美女精品导航| 亚洲人成免费电影| 国产一区二区三区在线观看| 一区二区三区在线视频免费观看| 午夜剧场免费看| 日韩极品在线观看| 国产树林野战在线播放| 久久影院资源站| 国产精品高精视频免费| 91麻豆免费在线视频| 亚洲精品久久7777777| 最新国产中文字幕| 亚洲在线视频免费观看| av女人的天堂| 国产久卡久卡久卡久卡视频精品| 欧美精品一区二区三区三州| 国产成人短视频在线观看| 91久久在线视频| 成人免费看视频网站| 久久伊人精品视频| 免费在线视频你懂得| 日韩欧美中文字幕制服| 国产伦精品一区二区三区视频网站| 国产精品人妖ts系列视频| 亚洲天堂2024| 精品亚洲成a人在线观看| 日本日本19xxxⅹhd乱影响| 99精品美女| 免费观看成人高| 老司机亚洲精品一区二区| 日韩美女在线播放| 久久亚洲导航| 日韩视频在线一区| 日本国产在线| 欧美va亚洲va香蕉在线| 伊人网视频在线| 精品国产乱码久久久久久天美| 男人av资源站| 中文成人av在线| 国产精品三级在线观看无码| 国产suv一区二区三区88区| 精品日韩久久久| 国产美女精品| 精品一二三四五区| 亚洲精彩视频| 亚洲成人精品电影在线观看| 日日天天久久| 粉嫩av免费一区二区三区| 欧美在线se| 国产精品久久国产精品99gif| 久久久男人天堂| 欧美激情二区三区| 影音先锋男人资源在线| 色综合伊人色综合网站| 国产在线观看黄| 亚洲日韩欧美视频| 激情视频在线观看免费| 亚洲国产日韩欧美在线图片| 丰满岳乱妇国产精品一区| 91麻豆精品国产| 国产乱淫a∨片免费观看| 欧美日韩精品系列| 青青艹在线观看| 在线精品视频一区二区| 久久99国产综合精品免费| 香港成人在线视频| 1级黄色大片儿| 韩曰欧美视频免费观看| 中文字幕精品三级久久久 | 在线观看中文字幕av| 色婷婷综合中文久久一本| 日本熟女毛茸茸| 欧美三级欧美成人高清www| 国产无人区码熟妇毛片多| 精品久久久国产精品999| 天天干天天干天天干天天| 欧美午夜激情视频| 男人天堂av在线播放| 在线欧美日韩精品| 懂色av蜜臀av粉嫩av喷吹 | 天天综合天天色| 亚洲精品日韩欧美| 成人全视频高清免费观看| 色妞久久福利网| 永久免费网站在线| 久久久久中文字幕| 亚洲精品88| 国产男女猛烈无遮挡91| 国产精品xnxxcom| 99电影网电视剧在线观看| 九色丨蝌蚪丨成人| 欧美三级网色| 香蕉av一区二区| 日本天堂免费a| 国产亚洲精品自拍| 91av俱乐部| 久久精品国产亚洲一区二区三区| 色婷婷一区二区三区在线观看| 国产精品一区在线观看乱码| 日本国产在线视频| 久久久av毛片精品| 91社区视频在线观看| 樱桃视频在线观看一区| 在线天堂中文字幕| 欧美日韩一区久久| 超碰在线观看99| 亚洲毛片在线免费观看| 婷婷在线视频观看| 91精品国产电影| 久久久精品一区二区毛片免费看| www.成人av.com| 国产欧美日韩视频在线| 成人免费看片视频在线观看| 在线看片日韩| 国产一级片自拍| 93久久精品日日躁夜夜躁欧美| 国产又粗又猛又爽又黄的视频四季| 亚洲免费观看高清| www.日韩一区| 精品国产免费一区二区三区四区 | 深夜影院在线观看| 久久久久999| 一根才成人网| 91精品综合久久| 欧美美女视频| 成年女人18级毛片毛片免费| 免费一级片91| 性色av蜜臀av色欲av| 亚洲精品成人在线| 亚洲精品一区二区二区| 亚洲国产美女久久久久| 免费av在线| 国产精品日韩久久久久| 91精品尤物| 蜜臀在线免费观看| 美女视频免费一区| 国精品无码人妻一区二区三区| 亚洲免费成人av| 亚洲天堂999| 亚洲视频综合网| av资源在线播放| 99精彩视频| 欧美一区91| 91小视频在线播放| 中文字幕欧美日本乱码一线二线| 日本一二三区视频| 日韩视频一区二区| 国产欧美久久久久久久久| 国产精品久久久久久久久粉嫩av | 欧美成人高清视频在线观看| 欧美lavv| 国产精品一二| 久久精品综合视频| 五月婷婷久久综合| 欧洲精品久久一区二区| 蜜臀久久99精品久久久无需会员 | 青青在线免费视频| 美女国产一区二区| 日韩不卡av在线| 欧美在线视频日韩| 国产在线你懂得| 国产精品av免费在线观看| 久久av资源| 一本久道综合色婷婷五月| 91亚洲永久精品| 久久久久久久久久免费视频| 欧美精品一区二区三区久久久| 日韩另类在线| 福利视频久久| 国一区二区在线观看| 波多野结衣办公室双飞 | 天天干,天天干| 亚洲人成电影在线观看天堂色| 欧美电影免费看| 日韩av影视| 久久99国产精品久久| 亚洲波多野结衣| 欧美一级午夜免费电影| 亚洲91av| 国产日韩三区| 小嫩嫩精品导航| 亚洲自拍偷拍图| 欧美日韩国产一级| 国产美女av在线| 国产高清精品一区二区三区| 99成人在线| 亚洲AV无码成人精品区明星换面 | 婷婷六月综合| www.欧美com| 精品久久久久久久久久国产| 偷拍自拍在线视频| 国产精品久久久久久久久久久不卡| 不卡中文字幕| 中文字幕第三区| 五月婷婷激情综合网| 国产日产精品久久久久久婷婷| 国产精品美女主播在线观看纯欲| 999精品在线| 催眠调教后宫乱淫校园| 在线视频欧美精品| 国产写真视频在线观看| 国产精品免费区二区三区观看| 亚洲一区二区三区免费在线观看 | 91视频精品| wwwxx日本| 在线观看日韩毛片| jizzjizz亚洲| 免费成人深夜夜行视频| 国模大尺度一区二区三区| 国产成人无码精品亚洲| 日韩在线观看视频免费| 国产精品丝袜在线播放| 福利在线一区二区三区| 亚洲永久精品大片| 国产中文在线视频| 超碰在线观看97| 日韩激情中文字幕| 国产精品99无码一区二区| 一本色道久久综合狠狠躁篇怎么玩| 久久久精品区| 精品免费国产一区二区| 樱桃视频在线观看一区| 成人动漫在线免费观看| 国产欧美综合精品一区二区| 麻豆精品精品国产自在97香蕉| 精品在线视频免费观看| 中文字幕av日韩| 少妇精品导航| 无码人妻久久一区二区三区蜜桃|