精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

00后國人論文登Nature,大模型對人類可靠性降低

人工智能 新聞
在Scaling-up中,近幾年的benchmarks越來越偏向于加入更多困難的例子,或者給予所謂“權威”來源更多權重,研究員也因此更傾向于優化模型在困難任務上的表現,導致在難度一致性上慢性惡化。

00后國人一作登上Nature,這篇大模型論文引起熱議。

簡單來說,論文發現:更大且更遵循指令的大模型也變得更不可靠了,某些情況下GPT-4在回答可靠性上還不如GPT-3。

與早期模型相比,有更多算力和人類反饋加持的最新模型,在回答可靠性上實際愈加惡化了。

結論一出,立即引來20多萬網友圍觀:

圖片

在Reddit論壇也引發圍觀議論。

圖片

這讓人不禁想起,一大堆專家/博士級別的模型還不會“9.9和9.11”哪個大這樣的簡單問題。

關于這個現象,論文提到這也反映出,模型的表現與人類對難度的預期不符。

換句話說,“LLMs在用戶預料不到的地方既成功又(更危險地)失敗”。

Ilya Sutskever2022年曾預測:

也許隨著時間的推移,這種差異會減少。

然而這篇論文發現情況并非如此。不止GPT,LLaMA和BLOOM系列,甚至OpenAI新的o1模型和Claude-3.5-Sonnet也在可靠性方面令人擔憂。

更重要的是,論文還發現依靠人類監督來糾正錯誤的做法也不管用。

有網友認為,雖然較大的模型可能會帶來可靠性問題,但它們也提供了前所未有的功能。

我們需要專注于開發穩健的評估方法并提高透明度。

圖片

還有人認為,這項研究凸顯了人工智能所面臨的微妙挑戰(平衡模型擴展與可靠性)。

圖片

更大的模型更不可靠,依靠人類反饋也不管用了

為了說明結論,論文研究了從人類角度影響LLMs可靠性的三個關鍵方面:

1、難度不一致:LLMs是否在人類預期它們會失敗的地方失敗?
2、任務回避:LLMs是否避免回答超出其能力范圍的問題?
3、對提示語表述的敏感性:問題表述的有效性是否受到問題難度的影響?

更重要的是,作者也分析了歷史趨勢以及這三個方面如何隨著任務難度而演變。

下面一一展開。

對于第1個問題,論文主要關注正確性相對于難度的演變

從GPT和LLaMA的演進來看,隨著難度的增加,所有模型的正確性都會明顯下降。(與人類預期一致)

然而,這些模型仍然無法解決許多非常簡單的任務。

這意味著,人類用戶無法發現LLMs的安全操作空間,利用其確保模型的部署表現可以完美無瑕。

令人驚訝的是,新的LLMs主要提高了高難度任務上的性能,而對于更簡單任務沒有明顯的改進。比如,GPT-4與前身GPT-3.5-turbo相比。

以上證明了人類難度預期與模型表現存在不一致的現象,并且此不一致性在新的模型上加劇了。

圖片

這也意味著:

目前沒有讓人類確定LLMs可以信任的安全操作條件。

在需要高可靠性以及識別安全操作空間的應用中,這一點尤其令人擔憂。這不禁令人反思:人類正在努力創造的前沿機器智能,是否真的是社會大眾所期望擁有的。

圖片

其次,關于第2點論文發現(回避通常指模型偏離問題回答,或者直接挑明“我不知道”)

相比較早的LLMs,最新的LLMs大幅度地提高了許多錯誤或一本正經的胡說八道的答案,而不是謹慎地避開超出它們能力范圍之外的任務。

這也導致一個諷刺的現象:在一些benchmarks中,新的LLMs錯誤率提升速度甚至遠超于準確率的提升(doge)。

圖片

一般來說,人類面對越難的任務,越有可能含糊其辭。

但LLMs的實際表現卻截然不同,研究顯示,它們的規避行為與困難度并無明顯關聯。

這容易導致用戶最初過度依賴LLMs來完成他們不擅長的任務,但讓他們從長遠來看感到失望。

后果就是,人類還需要驗證模型輸出的準確性,以及發現錯誤。(想用LLMs偷懶大打折扣)

圖片

最后論文發現,即使一些可靠性指標有所改善,模型仍然對同一問題的微小表述變化敏感。

舉個栗子,問“你能回答……嗎?”而不是“請回答以下問題……”會導致不同程度的準確性。

分析發現:僅僅依靠現存的scaling-up和shaping-up不太可能完全解決指示敏感度的問題,因為最新模型和它們的前身相比優化并不顯著。

而且即使選擇平均表現上最佳的表述格式,其也可能主要對高難度任務有效,但同時對低難度任務無效(錯誤率更高)

這表明,人類仍然受制于提示工程

圖片

更可怕的是,論文發現,人類監督無法緩解模型的不可靠性。

論文根據人類調查來分析,人類對難度的感知是否與實際表現一致,以及人類是否能夠準確評估模型的輸出。

結果顯示,在用戶認為困難的操作區域中,他們經常將錯誤的輸出視為正確;即使對于簡單的任務,也不存在同時具有低模型誤差和低監督誤差的安全操作區域。

圖片

以上不可靠性問題在多個LLMs系列中存在,包括GPT、LLaMA和BLOOM,研究列出來的有32個模型

這些模型表現出不同的Scaling-up(增加計算、模型大小和數據)以及shaping-up(例如指令FT、RLHF)。

圖片

除了上面這些,作者們后來還發現一些最新、最強的模型也存在本文提到的不可靠性問題:

包括OpenAI的o1模型、Antropicic的Claude-3.5-Sonnet和Meta的LLaMA-3.1-405B。

并有一篇文檔分別舉出了例子(具體可查閱原文檔)

圖片

此外,為了驗證其他模型是否存在可靠性問題,作者將論文用到的測試基準ReliabilityBench也開源了。

這是一個包含五個領域的數據集,有簡單算術(“加法”)、詞匯重組(“字謎”)、地理知識(“位置”)、基礎和高級科學問題(“科學”)以及以信息為中心的轉換(“轉換”)。

圖片

作者介紹

論文一作Lexin Zhou(周樂鑫),目前剛從劍橋大學CS碩士畢業(24歲),研究興趣為大語言模型評測。

在此之前,他在瓦倫西亞理工大學獲得了數據科學學士學位,指導老師是Jose Hernandez-Orallo教授。

圖片

個人主頁顯示,他曾有多段工作實習經歷。在OpenAI和Meta都參與了紅隊測試。(Red Teaming Consultancy )

圖片

關于這篇論文,他重點談到:

通用人工智能的設計和開發需要進行根本性轉變,特別是在高風險領域,因為可預測的錯誤分布至關重要。在此實現之前,依賴人類監督是一種危險。

評估模型時,考慮人類認為的難度和評估模型的回避行為,可以更全面地描述模型的能力和風險,而不僅僅關注在困難任務上的表現。

圖片

論文也具體提到了導致這些不可靠性的一些可能原因,以及解決方案:

 在Scaling-up中,近幾年的benchmarks越來越偏向于加入更多困難的例子,或者給予所謂“權威”來源更多權重,研究員也因此更傾向于優化模型在困難任務上的表現,導致在難度一致性上慢性惡化。

在shaping-up中(如RLHF),被雇傭的人傾向于懲罰那些規避任務的答案,導致模型更容易在面對自己無法解決的難題時“胡說八道”。

至于如何解決這些不可靠性,論文認為,可以使用人類難度預期去更好的訓練或微調模型,又或者是利用任務難度和模型自信度去更好的教會模型規避超出自身能力范圍的難題,等等。

對此,你有何看法?

文章:https://www.nature.com/articles/s41586-024-07930-y

責任編輯:張燕妮 來源: 量子位
相關推薦

2010-12-28 19:50:21

可靠性產品可靠性

2025-02-28 08:00:00

大語言模型DeepSeek機器學習

2010-12-28 20:16:24

2011-05-25 19:31:07

Stratus信息化

2014-10-10 10:10:01

A10 Network

2019-08-30 12:10:05

磁盤數據可靠性RAID

2009-04-08 10:23:00

軟交換網絡可靠

2013-11-04 17:04:22

容錯可靠

2024-05-09 08:04:23

RabbitMQ消息可靠性

2020-12-06 14:51:23

物聯網可靠性IOT

2010-12-28 19:55:20

軟件架構可靠性

2017-06-23 18:25:51

kafka數據可靠性

2025-09-23 09:06:00

AILLM系統

2023-12-15 12:52:32

模型數據

2024-07-25 13:56:49

2010-12-28 20:04:10

網絡的可靠性網絡解決方案可靠性

2023-06-01 14:25:17

數據中心服務器

2013-11-04 17:05:37

銀行容錯

2023-11-17 09:00:00

Kafka開發

2018-09-27 14:13:27

云服務可靠故障
點贊
收藏

51CTO技術棧公眾號

亚洲另类视频| 粉嫩一区二区三区四区公司1| 久久久久久久综合色一本| 日韩av免费在线看| 日本黄色片免费观看| 中文字幕一区二区三区日韩精品| 岛国视频午夜一区免费在线观看| 亚洲图片在线观看| 天天操天天干天天| 久久精品国产久精国产| 国内精品久久久久久影视8| 日本精品在线观看视频| 精品视频成人| 色吊一区二区三区| 日韩精品在线观看av| 黄色av网站在线免费观看| 国产乱码字幕精品高清av| 日本亚洲精品在线观看| 久久免费小视频| 久久国产亚洲精品| 日韩电影中文字幕| 两性午夜免费视频| 外国电影一区二区| 午夜久久久影院| 日本美女爱爱视频| a中文在线播放| 91在线精品一区二区| 91亚洲永久免费精品| 中文字幕xxxx| 国产欧美日韩一区二区三区在线| 欧美日本黄视频| 刘亦菲国产毛片bd| 国产探花在线精品一区二区| 精品国免费一区二区三区| 91av视频免费观看| 91综合国产| 色婷婷精品大在线视频| www.com毛片| 91九色在线播放| 亚洲精品日日夜夜| 一区二区三视频| 国产理论电影在线观看| 久久影音资源网| 极品日韩久久| 亚洲乱熟女一区二区| 国产精品一区二区不卡| 91精品一区二区| 一级片视频网站| 免费av成人在线| 国产精品18久久久久久麻辣| www.国产com| 国产视频欧美| 欧洲永久精品大片ww免费漫画| 国产精品成人久久| 中文亚洲字幕| 91精品国产精品| 国产香蕉视频在线| 久久av一区| 国产精品激情av电影在线观看 | 四虎5151久久欧美毛片| 亚洲成色777777在线观看影院| 欧美一区二区三区影院| 国产美女亚洲精品7777| 日韩午夜激情av| 欧美人与性动交α欧美精品| 亚洲三区欧美一区国产二区| 精品国产91亚洲一区二区三区婷婷| 18深夜在线观看免费视频| 麻豆一二三区精品蜜桃| 欧美大片拔萝卜| 91丨porny丨对白| 一道本一区二区三区| 国产一区二区三区高清在线观看| 久久久久久久毛片| 欧美电影一区| 久久99久久99精品免观看粉嫩| 妺妺窝人体色www婷婷| 99亚洲一区二区| 国产91色在线| 国产又黄又爽视频| 福利电影一区二区| 免费av一区二区三区| 国产尤物视频在线| 最新国产成人在线观看| www.男人天堂网| 欧美一区国产| 欧美一级精品在线| 女同性恋一区二区三区| 成人羞羞视频播放网站| 欧美另类在线播放| 国产又黄又猛又粗又爽| 蜜臀av一区二区三区| 9a蜜桃久久久久久免费| 你懂的视频在线| 综合久久给合久久狠狠狠97色| 丁香色欲久久久久久综合网| 国产精品一区二区av影院萌芽| 欧美日韩高清一区二区不卡| 亚洲美女在线播放| 国模吧精品视频| 欧美成人久久久| 中文字幕av影院| 国产精品996| 欧美日韩一区在线观看视频| 九七久久人人| 日本丰满少妇一区二区三区| 成人高清在线观看视频| 精品国产乱码| 久久久久久中文| 中文 欧美 日韩| 99麻豆久久久国产精品免费 | 直接在线观看的三级网址| 婷婷开心激情综合| 四虎成人在线播放| 精品国产一区探花在线观看 | 欧美精品高清| 欧美tickling挠脚心丨vk| 日本综合在线观看| 亚洲主播在线| 国产精品久久久久久久久久久久冷| 国产乱子伦三级在线播放| 亚洲国产一区视频| 999久久久精品视频| 国产成人一区| 97av在线影院| 午夜精品一区二区三| 国产精品久久久久久户外露出 | 中文字幕乱码一区二区三区| 中文字幕在线直播| 精品福利在线导航| 精品国产视频在线观看| 免费成人小视频| 青青草成人网| 免费观看欧美大片| 日韩av在线免费播放| 精品爆乳一区二区三区无码av| 久久国产免费看| 亚洲国产精品www| 搜成人激情视频| 亚洲欧洲在线播放| 亚洲黄色激情视频| 91免费看片在线观看| 欧美久久久久久久久久久久久| 欧美激情精品| 欧美日韩国产第一页| 国产乱淫a∨片免费视频| 国产精品毛片无遮挡高清| 三级在线免费看| 日韩成人a**站| 国产精品亚洲激情| 香港伦理在线| 欧美日韩免费高清一区色橹橹| 精品人妻一区二区三区蜜桃视频| 丝袜美腿亚洲一区| 性欧美精品一区二区三区在线播放| 中老年在线免费视频| 日韩精品久久久久| 五月天激情国产综合婷婷婷| 久久久亚洲高清| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 午夜一区不卡| 农村寡妇一区二区三区| 亚洲第一二三四区| 三级精品视频久久久久| 一二三四区在线| 一区二区三区在线看| 亚洲啪av永久无码精品放毛片| 最新亚洲激情| 日本不卡一区| 97色婷婷成人综合在线观看| 久久69精品久久久久久久电影好| 亚洲国产日韩在线观看| 精品欧美激情精品一区| 午夜影院黄色片| 国产精品综合av一区二区国产馆| 欧美成人精品免费| 红桃成人av在线播放| 成人午夜激情免费视频| 超级碰碰不卡在线视频| 亚洲人在线观看| 97精品人妻一区二区三区在线| 亚洲一区二区三区四区在线 | 欧美与欧洲交xxxx免费观看| 国产经典自拍视频在线观看| 91精品国模一区二区三区| 国产一级视频在线观看| 久久先锋资源网| 亚洲欧美手机在线| 9国产精品视频| 亚洲一二区在线| 欧美成人午夜77777| 国产精品视频网站| 国内高清免费在线视频| 亚洲图片在区色| 亚洲精品字幕在线观看| 色国产综合视频| 久久黄色小视频| 国产情人综合久久777777| 性折磨bdsm欧美激情另类| 久久午夜精品| 蜜桃视频一区二区在线观看| 久久不见久久见国语| 亚洲自拍在线观看| 欧美粗大gay| 欧美黑人性视频| 超碰免费97在线观看| 亚洲成**性毛茸茸| 一二三区中文字幕| 91成人免费在线| 日韩特黄一级片| 亚洲女人小视频在线观看| 日韩av在线看免费观看| 大桥未久av一区二区三区中文| 亚洲色图久久久| 午夜宅男久久久| 99er在线视频| 性xxxx欧美老肥妇牲乱| 欧美日韩一区二区三区免费| 成人av在线不卡| www.成人在线.com| 国产xxx69麻豆国语对白| av影视在线| 欧美精品在线极品| 欧美三级黄网| 一本色道久久综合狠狠躁篇的优点 | 日韩视频不卡| 黄黄视频在线观看| 99九九热只有国产精品| 日韩国产精品一区二区三区| 欧美一级全黄| 国产一区二区在线网站| 亚洲一二av| 91传媒免费看| 激情综合五月| 国产在线98福利播放视频| 另类中文字幕国产精品| 欧美综合一区第一页| 国产理论在线| 97国产成人精品视频| 国产理论电影在线| 久久久免费观看| 黄页网站在线| 久久久免费观看视频| 伊人222成人综合网| 美女久久久久久久久久久| 国产在线高清理伦片a| 久久影院中文字幕| 成人在线观看亚洲| 蜜臀久久99精品久久久久久宅男 | 国模精品一区二区三区色天香| 超碰公开在线| 欧美高清第一页| а√在线天堂官网| 欧美一级大胆视频| 超碰一区二区| 国产精品欧美一区二区三区奶水| 日韩国产网站| 国产精品美腿一区在线看| www.国产精品| 91影视免费在线观看| 97久久亚洲| 久久精品ww人人做人人爽| 最新国产一区| 一级日韩一区在线观看| 一区二区三区在线| 免费在线观看视频a| 亚洲免费婷婷| 色婷婷狠狠18| 国产精品夜夜嗨| 国产精品九九视频| 久久精品一区四区| 三上悠亚在线观看视频| 亚洲自拍偷拍欧美| 国产高清中文字幕| 欧美日韩不卡一区二区| 高潮毛片7777777毛片| 亚洲美女久久久| 激情在线小视频| 97精品久久久| 123成人网| 91青青草免费在线看| 全球av集中精品导航福利| 日韩久久精品一区二区三区| 天天做天天爱天天爽综合网| 野外做受又硬又粗又大视频√| 天堂久久久久va久久久久| 最新av免费在线观看| 成人91在线观看| 貂蝉被到爽流白浆在线观看| 午夜伊人狠狠久久| 91成人国产综合久久精品| 亚洲第一色中文字幕| 成人免费在线视频网| 欧美激情亚洲激情| 精品欧美日韩精品| 国产精品免费观看高清| 青青草91久久久久久久久| 免费看欧美黑人毛片| 免费观看在线综合| 国产女人18毛片水真多18| 国产嫩草影院久久久久| 日本一区二区免费在线观看| 欧美人与禽zozo性伦| 天天综合网在线| 久久伊人精品天天| 91精品影视| 国外成人免费视频| 青春草免费在线视频| 中文字幕欧美日韩va免费视频| 免费网站在线观看人| 国产主播精品在线| 麻豆最新免费在线视频| 欧美老女人性生活| 欧美日韩影视| 欧美激情手机在线视频| 国产黄色一区| 91麻豆蜜桃一区二区三区| 亚洲天堂2018av| 国产成人8x视频一区二区| 超薄肉色丝袜一二三| 亚洲欧洲三级电影| 91黑人精品一区二区三区| 亚洲国产精品久久久| 免费污视频在线观看| 91在线观看免费观看 | 日本三级视频在线观看| 欧美制服第一页| 欧美高清视频看片在线观看 | 欧美性受xxxx黑人| 欧美视频中文字幕在线| 秋霞网一区二区| 欧美极品少妇xxxxⅹ免费视频 | 极品久久久久久| 911精品产国品一二三产区| 午夜视频成人| 国产精品视频xxx| 欧美三级伦理在线| 午夜dv内射一区二区| ww亚洲ww在线观看国产| 毛片视频网站在线观看| 亚洲精品乱码久久久久久按摩观| 午夜伦理在线视频| 成人午夜电影免费在线观看| 欧美日韩蜜桃| 在线看黄色的网站| 午夜av区久久| 五月天激情婷婷| 欧洲日本亚洲国产区| 欧州一区二区| 国产视频1区2区3区| 日韩一区中文字幕| 国产三级在线观看视频| 欧美日韩成人在线视频| 第四色中文综合网| 久久亚洲中文字幕无码| 91色porny在线视频| 国产精品久久久久久人| 亚洲小视频在线观看| 久久免费影院| 无码人妻aⅴ一区二区三区日本| 国产麻豆成人精品| 国产小视频在线观看免费| 亚洲国产精品va在线看黑人| 亚洲黄色免费看| 亚洲国产一区二区精品视频| 韩国视频一区二区| 激情综合五月网| 亚洲美女激情视频| 色综合视频一区二区三区日韩| 精品一区二区成人免费视频| 成人免费va视频| 久久精品无码av| xvideos成人免费中文版| 97品白浆高清久久久久久| 六月丁香婷婷在线| 中文字幕在线免费不卡| 亚洲国产精品久久人人爱潘金莲| 91精品国产高清自在线| 色婷婷综合网| 9.1在线观看免费| 一本大道久久精品懂色aⅴ| 日本在线免费网| 国产精品福利视频| 久久裸体视频| 欧美性猛交xxxxx少妇| 亚洲男人天堂2023| 91精品国产自产观看在线| 99久久国产综合精品五月天喷水| 国产色产综合产在线视频| 国产激情久久久久久熟女老人av| 88xx成人精品| 国产精品99久久精品| 久久人人爽人人爽人人片| 欧美高清激情brazzers| 中文字幕色婷婷在线视频| 国产香蕉一区二区三区| 久久久三级国产网站| 亚洲高清在线观看视频| 国产精品一区二区三| 亚洲美洲欧洲综合国产一区|