精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM準確率飆升27%!谷歌DeepMind提出全新「后退一步」提示技術

人工智能 新聞
谷歌DeepMind全新提示技術「Step-Back Prompting」,讓LLM性能拉滿!

前段時間,谷歌DeepMind提出了一種全新的「Step-Back Prompting」方法,直接讓prompt技術變得腦洞大開。

簡單來說,就是讓大語言模型自己把問題抽象化,得到一個更高維度的概念或者原理,再把抽象出來的知識當作工具,推理并得出問題的答案。

論文地址:https://arxiv.org/abs/2310.06117

結果也是非常不錯的,在他們用PaLM-2L模型做了實驗,證明這種新型的Prompt技巧對某些任務和問題的處理表現極佳。

比方說,MMLU物理和化學方面的性能提高了7%,TimeQA提高了27%,MuSiQue則提高了7%。

其中MMLU是大規模多任務語言理解測試數據集,TimeOA是時間敏感問題測試數據集,MusiQue則是多跳問答數據集,包含25000個2至4跳的問題。

其中,多跳問題指的是,需要使用多個三元組所形成的多跳推理路徑才能夠回答的問題。

下面,讓我們來看看這項技術是如何實現的。

后退!

看完開頭的介紹,可能讀者朋友還沒太理解。什么叫讓LLM自己把問題抽象化,得到一個更高維度的概念或者原理呢。

我們拿一個具體的實例來講。

比方說,假如用戶想問的問題和物理學中的「力」相關,那么LLM在回答此類問題時,就可以后退到有關力的基礎定義和原理的層面,作為進一步推理出答案的根據。

基于這個思路,用戶在一開始輸入prompt的時候,大概就是這樣:

你現在是世界知識的專家,擅長用后退的提問策略,一步步仔細思考并回答問題。

后退提問是一種思考策略,為的是從一個更宏觀、更基礎的角度去理解和分析一個特定問題或情境。從而更好地回答原始問題。

當然,上面舉的那個物理學的例子只體現了一種情況。有些問題下,后退策略可能會讓LLM嘗試識別問題的范圍和上下文。有的問題后退的多一點,有的少一些。

論文

首先,研究人員指出,自然語言處理(NLP)領域因為有了基于Transformer的LLM而迎來了一場突破性的變革。

模型規模的擴大和預訓練語料庫的增加,帶來了模型能力和采樣效率的顯著提高,同時也帶來了多步推理和指令遵循等新興能力。

上圖顯示了后退推理的強大性能,本篇論文中所提出的「抽象-推理」法,在科學、技術、工程與數學和多跳推理等需要復雜推理的各種高難度任務中取得了重大改進。

有些任務非常具有挑戰性,一開始,PaLM-2L和GPT-4在TimeQA和MuSiQue上的準確率僅為40%。而在應用了后退推理以后,PaLM-2L的性能全線提高。在MMLU物理和化學任務中分別提高了7%和11%,在TimeQA任務中提高了27%,在MuSiQue任務中提高了7%。

不僅如此,研究人員還進行了錯誤分析,他們發現大部分應用后退推理時出現的錯誤,都是由于LLMs推理能力的內在局限性造成的,與新的prompt技術無關。

而抽象能力又是LLMs比較容易學會的,所以這為后退推理的進一步發展指明了方向。。

雖說確實取得了不小進步,但復雜的多步驟推理還是很有挑戰性的。即使對最先進的LLMs來說也是如此。

論文表明,具有逐步驗證功能的過程監督是提高中間推理步驟正確性的一種有效補救方法。

他們引入了思維鏈(Chain-of-Thought)提示等技術,以產生一系列連貫的中間推理步驟,從而提高了遵循正確解碼路徑的成功率。

而談到這種promp技術的起源時,研究者指出,人類在面對具有挑戰性的任務時,往往會退一步進行抽象,從而得出高層次的概念和原則來指導推理過程,受此啟發,研究人員才提出了后退的prompt技術,將推理建立在抽象概念的基礎上,從而降低在中間推理步驟中出錯的幾率。

上圖的上半部分中,以MMLU的高中物理為例,通過后退抽象,LLM得到理想氣體定律的第一條原理。

而在下半部分中,是來自TimeQA的示例,教育史這一高層次概念是依照這種策略,LLM抽象出來的結果。

從整張圖的左邊我們可以看到,PaLM-2L未能成功回答原始問題。思維鏈提示在中間推理步驟中,LLM出現了錯誤(紅色高亮部分)。

而右邊,應用了后退prompt技術的PaLM-2L則成功回答了問題。

在眾多認知技能中,抽象思考對于人類處理大量信息并推導出一般規則和原理的能力來說無處不在。

隨便舉幾個例子,開普勒將成千上萬的測量結果凝練成開普勒行星運動三定律,精確地描述了行星圍繞太陽的軌道。

又或者,在關鍵決策制定中,人類也發現抽象是有幫助的,因為它提供了一個更廣闊的環境視角。

而LLM是如何通過抽象和推理兩步法來處理涉及許多低級細節的復雜任務,則是本篇論文的重點。

第一步就是教會LLMs退一步這個思路,讓它們從具體實例中推導出高級、抽象的概念,如某領域內的基礎概念和第一原理。

第二步則是利用推理能力,將解決方案建立在高級概念和第一原理的基礎上。

研究人員在LLM上使用了少量的示例演示來執行后退推理這一技術。他們在一系列涉及特定領域推理、需要事實知識的知識密集型問題解答、多跳常識推理的任務中進行了實驗。

結果表明,PaLM-2L的性能有了明顯提高(高達27%),這證明了后退推理在處理復雜任務方面的性能十分顯著。

在實驗環節,研究人員對以下不同種類的任務進行了實驗:

(1)STEM

(2)知識QA

(3)多跳推理

研究人員評估了在STEM任務中的應用,以衡量新方法在高度專業化領域中的推理效果。(本文中僅以此類問題進行講解)

顯然,在MMLU基準中的問題,需要LLM進行更深層次的推理。此外,它們還要求理解和應用公式,而這些公式往往是物理和化學原理和概念。

在這種情況下,研究人員首先要教會模型以概念和第一原理的形式進行抽象,如牛頓第一運動定律、多普勒效應和吉布斯自由能等。這里隱含的退一步問題是「解決這項任務所涉及的物理或化學原理和概念是什么?」

團隊提供了示范,教導模型從自身知識中背誦解決任務的相關原理。

上表中就是應用了后退推理技術的模型性能,應用了新技術的LLM在STEM任務中表現出色,達到了超越GPT-4的最先進水平。

上表是針對少數幾個樣本的示例,展示了樣本數量變化時的穩健性能。

首先,從上圖中我們可以看出,后退推理對用作示范的少量示例具有很強的魯棒性。

除了一個示例之外,增加更多的示例結果也還會是這樣。

這表明,檢索相關原理和概念的任務相對來說比較容易學習,一個示范例子就足夠了。

當然,在實驗過程中,還是會出現一些問題。

其中除原則錯誤外,所有論文中出現的五類錯誤都發生在LLM的推理步驟中,而原則錯誤則表明抽象步驟的失敗。

如下圖右側所示,原則錯誤實際上只占模型錯誤的一小部分,90%以上的錯誤發生在推理步驟。在推理過程中的四種錯誤類型中,推理錯誤和數學錯誤是主要的失誤所在地。

這與消融研究中的發現相吻合,即只需要很少的示例就能教會LLM如何進行抽象。推理步驟仍然是后退推理能否很好地完成MMLU等需要復雜推理的任務的瓶頸。

特別是對于MMLU物理來說,更是如此,推理和數學技能是成功解決問題的關鍵。意思就是說,哪怕LLM正確地檢索了第一原理,也還是得通過典型的多步驟推理過程得出正確的最終答案,也就是還需要LLM有深入的推理和數學能力。

之后,研究人員在TimeQA的測試集上對模型進行了評估。

如下圖所示,GPT-4和PaLM-2L的基線模型分別達到了45.6%和41.5%,凸顯了任務的難度。

在基線模型上應用CoT或TDB零次(和一次),prompt沒有任何改進。

相比之下,通過常規檢索增強(RAG)對基線模型進行增強后,準確率提高到了57.4%,凸顯了任務的事實密集性。

Step-Back + RAG的結果顯示了后退推理中,LLM回到高級概念這一步是很有效的,這會讓LLM的檢索環節更為可靠,我們可以看到,TimeQA的準確率達到了驚人的68.7%。

接下來,研究人員又將TimeQA分成了原始數據集中提供的簡單和困難兩個難度級別。

不出意外的是,LLM在困難這個級別上的表現都較差。雖然RAG可以將簡單級的準確率從42.6%提高到67.8%,但對困難級準確率的提高幅度要小得多,數據顯示僅從40.4%增加到了46.8%。

而這也正是后退推理的prompt技術的真正優勢所在,它能檢索到高層次概念的相關事實,為最終推理奠定基礎。

后退推理再加RAG,就能進一步將準確率提高到62.3%,超過了GPT-4的42.6%。

當然,在TimeQA類問題上,這項prompt技術還是存在一些問題的。

下圖就顯示了在這部分實驗中LLM的準確性,右側則是錯誤發生的概率。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-09-28 09:40:36

圖像分類準確率

2012-09-06 13:12:41

架構師ArchSummit

2015-10-27 13:36:52

2023-08-11 14:18:52

谷歌研究

2023-09-06 06:42:13

銳龍筆記本頻率

2024-08-02 13:14:51

2024-01-29 12:49:00

AI模型

2024-07-05 15:06:00

2021-10-11 17:27:50

框架計算機開發

2018-11-14 10:01:30

谷歌開源機器學習

2023-09-10 10:43:11

AI模型

2024-03-01 13:31:21

2023-11-28 13:37:43

語言模型LLM

2025-02-10 13:30:00

語言模型谷歌

2024-11-18 09:50:00

模型訓練

2019-01-03 09:04:04

谷歌系統機器

2023-10-14 17:24:49

2025-03-11 08:50:00

2023-01-28 09:17:44

數字化轉型

2025-05-29 08:19:49

點贊
收藏

51CTO技術棧公眾號

亚洲一区国产视频| 久久99最新地址| 国产91富婆露脸刺激对白| 久久久国产影院| 你懂的av在线| 精品视频二区| 精品一区二区在线视频| 欧美激情第一页xxx| 在线观看福利片| 日韩电影精品| 亚瑟在线精品视频| 亚洲黄色一区二区三区| 国产在线观看免费av| 三级精品视频| 7777精品伊人久久久大香线蕉的 | 51精品在线观看| 69xxx免费| 麻豆成人入口| 在线播放视频一区| 国产男女激情视频| 久草在线新免费首页资源站| 久久久精品中文字幕麻豆发布| 亚洲伊人第一页| 日日夜夜操视频| 国产精品v一区二区三区| 国产一区二区三区日韩欧美| 黑人无套内谢中国美女| 成人av集中营| 久久精品一区二区| 痴汉一区二区三区| 一区二区日韩在线观看| 久久动漫亚洲| 国产视频精品一区二区三区| 亚欧美一区二区三区| 欧美日韩视频网站| 午夜精品福利在线| 欧美黄色免费网址| 亚洲国产精品久久久久爰性色 | 亚洲中文一区二区| 在线观看一区| 欧美丰满老妇厨房牲生活| 国产一二三av| 成人无号精品一区二区三区| 亚洲加勒比久久88色综合| 美女被艹视频网站| 成人动漫视频在线观看| 色播五月激情综合网| www.日本在线播放| а√在线天堂官网| 亚洲成av人片在线观看| 免费看日本黄色| 色a资源在线| 一区二区三区在线视频观看| 亚洲自拍小视频免费观看| 中文字幕一区二区人妻痴汉电车| 精品一区二区三| 亚洲老头同性xxxxx| 超碰影院在线观看| 亚洲永久av| 日本精品一级二级| 97视频在线免费播放| 麻豆蜜桃在线观看| 日韩欧美亚洲国产一区| 丰满爆乳一区二区三区| 在线女人免费视频| 日韩欧美精品在线观看| 99精品视频播放| 日韩成人影音| 欧美网站大全在线观看| 中国黄色片免费看| 亚洲精品三区| 欧美一区二区三区在线看| 国产精品久久久久久久av福利| 亚洲综合视频| 精品国产1区2区3区| 国产精品久久久久久久无码| 美日韩黄色大片| 亚洲另类欧美自拍| 国产又粗又长免费视频| 小处雏高清一区二区三区| 欧美裸体xxxx极品少妇| 国产小视频在线看| 国产一区二区三区久久久久久久久| 7m第一福利500精品视频| 中文字幕亚洲精品一区| 日韩精品电影一区亚洲| 国产在线观看一区二区三区| 国产精品玖玖玖| 丁香激情综合五月| 奇米影视首页 狠狠色丁香婷婷久久综合 | 久久久久久综合| 色噜噜狠狠色综合网| 五月婷婷在线视频| 亚洲第一主播视频| 国内自拍视频一区| 日韩一区二区三区精品视频第3页| 精品久久久久99| av网站免费在线看| 欧美fxxxxxx另类| 91精品国产高清久久久久久久久| 欧美国产一级片| 国产激情一区二区三区| 麻豆av一区| 成人影院www在线观看| 99久久er热在这里只有精品66| 欧美日韩无遮挡| 日本激情一区二区| 欧美国产一区在线| 久久综合亚洲精品| av免费在线一区| 精品国产免费人成在线观看| 性欧美精品中出| 欧美淫片网站| 国产精品久久久久免费a∨| 亚洲欧美强伦一区二区| 久久久精品国产99久久精品芒果 | 久久久久亚洲av成人网人人软件| 亚洲自拍都市欧美小说| 欧美区在线播放| 性色av一区二区三区四区| 高清国产午夜精品久久久久久| 青青草国产精品| 国产精选在线| 日韩视频一区在线观看| 91精品国自产在线| 亚洲女同同性videoxma| 久久久久久久久久久av| 波多野结衣人妻| 99精品久久只有精品| 免费在线精品视频| 国产亚洲人成a在线v网站| 日韩电视剧在线观看免费网站| 国产精品老熟女一区二区| 人妖欧美一区二区| 欧美一区二区三区在线免费观看| 国精产品一区一区三区mba下载| 欧美日韩一区二区三区免费看| 少妇精品一区二区| 亚洲电影av| y111111国产精品久久婷婷| 秋霞成人影院| 欧美日韩中文字幕一区| 黄色片网站免费| 亚洲欧美日韩视频二区| 国产一区二区自拍| 福利小视频在线| 日韩精品一区二区三区中文不卡| 国产精品成人69xxx免费视频| 青青青伊人色综合久久| 日韩精品伦理第一区| 高清电影一区| 亚洲一区二区久久久| 手机在线看片1024| 久久网站最新地址| 黄在线观看网站| 色天天色综合| 欧美专区中文字幕| 国产无套粉嫩白浆在线2022年| 国产精品免费aⅴ片在线观看| 欧美精品第三页| 国产精品免费99久久久| 少妇高潮久久77777| 日韩不卡在线播放| 久久久久九九视频| 五月婷婷之综合激情| 欧美日韩精品在线一区| 欧美性受xxxx黑人猛交| 桃花色综合影院| 中文天堂在线一区| 色乱码一区二区三区在线| 日韩免费精品| 久久久久久久久久久免费 | 亚洲精品日韩在线| 日韩精品一区二区亚洲av| 99久久99久久精品免费看蜜桃 | 麻豆av在线免费观看| 精品国产免费视频| 伊人中文字幕在线观看| 国产精品免费视频一区| 99视频在线观看视频| 国产精品porn| 国产精品激情自拍| 色综合久久影院| 日韩一区二区免费电影| 欧美成人aaaaⅴ片在线看| www久久精品| 在线免费视频一区| 好吊日精品视频| 国产一区二区三区四区hd| 日本免费久久| 另类少妇人与禽zozz0性伦| 日本高清视频免费看| 在线视频你懂得一区二区三区| 潘金莲一级淫片aaaaa| 亚洲清纯自拍| 91久久极品少妇xxxxⅹ软件| xxxx另类黑人| 中文字幕在线看视频国产欧美在线看完整| 国产男男gay体育生网站| 亚洲一区二区在线播放相泽| 最近中文字幕免费视频| 国产一区二区福利| 亚洲中文字幕无码专区| 91影院成人| 国产精品久久久久久久久久东京| 国产精品一卡二卡三卡| 日韩精品视频观看| 99久久精品无免国产免费| 天天av天天翘天天综合网色鬼国产| 一二三四国产精品| 99精品久久只有精品| 日日夜夜精品视频免费观看| 欧美一区=区| 日本a在线天堂| 欧美日韩第一| 鲁丝片一区二区三区| 九九九九九九精品任你躁| 日韩免费观看在线观看| 欧美性爽视频| 精品国产一区av| 久久99久久| 亚洲成人精品视频| 国产日韩欧美中文字幕| 在线观看网站黄不卡| 好吊操这里只有精品| 亚洲人xxxx| 欧美一区二区三区粗大| 26uuu另类欧美亚洲曰本| 国产精品无码自拍| 国产专区欧美精品| 少妇一级淫免费放| 麻豆精品网站| 国产一区二区网| 狠狠干综合网| 可以在线看黄的网站| 欧美肉体xxxx裸体137大胆| 91精品视频观看| 伊人春色在线观看| 日韩最新免费不卡| av在线免费一区| 亚洲一区二区福利| 好男人免费精品视频| 精品在线欧美视频| 欧美女优在线| 欧美日韩国产综合草草| 日本黄色一级视频| 色哟哟在线观看一区二区三区| 四虎永久在线精品| 午夜伊人狠狠久久| 久草视频在线观| 欧美午夜无遮挡| 久久久免费高清视频| 欧美日韩中文字幕| 欧美一区二区三区网站| 欧美午夜宅男影院在线观看| 91porny在线| 色综合夜色一区| 日韩xxx视频| 欧美日韩一级大片网址| 亚洲一区中文字幕在线| 欧美另类变人与禽xxxxx| 国产在线拍揄自揄拍| 亚洲最新视频在线播放| 精品无码人妻一区二区三| 亚洲国产色一区| 日韩在线视频免费播放| 色噜噜狠狠一区二区三区果冻| 免费无码国产精品| 欧美日韩第一区日日骚| 国产免费黄色片| 亚洲成人精品久久| 国产免费a∨片在线观看不卡| 中文字幕亚洲欧美一区二区三区 | 国产一区二区视频免费| 欧美日韩午夜影院| 国产99视频在线| 亚洲第一中文字幕在线观看| 日本一卡二卡四卡精品| 最近更新的2019中文字幕| 中文字幕伦理免费在线视频| 国内精品久久久久影院优| 免费亚洲电影| 91嫩草在线视频| 盗摄牛牛av影视一区二区| 欧美日韩日本网| 欧美 日韩 国产一区二区在线视频 | 欧美一级特黄aaaaaa| 亚洲男人天堂视频| 黄视频网站在线| 97视频在线观看播放| 日本h片久久| 国产成人精品福利一区二区三区| 亚洲a级精品| 91免费网站视频| 99pao成人国产永久免费视频| 国产精品涩涩涩视频网站| 国产在线精品一区在线观看麻豆| av黄色一级片| 亚洲欧洲一区二区三区| 91精品国产乱码在线观看| 欧美日韩一区二区欧美激情| 熟妇人妻一区二区三区四区| 视频在线观看一区二区| а√在线中文网新版地址在线| 成人黄色中文字幕| 99久久综合国产精品二区| 91手机在线观看| 欧美老女人另类| 人妻久久久一区二区三区| 黄网站免费久久| 加勒比一区二区| 亚洲一二三四久久| 97精品人妻一区二区三区在线| 精品视频久久久久久久| 手机在线免费av| 成人免费视频在线观看超级碰| 亚洲宅男网av| 黄色大片中文字幕| 国产乱妇无码大片在线观看| 国精产品一区二区三区| 亚洲永久免费av| 国产美女免费视频| 在线观看亚洲视频| 中文在线8资源库| 国产高清自拍一区| 亚洲字幕久久| 久久这里只精品| 国产校园另类小说区| 波多野结衣福利| 亚洲一区二区欧美日韩| 97超碰资源站| 日韩中文字幕av| 在线日本欧美| 欧美大香线蕉线伊人久久| 国产精品观看| 色哟哟免费视频| 亚洲人成影院在线观看| 国产情侣免费视频| 亚洲色图美腿丝袜| 免费成人直播| 欧美成ee人免费视频| 国产亚洲一级| 日韩免费高清一区二区| 亚洲成人免费看| 人人妻人人澡人人爽人人欧美一区 | 偷窥少妇高潮呻吟av久久免费| www日本视频| 精品在线观看国产| 日韩影院在线| 久久99精品久久久久子伦| 亚洲激精日韩激精欧美精品| 折磨小男生性器羞耻的故事| 一区二区三区不卡视频| 精品免费久久久| 欧美成人精品不卡视频在线观看| 国产精品久一| 久久亚洲a v| 成人精品免费看| 欧美激情亚洲综合| 亚洲精品自拍视频| 国产精品扒开腿做爽爽爽视频软件| 欧美激情国产日韩| 日本va欧美va欧美va精品| 国精产品视频一二二区| 欧美美女一区二区| 少妇视频在线| 黑人巨大精品欧美一区二区小视频 | 夜夜嗨av一区二区三区免费区| 日韩毛片一区| 中文字幕欧美日韩一区二区| 国产一区二区h| 日本熟妇成熟毛茸茸| 国产丝袜一区二区三区免费视频 | 欧美精品午夜| 在线黄色免费网站| 色婷婷国产精品| 亚洲麻豆精品| 99re视频在线播放| 国产欧美日韩一级| 国产精品理论在线| 日韩欧美激情在线| 日韩在线伦理| 亚洲欧美国产不卡| 国产v综合v亚洲欧| www.久久精品视频| 不卡av电影院| 色狠狠久久av综合| 日韩va在线观看| 午夜精品一区二区三区免费视频 | 久久国产精品久久久久久| 黄色美女久久久| 91日韩视频在线观看| 亚洲黄色av一区| 能在线看的av| 亚洲综合一区二区不卡| 一本久道久久综合狠狠爱| 国产18无套直看片| 亚洲国产日韩精品在线| 国产激情久久| 日韩欧美国产综合在线|