精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大腦也在用分布式強化學習?DeepMind新研究登上《Nature》

新聞 人工智能 分布式
分布式強化學習是智能體在圍棋、星際爭霸等游戲中用到的技術,但 DeepMind 的一項研究表明,這種學習方式也為大腦中的獎勵機制提供了一種新的解釋,即大腦也應用了這種算法。

 分布式強化學習是智能體在圍棋、星際爭霸等游戲中用到的技術,但 DeepMind 的一項研究表明,這種學習方式也為大腦中的獎勵機制提供了一種新的解釋,即大腦也應用了這種算法。這一發現驗證了分布式強化學習的潛力,同時也使得 DeepMind 的研究人員越發堅信,「現在的 AI 研究正走在正確的道路上」。

多巴胺是人們所熟悉的大腦快樂信號。如果事情的進展好于預期,大腦釋放的多巴胺也會增多。

在人腦中存在獎勵路徑,這些路徑控制我們對愉悅事件的反應,并通過釋放多巴胺的神經元進行介導。例如,在著名的巴布洛夫的狗實驗中,當狗聽到鈴聲便開始分泌口水時,這一反應并非已經獲得了獎勵,而是大腦中的多巴胺細胞對即將到來的獎勵產生的一種預測。

之前的研究認為,這些多巴胺神經元對獎勵的預測應當是相同的。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

但近日,DeepMind 的研究人員通過使用分布式強化學習算法發現,每個多巴胺神經元對獎勵的預測很不相同,它們會被調節到不同水平的「悲觀」和「樂觀」狀態。研究者希望通過這套算法研究并解釋多巴胺細胞對大腦的行為、情緒等方面的影響。這份研究成果昨日登上了《Nature》。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

Nature 論文鏈接:https://www.nature.com/articles/s41586-019-1924-6

強化學習算法和多巴胺獎懲機制研究

強化學習算是神經科學與 AI 相連接的最早也是最有影響力的研究之一。上世紀 80 年代末期,計算機科學研究者試圖開發一種算法,這種算法僅依靠獎懲反饋作為訓練信號,就可以單獨學會如何執行復雜的行為。這些獎勵會加強使其受益的任何行為。

解決獎勵預測問題的重要突破是時序差分算法(TD),TD 不會去計算未來的總體回報,它嘗試預測當前獎勵和未來時刻預期獎勵之和。當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,并用此「時序差分」將舊版本的預測調整為新的預測。

不斷訓練之后,「預期」和「現實」會逐漸變得更加匹配,整個預測鏈條也會變得越來越準確。

與此同時,很多神經科學研究者們,專注于多巴胺神經元的行為研究。當面對即將到來的獎勵時,多巴胺神經元會將「預測」和「推斷」的值發送給許多大腦區域。

這些神經元的「發送」行為與獎勵的大小有一定關系,但這些反應常常依靠的是外部感性信息輸入,并且在給定任務中的表現也會隨著生物體經驗的豐富而改變。例如,對于特定的刺激產生的獎勵預測變少了,因為大腦已經習慣了。

一些研究者注意到,某些多巴胺神經元的反應揭示了獎勵預測的漏洞:相比于被訓練應該生成的那種「預期」,它們實際發送的預期總是或多或少,和訓練的預期不太一樣。

于是這些研究者建議大腦使用 TD 算法去計算獎勵預測的誤差,通過多巴胺信號發送給大腦各個部位,以此來驅動學習行為。從那時起,多巴胺的獎勵預測理論逐漸在數以萬計的實驗中得到證實,并已經成為神經科學領域最成功的定量理論之一。

自 TD 被應用于多巴胺獎懲機制研究以來,計算機科學家在不斷優化從獎懲機制中學習的算法。自從 2013 年以來,深度強化學習開始受到關注:在強化學習中使用深度神經網絡來學習更強的表示,使強化學習算法解決了精巧性和實用度等問題。

分布式強化學習是一種能讓神經網絡更好地進行強化學習的算法之一。在許多的情況下,尤其是很多現實情況中,未來獎勵的結果實際上是依據某個特定的行為而不是一個完全已知的量進行的預測,它具有一定的隨機性。

圖 1 是一個示例,一個由計算機控制的小人正在越過障礙物,無法得知它是會掉落還是跨越到另一端。所以在這里,預測獎勵就有兩種,一種代表墜落的可能性,一種代表成功抵達另一邊的可能性。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 1:當未來不確定時,可以用概率分布的方式去描述未來獎勵。未來的某一部分可能會是「好的(綠色)」,其他則代表「不好(紅色)」。借助各種 TD 算法,分布式強化學習可以學習關于這個獎勵預期的分布情況。

在這種情況下,標準 TD 算法學習預測將來的平均獎勵,而不能獲得潛在回報的雙峰分布(two-peaked distribution)。但是分布式強化學習算法則能夠學習預測將來的全部獎勵。上圖 1 描述了由分布式智能體學習到的獎勵預測。

因此,分布式強化學習算法在多巴胺研究中的應用就進入了研究者們的視野。

分布式 TD:性能更好的強化學習算法

新的研究采用了一種分布式強化學習算法,與標準 TD 非常類似,被稱為分布式 TD。標準 TD 學習單個預測(平均期望預測),而分布式 TD 學習一系列不同的預測。而分布式 TD 學習預測的方法與標準 TD 相同,即計算能夠描述連續預測之間差異的獎勵預測誤差,但是每個預測器對于每個獎勵預測誤差都采用不同的轉換。

例如,當獎勵預測誤差為正時(如下圖 2A 所示),一些預測器會有選擇性地「擴增」或「增持」獎勵預測誤差。這使得預測器學習更樂觀的獎勵預測,從而對應獎勵分布中的更高部分。但同時,另一些預測器擴增它們的負獎勵預測誤差(如下圖 2A 所示),所以學習更悲觀的獎勵預測。因此具有不同悲觀和樂觀權重的一系列預測器構成了下圖 2B 和 2C 的完整獎勵分布圖。

圖 2:分布式 TD 學習對獎勵分布不同部分的價值估計。

除了簡潔性之外,分布式強化學習還有另一項優勢,當它與深度神經網絡結合時會非常強大。過去五年,基于原始深度強化學習 DQN 智能體的算法有了很多進展,并且這些算法經常在 Atari 2600 游戲中的 Atari-57 基準測試集上進行評估,證明了分布式強化學習算法的性能優勢。

多巴胺研究中的分布式 TD

由于分布式 TD 在人工神經網絡中具有很好的性能,因此本研究考慮采用分布式 TD,嘗試研究大腦的獎懲機制。

在研究中,研究者聯合哈佛大學,對老鼠多巴胺細胞的記錄進行分析。在任務中,這些老鼠獲得數量未知的獎勵(如下圖 4 所示)。研究者的目的是評估多巴胺神經元的活動是否與標準 TD 或分布式 TD 更為一致。

以往的研究表明,多巴胺細胞改變它們的發放率(firing rate)來表明存在的預測誤差,即一個動物是否接收了比預期更多或更少的獎勵。我們知道,當獎勵被接收時,預測誤差應為零,也就是獎勵大小應與多巴胺細胞預測的一樣,因此對應的發放率也不應當改變。

對于每個多巴胺細胞,如果研究者確定了其基準發放率沒有改變,則其獎勵大小也可以被確定。這個關系被稱之為細胞的「逆轉點」。研究者想要弄清楚不同細胞之間的逆轉點是否也存在差異。

如下圖 4C 所示,細胞之間存在著明顯差異,一些細胞會預測非常大的獎勵,而另一些只預測出非常小的獎勵。相較于從記錄中固有隨機變化率所能預期的差異,細胞之間的實際差異要大得多。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 4:在這項任務中,老鼠獲得的水獎勵(water reward)通過隨機方法確定,并可以調整,范圍是 0.1-20 UL。

在分布式 TD 中,獎勵預測中的這些差異是由正或負獎勵預測誤差的選擇性擴增引起的。擴增正獎勵預測可以獲得更樂觀的獎勵預測,而擴增負獎勵可以獲得更悲觀的預測。所以,研究者接下來測量了不同多巴胺細胞對正或負期望的擴增程度,并發現了細胞之間存在著噪聲也不能解釋的可靠多樣性。并且關鍵的一點是,他們發現擴增正獎勵預測誤差的同一些細胞也表現出了更高的逆轉點(上圖 4C 右下圖),也就是說,這些細胞期望獲得更高的獎勵。

最后,分布式 TD 理論預測,有著不同的逆轉點(reversal point)的細胞應該共同編碼學到的獎勵分配。因此研究人員希望能夠探究:是否可以從多巴胺細胞的發放率解碼出獎勵分配到不同細胞的分布。

如圖 5 所示,研究人員發現,只使用多巴胺細胞的放電速率,確實有可能重建獎勵的分布(藍色線條),這與老鼠執行任務時獎勵的實際分布(灰色區域)非常接近。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 5:多巴胺細胞群編碼了學到的獎勵分布的形狀。

總結

研究人員發現,大腦中的多巴胺神經元被調節到不同水平的「悲觀」和「樂觀」。如果它們是一個合唱團,那么所有的神經元不會唱同一個音域,而是彼此配合——每個神經元都有自己的音域,如男高音或女低音。在人工強化學習系統中,這種多樣化的調整創造了更加豐富的訓練信號,極大地加快了神經網絡的學習。研究人員推測,大腦可能出于同樣的原因使用這套機制。

大腦中分布式強化學習的存在可以為 AI 和神經科學的發展提供非常有趣的啟示。首先,這一發現驗證了分布式強化學習的潛力——大腦已經用到了這套算法。

其次,它為神經科學提出了新的問題。如果大腦選擇性地「傾聽」樂觀/悲觀多巴胺神經元會怎么樣呢?會導致沖動或抑郁嗎?大腦有強大的表征能力,這些表征是如何由分布式學習訓練出的呢?例如,一旦某個動物學會了分配獎勵的機制,在它的下游任務會如何使用這種表征?多巴胺細胞之間的樂觀情緒可變性與大腦中其他已知的可變形式存在什么關聯?這些問題都需要后續研究進一步解釋。

最后,DeepMind 的研究人員希望通過這些問題的提出和解答來促進神經科學的發展,進而為人工智能研究帶來益處,形成一個良性循環。 

 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-15 19:22:09

Menger機器學習強化學習

2021-10-11 09:51:38

谷歌人工智能強化學習

2020-06-05 14:49:51

強化學習算法框架

2022-10-08 09:53:17

AI算法

2021-11-29 10:09:50

AI 強化學習人工智能

2025-04-25 09:08:00

2025-04-07 03:00:00

Dreamer世界模型

2021-10-08 15:21:52

AI 數據人工智能

2025-10-11 04:00:00

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強化學習訓練

2022-07-12 14:56:30

AI模型研究

2019-11-22 08:41:06

人工智能機器學習技術

2022-04-21 14:54:12

電力技術Nature

2025-03-03 09:12:00

2025-06-23 09:09:00

2020-02-21 15:33:44

人工智能機器學習技術

2021-09-10 16:31:56

人工智能機器學習技術

2024-06-17 13:34:54

2017-03-20 15:23:46

人工智能連續學習神經網絡
點贊
收藏

51CTO技術棧公眾號

日韩一级片在线观看| 久久久久久一级片| 欧美精品成人在线| 无码熟妇人妻av| 国产亚洲亚洲国产一二区| 亚洲18色成人| 欧美日韩一区二区三| 在线免费观看中文字幕| 欧美视频网站| 国产亚洲美女精品久久久| 人妻体体内射精一区二区| www.色在线| 亚洲欧洲成人精品av97| 精品一区久久| 国产熟女一区二区三区五月婷| 亚洲美女啪啪| 久久久91精品国产| aa片在线观看视频在线播放| 日韩精品一级毛片在线播放| 黄色成人av网| 日本成人在线不卡| 大地资源中文在线观看免费版| 高清国产一区二区三区| 国产精品视频yy9099| 亚洲国产精一区二区三区性色| 日韩欧美中文| 亚洲欧美日韩一区二区三区在线| 亚洲av无码久久精品色欲| 91福利精品在线观看| 精品美女永久免费视频| 可以免费看的黄色网址| 在线播放麻豆| 国产蜜臀97一区二区三区| 激情视频一区二区| 国产黄色大片网站| 久久99久久精品欧美| 国产福利精品在线| 国产欧美日韩另类| 国精品一区二区三区| 久久影院资源网| 麻豆视频免费在线播放| 天天操综合520| 在线电影一区二区| 91理论电影在线观看| 91影院在线免费观看视频| 免费在线不卡av| 免费在线观看成人av| 性色av一区二区咪爱| 国产一级片久久| 亚洲欧美一级二级三级| 久久国产精品免费视频 | 亚洲精品77777| 欧美日韩久久| 欧美激情2020午夜免费观看| 国产精品老熟女一区二区| 日韩电影免费在线观看| 在线成人一区二区| 国产精品www爽爽爽| 青青草国产成人a∨下载安卓| 国产亚洲综合久久| 天堂网av2018| 午夜免费一区| 欧美成年人网站| 免费中文字幕在线观看| 欧美日韩ab| 欧美精品videos另类日本| 久久亚洲av午夜福利精品一区| 欧美午夜一区| 91精品国产91久久久久久不卡| 亚洲 欧美 视频| 久久夜色精品| 国产在线日韩在线| www.好吊色| jlzzjlzz亚洲日本少妇| 麻豆91蜜桃| 99精品老司机免费视频| 亚洲日本丝袜连裤袜办公室| 欧美这里只有精品| 涩涩视频在线| 精品视频全国免费看| www.五月天色| 国产精品一线| 亚洲图片在区色| av资源在线免费观看| 最新国产精品久久久| 欧美激情二区三区| 久久久久久久久久久影院| 奇米888四色在线精品| 91系列在线观看| 天堂中文网在线| 欧美国产乱子伦| a级黄色片免费| 51漫画成人app入口| 欧洲一区在线观看| 9191在线视频| 免费视频一区三区| 久久成人在线视频| 你懂的国产在线| 国产一区美女在线| 欧美区高清在线| 一色桃子av在线| 91九色最新地址| 女同性αv亚洲女同志| 欧美美女在线| 久久久久国产一区二区三区| 欧美日韩 一区二区三区| 国产福利一区二区三区视频在线| 欧美日本国产精品| 色呦呦网站在线观看| 欧洲av在线精品| 国产精品亚洲一区二区无码| 欧美精品乱码| 97在线观看免费高清| 国产精品美女一区| 久久久国产一区二区三区四区小说| 国产精品夜夜夜爽张柏芝| 偷拍自拍在线看| 欧美va亚洲va香蕉在线| 永久免费av无码网站性色av| 亚洲福利国产| 国产一区欧美二区三区| 每日更新在线观看av| 一区二区三区成人| 不卡的在线视频| 国产一区二区亚洲| 91精品国产高清自在线看超| 国产乱码精品一区二三区蜜臂 | 精品综合久久久| a级影片在线| 欧美日韩精品系列| 在线国产视频一区| 久久精品免费| 久久久久久一区| av免费不卡国产观看| 日韩欧美电影一二三| 国产第一页浮力| 免费亚洲电影在线| 三区精品视频观看| 偷拍精品精品一区二区三区| 日韩大陆毛片av| 日韩av综合在线| 成人激情黄色小说| 欧美成人精品免费| 一区二区视频| 欧美激情综合色综合啪啪五月| 国产白浆在线观看| 亚洲欧美电影院| www.桃色.com| 国产精品v欧美精品v日本精品动漫| 91美女福利视频高清| 麻豆传媒视频在线观看免费| 欧美日韩国产乱码电影| 成人一级黄色大片| 国产一区二区不卡| 成人免费看片视频在线观看| 免费欧美网站| 性视频1819p久久| 亚洲区小说区图片区| 午夜精品久久久久久久99水蜜桃| 黄色免费视频网站| 国产精品久久777777毛茸茸| 久久精品99| 欧美影视资讯| 日韩一中文字幕| 精品久久久久中文慕人妻| 一区二区在线观看视频 | 久久视频免费| 欧美极品美女视频网站在线观看免费| 精品久久国产视频| 婷婷综合五月天| 国产av自拍一区| 久久99精品久久只有精品| 日本精品免费视频| xvideos.蜜桃一区二区| 欧洲永久精品大片ww免费漫画| 成人福利在线| 91精品免费观看| 久久综合综合久久| 久久亚洲精华国产精华液| www.99在线| 欧美另类视频| 欧美日韩国产精品一卡| 日韩成人免费av| 久久久久国产视频| 国产日本在线观看| 欧美一级日韩不卡播放免费| 日韩精品人妻中文字幕| 国产亚洲精品精华液| 日本一二三四区视频| 99综合精品| 中文字幕制服丝袜在线| 噜噜噜天天躁狠狠躁夜夜精品| 国产精品美女久久久久av超清| 最新国产在线拍揄自揄视频| 亚洲老头同性xxxxx| 国产伦理一区二区| 黑人巨大精品欧美一区免费视频| а天堂中文在线资源| 成人午夜精品在线| 国产视频手机在线播放| 亚洲电影av| 一区二区三区四区久久| 天天躁日日躁狠狠躁欧美巨大小说| 国产日韩欧美综合| 手机在线理论片| 麻豆成人在线看| 国产在线中文字幕| 精品久久久久99| 一区二区日韩视频| 色婷婷久久综合| 久一视频在线观看| 亚洲欧洲成人自拍| 日本爱爱爱视频| 成人丝袜高跟foot| 在线播放免费视频| 天堂一区二区在线免费观看| 国产二区视频在线| 欧美jjzz| 波多野结衣激情| 欧美丝袜丝交足nylons172| 精品国产综合久久| 91精品啪在线观看国产手机| 成人欧美在线观看| av免费在线一区| 国产成人精品视频| 女人让男人操自己视频在线观看| 欧美日本在线视频中文字字幕| 69久久久久| 中文字幕日韩欧美| 国产福利在线| 亚洲小视频在线| 青青国产在线| 亚洲国产精品免费| 免费观看a视频| 欧美成人aa大片| 精品国产无码一区二区三区| 在线播放欧美女士性生活| 中文字幕乱码视频| 色综合婷婷久久| 91午夜精品亚洲一区二区三区| 五月天激情小说综合| av资源吧首页| 亚洲成人午夜电影| 国产主播在线观看| 亚洲一区在线免费观看| 久久国产精品波多野结衣av | 波多野结衣视频网站| 午夜精品久久久久久久99水蜜桃| 国语对白一区二区| 午夜精品久久久久久久久| 亚洲另类欧美日韩| 色悠久久久久综合欧美99| 天堂网视频在线| 欧美艳星brazzers| 亚洲图片小说视频| 制服丝袜激情欧洲亚洲| av网站在线免费看| 亚洲成年人在线| 日韩三级电影网| 一区二区三欧美| 在线播放麻豆| 欧美日韩福利视频| 密臀av在线播放| 国产精品成人va在线观看| 国产91亚洲精品久久久| 成人免费在线视频网站| 日韩一区二区三区精品 | 国产探花在线精品一区二区| 日韩国产精品一区二区三区| 日本黄色精品| 欧美日韩dvd| 亚洲毛片一区| 别急慢慢来1978如如2| 麻豆国产91在线播放| 在线免费看v片| 99久久er热在这里只有精品15| 色哟哟精品观看| 《视频一区视频二区| 久久伊人成人网| 色狠狠一区二区三区香蕉| 一区二区三区免费观看视频| 欧美成人一区二区三区在线观看| 色一情一乱一乱一区91av| 国产亚洲精品久久| 最新超碰在线| 国产精品91一区| 一区二区三区四区视频免费观看| 秋霞在线观看一区二区三区| 国产精品久久久久9999赢消| 久久这里只有精品23| 另类小说欧美激情| 日本黄色免费观看| 国产精品高清亚洲| 日韩欧美一区二区一幕| 欧美日韩国产不卡| 无码精品在线观看| 久久久91精品| 激情开心成人网| 粉嫩精品一区二区三区在线观看| 国产精品免费99久久久| 免费cad大片在线观看| 日韩av在线免费观看不卡| 9191在线视频| 中文字幕永久在线不卡| 国产精品乱子伦| 日韩一级二级三级精品视频| 东凛在线观看| 97在线精品视频| 日韩欧美一级| 一本一本a久久| 日韩成人一级片| 国产黄色三级网站| 亚洲精品一二三区| 亚洲在线视频播放| 亚洲开心激情网| 男人久久天堂| 国产经典一区二区三区| 亚洲国产一成人久久精品| 成人免费xxxxx在线视频| 99精品视频在线播放观看| 九九久久免费视频| 欧美老人xxxx18| 91这里只有精品| 国产a∨精品一区二区三区不卡| a级日韩大片| 日本精品福利视频| 国产一区二区三区四区在线观看| 91精品人妻一区二区三区| 精品福利在线看| 成人久久精品人妻一区二区三区| 久久香蕉国产线看观看av| 福利精品在线| 亚洲精品中文综合第一页| 丝袜国产日韩另类美女| 玖玖爱在线观看| 欧美色另类天堂2015| 五月激情婷婷综合| 国外成人在线直播| 久久精品国产亚洲5555| 欧美久久久久久久久久久久久久| 国产一区不卡视频| 中文字幕五月天| 日韩视频一区二区在线观看| 最新日本在线观看| 亚洲综合社区网| 欧美日本一区二区高清播放视频| 四虎成人在线播放| 亚洲女人小视频在线观看| 国产又粗又黄视频| 久久人人爽人人爽爽久久| 国产视频一区二| 日韩精品一区二区在线视频 | 久久激情综合| 亚洲av毛片基地| 欧美日韩久久久一区| 久久黄色美女电影| 北条麻妃高清一区| 亚洲伦伦在线| 一本色道久久综合亚洲精品图片| 91福利视频在线| 思思99re6国产在线播放| 91在线视频成人| 国色天香一区二区| 91精品国产自产| 欧美性三三影院| 国产调教视频在线观看| 粉嫩av一区二区三区免费观看| 亚洲精品1234| 中文字幕在线观看免费高清| 欧美三级电影网站| 中文字幕在线观看网站| 国产九色91| 日韩和欧美的一区| 成人自拍小视频| 亚洲电影免费观看高清完整版在线 | 久久久久久久色| 久久综合亚洲| 超碰在线超碰在线| 欧美日韩亚洲精品一区二区三区| 国产精品秘入口| 国产高清自拍一区| 日韩国产欧美在线播放| 国产精品99久久久久久成人| 欧美精品一区二区三区蜜桃| 成人亚洲欧美| 免费看日b视频| 久久久久综合网| 亚洲av色香蕉一区二区三区| 日韩免费中文字幕| 欧美在线三区| 亚洲黄色小说视频| 日韩一级精品视频在线观看| 97se综合| 日本高清xxxx| 日本一区二区免费在线观看视频| www.97av.com| 国产精品一区二区性色av| 亚洲国产清纯| 精品亚洲乱码一区二区| 国产婷婷色综合av蜜臀av|