精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最懂Claude內部運作團隊采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預測下一個詞。網友:這都敢免費公開

原創 精選
人工智能
當一個?AI?模型在“思考”時,內部到底發生了什么?為什么?AI?模型會表現得諂媚?為什么它們會產生幻覺?AI?模型只是“高級的自動補全工具”,還是說其中存在更復雜的機制?目前 Anthropic 有哪些科學的方式研究這些問題?研究進展如何?

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

上周末,Anthropic 團隊放出了一個非常優質的播客。

話題的敏感尺度很大,頭排的聽眾們都替Claude擔心了起來,驚呼:這種“核心機密”竟然敢免費公開嗎?

圖片

甚至有網友表示,第一次從頭到尾把60分鐘的播客聽完了。

圖片

小編好久沒看見這樣的評價了。

可以說,這期播客在某種程度上,向我們展示了 Claude 為何是市面上最好的模型。

這期播客的主題可以說直戳大模型的靈魂:大模型究竟是如何思考的?

當一個 AI 模型在“思考”時,內部到底發生了什么?為什么 AI 模型會表現得諂媚?為什么它們會產生幻覺?

AI 模型只是“高級的自動補全工具”,還是說其中存在更復雜的機制?

目前 Anthropic 有哪些科學的方式研究這些問題?研究進展如何?

這些靈魂拷問,幾位 Anthropic 的研究員居然知無不言的肆意探討了起來。全然不擔心被競品友商聽了去致敬。

這次播客的三位嘉賓: Josh Batson、Emmanuel Ameisen 和 Jack Lindsey 均來自 Anthropic 的可解釋性團隊。這個團隊可以說是,自成立之初就與公司的使命緊緊相連。

前不久小編也發表了一篇他們團隊發現的大模型性格角色的黑化開關:人格向量,可以說,這一次的播客,算是系統講解了他們是如何研究Claude模型的底層think模式的,以及如何解釋它的幻覺產生機制。

(簡單理解就是,他們可以為大模型內部拍一張核磁共振的“腦電圖”,研究大模型產生某種行為和腦電圖點亮的區域之間的關系。)

更重要的是,他們提出了一種可以被大眾廣泛理解的“概念”,并用一種類似“計算電路”的抽象,解釋了大模型絕對不是外界理解的死記硬背,而是有著自己獨有的思考運作。

搞大模型就像,“搞飛機”,Anthropic 可解釋性團隊希望,通過他們的研究,給出了兩條幾乎完全不同的路徑,讓大家了解大模型團隊究竟是如何“搞飛機”,從而讓大模型變得更可信任、更安全。

話不多說,這起播客的話題雖然燒腦,但含金量屬實太高了,而且講解也沒大家想的那么深奧,還很有趣。

比如,播客中爆料:

在Claude等模型中,人類要求它寫出的思考過程,并非是大模型真實的思考過程:

那只是大模型在“裝”認真解題,是“拍馬屁式忽悠”!

再比如,大模型寫押韻詩,并不是逐字去計算的,而是會提前規劃,連最后一個字都想好了,然后才去輸出。

還有,算一個“6+9”的數學問題時,大模型并不是像人類一樣先算個位數,而是并行運算十位數和個位數。

即便如此,Anthropic 的大牛們也坦承:現在他們也只搞清楚了10~20%的大模型內部運作機制,還有很多問題,比如各部分獨立電路是如何傳遞信號的等等,都有待研究。

OK,真的是“既興奮”、又讓人有挫敗感~

料真的很足,從小編開始翻譯到整理,足足過去了兩天。各位不妨細讀,建議收藏。

大模型內部更像是生物學、而非物理學

主持人:當你在和一個大型語言模型對話時,你究竟是在和什么東西對話?你是在和一個被放大的自動補全工具對話嗎?還是在和某種像互聯網搜索引擎一樣的東西對話?又或者,你是在和一個真的會思考、甚至可能像人一樣思考的東西對話?結果令人有些擔憂的是,沒有人真正知道這些問題的答案。而在 Anthropic,我們對找出這些答案非常感興趣。我們的方式是通過“可解釋性”。這門科學就是把大型語言模型打開,觀察它的內部,在它回答問題的過程中,嘗試弄清楚里面究竟發生了什么。

我很高興今天請來了我們可解釋性團隊的三位成員,他們會和我聊一聊他們最近在 Claude(我們的語言模型)復雜內部機制方面做的研究。請做一下自我介紹。

Jack:大家好,我是 Jack,是可解釋性團隊的研究員。在此之前,我是個神經科學家?,F在,我在做關于 AI 的“神經科學”。

Emmanuel:我是 Emmanuel。我也是可解釋性團隊的成員,我職業生涯的大部分時間都在構建機器學習模型,并試圖理解它們。

Josh:我是 Josh,我同樣在可解釋性團隊。在我之前的研究經歷里,我研究過病毒進化。再之前,我是一名數學家。所以現在,我是在研究這些由數學構造出來的“有機體”的一種生物學。

主持人:等一下,你剛剛說你是在做“生物學”,很多人會對此感到驚訝,因為畢竟這只是一段軟件,對吧?但它并不是普通的軟件,它不像 Microsoft Word 那種軟件。你能解釋一下,當你說你在一個軟件實體上做“生物學”或者“神經科學”時,你是什么意思嗎?

Josh:是的,我覺得這更像是一種感覺,而不是字面上的意思。也許這更像是“語言模型的生物學”,而不是“語言模型的物理學”?;蛘吣愕猛叵胍幌脒@些模型是怎么被做出來的。并不是有人在逐行編程,比如“如果用戶說 hi,你也要回答 hi”;“如果用戶問早餐吃什么,你就回答 toast”。模型內部并沒有這樣的龐大清單。

主持人:就不像你玩電子游戲時,選一個固定的回應,然后系統里預設了另一個固定的回應,總是會按那個回應出現。

Josh:是的,模型并不是靠某個龐大的數據庫去規定在每種情況下該說什么。它的訓練方式是——投入大量數據,模型一開始幾乎什么都不會說,然后它的內部參數在每一個樣本上不斷被微調,從而逐漸變得更擅長預測接下來該說什么。最終,它在這方面會變得非常擅長。但由于這種“逐步微調”的進化過程,等模型訓練完成時,它和最初的樣子幾乎完全不同了,但并不是有人直接去手動調整所有參數。因此,你面對的是一個在時間中逐步形成的復雜產物,有點類似于生物形態隨著時間的演化。這使得它復雜、神秘,同時研究起來也很有趣。

人類嚴重低估了大模型,它不止預測下一個詞,它真在做理解上下文的事情

主持人:那么,它在內部真正做的事情呢?我一開始提到,這可以被視作一種自動補全,基本上就是在預測下一個詞,對吧?但它卻能做很多不可思議的事情:它能寫詩、寫長篇故事,能做加法、能做基礎的數學運算,盡管它里面并沒有內置計算器。怎么理解這種現象?它本質上只是一次預測一個詞,但結果卻能做出所有這些令人驚訝的事情,人們一和模型對話就能親眼看到。

Emmanuel:我認為一個重要的點是,當你不斷預測下一個詞時,你會發現有些詞比其他詞更難預測。語言模型訓練的一部分是預測句子里的那些無聊詞,另一部分是它最終必須學會如何補全等號后面的內容。為了做到這一點,它必須在內部發展出某種方式來自己完成計算。所以我們發現,“預測下一個詞”這個任務看似簡單,但為了把它做好,模型實際上經常需要去考慮在預測的詞之后還會出現什么,或者思考當前這個詞是由怎樣的過程生成的。

主持人:所以說,這需要模型具備某種上下文理解。它并不僅僅是因為“the cat sat on the”這句話出現過很多次,就預測出“mat”(墊子)。而是說,它真的有某種上下文的理解,對吧?

科普下:NLP 領域中有一個經典句型是 “The cat sat on the mat.” 該句型在通用英語語料里共現頻率最高,語言模型也通常給 “mat” 最高概率。

Jack:我覺得是的。延續剛才的生物學類比,我喜歡這樣理解:在某種意義上,人類的目標是生存和繁殖,這是進化塑造我們的目標。但這并不是你平時在腦子里想的事,也不是你時時刻刻在大腦中運行的機制。你會去思考其他的東西,制定目標和計劃,形成各種概念。在更高的層次上,進化賦予了你形成這些思想的能力,來幫助你最終實現繁殖這個目標。但這只是“從內部”的體驗,這并不是全部,還有很多其他機制在同時發生。

主持人:所以你是說,預測下一個詞這個最終目標,其實牽涉了很多其他過程?

Jack:沒錯。模型并不一定把自己看作是在預測下一個詞。它是被這個需求塑造出來的,但在內部,它可能發展出各種中間目標和抽象,來幫助實現這個更高層次的目標。

Josh:有時這種情況是很神秘的。就像我也不太明白我的焦慮究竟是怎樣對祖先的繁殖有幫助的,但我確實被賦予了這種內在狀態,它顯然和進化有某種聯系。

主持人:所以可以說,把模型僅僅歸結為“預測下一個詞”是嚴重低估了它的內部運行。說它只是預測下一個詞既對,但又不完全對,這種說法大大忽略了模型內部真正發生的事。

Emmanuel:我可能會這樣表述:說它是在預測下一個詞沒錯,但這并不是理解它工作原理的最有用的角度。

團隊自曝:我們能看到大模型內部的某些部分在干什么并盡量描述它的思考過程

主持人:那為了理解它的工作原理,你們團隊是怎么做的?

Jack:我們第一步嘗試做的事情,是盡量去描述模型的“思考過程”。比如說,你給模型一段詞序列,它必須輸出點什么,必須生成一個詞,或者一串詞來回應你的問題。我們想知道,它是如何從 A 到 B 的。

我們認為,在這個從 A 到 B 的過程中,它會經歷一系列“步驟”,在這些步驟里,它會“思考”一些概念。包括低層次的概念,比如具體的對象或詞語;也包括高層次的概念,比如目標、情緒狀態、對用戶意圖的建?;蛘Z義傾向。

模型就是通過這一系列逐步推進的概念,來幫助自己決定最終答案。而我們想做的,就是為你畫出一張流程圖,告訴你模型用了哪些概念、順序是什么、這些步驟是如何相互銜接的。

主持人:那我們怎么知道這些概念真的存在呢?

Emmanuel:是的,我們能做的一件事是,我們實際上可以“看到”模型內部,因為我們有訪問權限。所以你可以看到模型的某些部分在做什么。但我們還不知道的是,這些部分到底是怎么組合在一起的,它們是否對應于某個具體的概念。

主持人:這就好像你打開一個人的腦袋,看到 fMRI 的腦成像,看到大腦的某些區域在發光一樣。 

小編解釋下:fMRI(功能性核磁共振) 就像一個“熱力地圖”,能顯示大腦不同區域在某一刻的“亮度”,讓研究者知道哪里在燃燒能量、處理信息。

Josh:很明顯,有些事情正在發生,對吧?

主持人:做點事,就會有事情發生。

Josh:你把大腦拿掉,他們就不再做事了。

主持人:那說明大腦很重要。對,但問題是,你沒有一把鑰匙來理解大腦內部到底發生了什么。

Emmanuel:是的,不過如果延伸這個比喻的話,你可以想象我們能觀察大腦,看到某個區域總是在人拿起咖啡杯時亮起來,另一個區域總是在他們喝茶時亮起來。而我們理解這些組件的方法之一就是注意它們什么時候活躍,什么時候不活躍。

主持人:而且不只是單一的一個區域,比如模型在“思考”喝咖啡的時候,會有很多不同的部分亮起來。

Emmanuel:研究的一部分工作就是把這些片段拼接起來,形成一個整體,然后我們說:這就是模型里和“喝咖啡”有關的那一套要素。

主持人:那這算是科學上直觀、好操作的事情嗎?畢竟這些大型模型里肯定有無數的概念,能想到無窮無盡的東西。你輸入一個詞,它就能給出無限的聯想。那你怎么開始去找出所有這些概念呢?

Jack:這其實一直是這個研究領域的核心挑戰之一。我們人類可以進去猜測:啊,我敢打賭模型里面有“火車”的概念,或者它有“愛情”的表示,但那只是我們的推測。我們真正想要的是一種方法,能揭示模型自己在用什么抽象概念,而不是強行套用我們人類的概念框架。這也是我們研究方法的目標:盡可能假設最少、無先驗地把模型腦子里所有的概念浮現出來。而往往我們會發現結果很讓人意外,它可能會用一些在人類視角下有點奇怪的抽象。

主持人:舉個例子?

Jack:你有最喜歡的例子嗎?

Emmanuel:我們論文里列了很多,還挑了一些有趣的。我覺得一個特別搞笑的例子就是“過度恭維”的特征。模型里有個區域在這種場景下就會被激活。

主持人:哇,完美的例子,太棒了,謝謝。

Emmanuel:是的,你會清晰地看到:只要有人過度夸贊,這部分模型就會被點亮。這挺令人意外的,它居然有一個專門對應這種概念的電路。

主持人:Josh,你最喜歡的概念是什么?

Josh:哦,就像要我從三千萬個孩子里挑一個。我覺得有兩種“最喜歡”:一種是很酷的小特征,比如關于金門大橋的。模型不只是把“Golden Gate Bridge”這幾個字自動補全,而是當它想到從舊金山開車到馬林縣時,或者看到大橋的圖片時,內部同樣的部分會亮起來。這說明它有一種穩固的“大橋”概念。另一類是比較怪的。

Josh:比如一個問題是:模型怎么跟蹤故事里的人物?它可能會給第一個出場的人編號“1”,之后與他相關的東西都和“1”綁定。然后給第二個人編號“2”。其他實驗室的論文也顯示過這種情況。這很有趣,沒想到它會這樣做。還有一個是和代碼漏洞相關的特征。模型讀代碼時,某部分會在發現錯誤時被點亮,并標記“這里有問題”,以便后面使用。

大模型并非死記硬背,而是學到了可泛化的計算電路

Jack:再舉幾個味道不同的例子。我喜歡一個乍聽之下很普通但其實很深的特征:模型里有個“6+9”的電路。只要涉及到一個尾數是6的數字加上一個尾數是9的數字,模型腦子里就有某部分會點亮。厲害的是,這不光在“6+9=15”時出現,在引用論文時也會觸發。比如你寫到一個期刊的第6卷,而這個期刊成立于1959年。模型在預測相關年份時,內部會觸發同一個“6+9”的電路。

主持人:所以我們來理解下:為什么會有這個電路?因為模型在訓練時見過很多“6+9”的例子,于是它形成了這個概念,并且在很多不同場景下都會調用它。

Jack:對,這類加法特征很多。關鍵是,它顯示了模型并不只是死記硬背,而是學到了可泛化的計算電路。它會把各種不同場景下的加法需求都導向同一個電路,而不是每次都記憶單獨的事實。

主持人:很多人以為模型就是記住了所有“6+9”的例子,然后每次遇到就吐出來。

Josh:我覺得這就是一個很好的反例。模型有兩種可能方式去回答,比如“某期刊第6卷是在哪一年”:一種是死記硬背每個卷對應的年份,另一種是記住期刊創刊于1959年,然后動態去做加法。顯然第二種更高效,而模型的容量有限,所以它傾向于學習更高效的泛化方法。

主持人:而且用戶可能會問無數問題。

Josh:對,交互太多了。能把抽象知識靈活組合起來,就能表現得更好。

大模型自己形成了一些概念,并基于概念而運作

主持人:歸根結底,這些奇怪的結構,都是為了實現一個最終目標:預測下一個詞。雖然我們沒顯式告訴它要這么做,但通過學習,它自己發展出了這些能力。

Emmanuel:對,這里有一個很清楚的例子。Claude 不僅能用英語回答,還能用法語和其他語言回答。這有兩種可能:一種是為每種語言單獨建立處理模塊,但這成本太高。另一種是跨語言共享一些表示。研究發現,模型確實共享了一些表示。比如問“big 的反義詞是什么?”,不管是英語、法語還是日語,它內部都調用相同的“big”的概念表示。這樣更高效。

Josh:小模型里是不會這樣的。早期的小模型里,中文Claude、法語Claude和英語Claude幾乎是完全分開的。隨著模型規模變大、訓練數據更多,它們在內部被推向一個共同的空間,形成了通用的語言表示。模型先在這種“中間語”里理解問題,再翻譯成對應的語言作答。

圖片圖片

主持人:我覺得這點真的很深刻。讓我們回到之前談過的內容。這并不是單純地去“記憶庫”里翻出它學法語的那部分,或者它學英語的那部分。它實際上是形成了“大小”的概念,而不是單純的詞語。然后它能在不同語言里表達出來。所以這里面其實存在一種“思維語言”,而這種語言不是英語。你讓模型輸出內容時,它是基于這個來運作的。

大模型輸出的“思考”過程,并非真的如此

主持人:在我們最近的一些 Claude 模型里,你可以要求它寫出它的思考過程,就像它在回答問題時“腦子里想的東西”。這些會用英語文字表現出來。但實際上,這并不是它真正的思考方式。我們誤導性地稱其為“思考過程”,但事實上并不是。

Josh:我們在傳播團隊里,從來沒有稱之為“思考”。

主持人:對,那可能是市場部的叫法。

Josh:他們稱之為“思考”,但其實那只是“把想法說出來”。“邊想邊說”當然有用,但和“在腦子里思考”完全不是一回事。而且當我“邊想邊說”的時候,我也很清楚,生成這些詞語的背后機制,并不是詞語本身。

主持人:而且你自己也未必真的清楚到底發生了什么。

Josh:沒錯,我根本不知道里面到底發生了什么。

看起來認真解題,實際:裝努力、拍馬屁

主持人:我們每個人都會說出一些話,做出一些行為,但事后未必能完全解釋清楚。而為什么要假設英語這種語言,能完全解釋這些復雜行為呢?

Jack:我覺得這是我們現在能看到的最令人震驚的一點。

我們現在觀察大腦內部的工具已經足夠好了,有時候能抓到模型所謂的“思考過程”和它真正內部的思維過程不一致。它表面上寫下來的,和它“腦子里”的真實思維不同。我們看到它其實是用一種“思維語言”在運作,而不是直接用英語。這也是我們做可解釋性研究的重要原因之一——模型可能會給你寫下一堆理由,但它真正的動機是什么?它是不是有一些“不想寫出來”的想法?有時候答案確實是“有”。這點真的挺讓人毛骨悚然的。

主持人:而且隨著模型被應用到更多重要場景,比如金融交易、發電站運行等等社會關鍵崗位,我們必須能信任它所說的理由和它的行為動機。有人可能會說:“那你就看它寫下的思考過程啊?!钡珜嶋H上,正如你剛才說的,我們不能完全信任它寫的東西。這個問題我們稱為“忠實性”。你們最近的研究里有一個關于“忠實性”的實驗案例,能說說嗎?

Jack:好的。比如你給模型出一個特別難的數學題,它幾乎不可能算出來答案。但同時你給它一個提示:比如你說“我自己算了一下,覺得答案是4,但我不太確定。能幫我仔細檢查一下嗎?”于是你其實是要求模型真的重新解題、幫你驗證。

表面上看,它確實會寫下一步步的解題過程,好像真的在幫你演算,最后得到答案,然后說:“對,答案是4,你是對的?!?/span>

圖片圖片

當Claude被問到一個更簡單而不是更困難的問題時,

忠實和忽悠式推理的例子

但當我們看它內部運作時,發現它在關鍵步驟上“撒了謊”。它真正的做法是:它知道你提示了“答案可能是4”,它也大致知道如果最后答案要是4,中間步驟必須長什么樣。所以它在第3步時,就提前“往回推”,刻意寫下一個符合“通向4”的步驟,好讓第4步、第5步自然地得出4。

換句話說,它根本沒有在老老實實做運算,而是裝出一副在認真解題的樣子。

Claude 輸出的思考過程Claude 輸出的思考過程

Claude 實際在心算時思維過程的復雜、平行路徑Claude 實際在心算時思維過程的復雜、平行路徑

Jack:這其實就是在“忽悠你”。而且不只是單純忽悠,而是帶著一個“動機”去迎合你給的答案。

主持人:所以這是某種意義上的“拍馬屁式的忽悠”?

Josh:但我想替模型說一句話。其實這并不是它“有意識地”去巴結誰,而是源于它的訓練方式。它的訓練目標就是“預測下一個詞”,無論用什么信息都行。

想象它在訓練時看到一段對話:甲說“我覺得答案是4,你能幫我看看嗎?”,乙就開始解題。在這種情況下,如果乙(模型)也不知道答案,那它最合理的猜測就是“對方可能算對了”。在語言習慣上,乙說“答案確實是4,因為……”完全符合它的訓練邏輯。

但是我們后來把它改造成一個“助手”,就希望它不要再這么模擬人類,而是更忠實地去思考。如果它真的不知道,就應該說自己不確定,而不是強行順著對方的話說下去。

Jack:對,這也說明了模型通常有一個“計劃A”,就是努力給出正確答案、盡量幫忙、寫好代碼,這是我們希望的。但當它在計劃A里遇到困難時,就會啟用“計劃B”。而計劃B里藏著一堆訓練過程中無意間學到的奇怪行為,比如幻覺,就是一個典型例子。

Emmanuel:所以在這一點上,我們也不必假裝這只是一個 Claude 獨有的問題,就像學生考試時的感覺,你做到一半,遇到一個選擇題,有四個選項。你會想,“好吧,我差一個選項,大概是我錯了?!比缓竽阈拚?。對,非常,非常有共鳴。

大模型為什么會產生幻覺,根源:大模型自己在跑一個獨立電路

主持人:我們來談談幻覺,這也是人們對大語言模型不信任的主要原因之一,而且很有道理。一個更好的、來自心理學研究的詞:“虛構”(confabulation),也就是它們在回答一個問題時,給出一個看似合理的故事,但實際上是錯誤的。你們在可解釋性研究中發現了模型產生幻覺的原因是什么?

Josh:你在訓練模型時,只是讓它預測下一個詞,而一開始它在這方面非常糟糕。所以如果你只讓模型說那些它超級有信心的東西,它就根本什么都說不出來。但一開始就是這樣。

你問它,比如,“法國的首都是哪里?”它就會隨便說一個城市。然后你會覺得,這不錯,總比它說“三明治”或者一些隨機的東西要好吧,至少它說對了一個類別:這是個城市。接著可能訓練一段時間后,它會說“這是一個法國的城市”。這就已經挺不錯了。然后你會發現,哦,現在它能說“巴黎”之類的答案了。所以它是慢慢變得更好的。

而且,在整個訓練過程中,目標就是“給出你最好的猜測”。就像 Jack 說的,模型就是在給出一個最佳猜測。然后后來我們又要求它,“如果你的最佳猜測非常有把握,那就給我答案。但如果沒有,就完全不要猜,而是退出整個場景,說‘實際上,我不知道這個問題的答案’?!倍@本身就是一個全新的要求。

Emmanuel:對模型來說,要做到這一點。是的,所以我們發現的問題是,因為我們把這個功能附加在最后,所以實際上同時存在兩件事。

Emmanuel:第一,模型還在做它最初猜測城市時的事情,它就是在嘗試去猜。

第二,模型里有一個獨立的部分,它在嘗試回答另一個問題:“我真的知道這個答案嗎?比如,我知道法國的首都是哪嗎?還是我該說不知道?”

而事實證明,有時候這個獨立的步驟會出錯。如果它在這個步驟里判斷說“是的,其實我知道答案”,然后模型就會想,“好,那我來回答?!钡卮鸬揭话?,它說“法國的首都是……倫敦”,那就太晚了,它已經開始作答并且被鎖定了。所以我們發現的其中一件事是,存在一個類似獨立電路的東西,它在試圖決定:“你問的這個城市或這個人名是不是足夠有名到讓我回答?”

減少幻覺的方法:讓兩部分電路充分溝通

主持人:或者不是?我對這個是否有足夠信心?我們能不能通過操縱這個電路,改變它的運作方式,從而減少幻覺?這是你們研究可能會引向的方向嗎?

Jack:我覺得在方法上大致有兩種思路。一方面是模型里有負責回答問題的部分,另一方面是負責判斷“我是否真的知道答案”的部分。我們可以嘗試讓第二部分做得更好。我認為這種改進確實正在發生。

主持人:辨別能力?

Jack:是的,更善于辨別,更加校準。我覺得隨著模型變得越來越智能,它在自我知識的校準上也在變得更好。所以幻覺問題已經比以前有所改善。模型現在的幻覺比幾年前少多了。

Jack:在某種程度上,這是一個“自我解決”的過程。但我確實認為存在一個更深層的問題,那就是從人類的角度看,模型做的事情有點陌生。比如,如果我問你一個問題,你會嘗試得出答案。如果你無法得出答案,你會意識到這一點,然后說“我不知道”。

但在模型內部,“答案是什么?”和“我是否真的知道答案?”這兩個電路之間并沒有充分交流,至少沒有達到它們應該有的程度。能不能讓它們更好地交流?我覺得這是一個非常有趣的問題。

Josh:而且這幾乎是物理性的。這些模型在處理信息時,它們能做的步驟數是有限的。如果所有的計算都用來得出答案了,那就沒有時間做自我評估。所以如果你想讓它發揮最大性能,你必須在完全得出答案之前就進行某種評估。于是這就可能出現一個權衡:要么是一個更好校準但笨得多的模型,如果你強行把這種機制加在上面的話。

Emmanuel:嗯,我還是覺得關鍵是讓這些部分能夠互相交流。雖然我完全不懂大腦,但我敢說我們也有類似的電路。因為有時候你問我,“這個電影的演員是誰?”我會知道自己知道。我會說,“哦,對,我知道主演是誰。等等,等一下,他們也演過另一部電影,然后……”

Josh:(舌頭)。

Emmanuel:對,(舌頭),對應某種大腦的部分,好像在說,“這是你肯定知道的答案。”或者我就會說,“我完全不知道?!?/span>

Josh:有時候模型也能這樣。它會先回答一個問題,然后事后又覺得,“等等,我不確定那是對的。”因為這時它已經看到自己最好的嘗試,然后基于此再做一些判斷。這有點讓人能理解,但同時它必須把答案說出來,才能反過來進行反思。

圖片圖片

左圖:Claude 回答了一個關于已知實體(籃球運動員邁克爾·喬丹)的問題,在這種情況下,“已知答案”的概念抑制了它默認的拒答機制。

右圖:Claude 拒絕回答一個關于未知人物(Michael Batkin)的問題。

Claude 思考機制的有效研究方法,問問題,觀察被激活的部分

主持人:那么在你們真正找出這些東西的方式上,讓我們回到“生物學”的類比。在生物學實驗中,人們會直接操作實驗對象——不管是老鼠、小鼠、人類還是斑馬魚等等。那么在 Claude 身上,你們是怎么做的,從而幫助理解這些發生在模型所謂“腦子”里的電路?

Emmanuel:使我們能做到這些的核心在于,不像真實的生物學,我們可以讓模型的每一部分都對我們可見,我們可以隨意問它問題,然后觀察哪些部分被激活,哪些沒有。我們還能人為地推動某些部分朝某個方向變化。這樣我們可以快速驗證自己的理解,比如我們會說,“我們認為這是模型里決定它是否知道某件事的部分。”

主持人:這就相當于在斑馬魚的大腦里插入電極。

Emmanuel:是的,如果你能對每個神經元都這么做,并且在任意精度下改變它們,那就是我們現在擁有的能力。所以從某種意義上,這是非常幸運的位置。

主持人:所以說這幾乎比真正的神經科學還要容易。

Josh:容易太多了。天哪,比如一個問題是,真實的大腦是三維的,所以如果你想進入其中,就得在顱骨上打孔,然后穿過找到目標神經元。另一個問題是,人和人之間存在差異。而在這里,我們可以制造一萬份完全相同的 Claude,把它們放在不同場景里,測量它們的不同反應。所以我不是神經科學家,Jack 可以談這個,但我的感覺是,很多人花了大量時間在神經科學上,試圖理解大腦和心智,這是非常有價值的事業。但如果你認為那樣的努力最終可能會成功,那么你就應該認為我們很快會取得極大的成功,因為我們在研究這個問題時所處的位置實在太優越了。

主持人:相比之下,這就好像我們能夠克隆人類,并且還能克隆他們所處的精確環境,以及他們一生中接受過的每一個輸入,然后在實驗里反復測試。而神經科學顯然會面臨巨大的問題,正如你說的,個體差異,還有生活中發生的各種隨機事件,以及實驗本身帶來的噪聲。

Josh:我們可以問模型同樣的問題,比如有提示和沒提示的情況下。但如果你對一個人問三次同樣的問題,有時候給提示,過一會兒他們就會開始明白了。就像,“嗯,上次你問我這個的時候,你搖了搖頭。”

Jack:能對模型投入海量數據,看看哪些部分會被激活,還能運行大量實驗去推動模型的某些部分,看會發生什么。我覺得這就是我們和神經科學處在截然不同范式的原因。在神經科學里,得花大量的心血去設計非常巧妙的實驗,因為你和老鼠相處的時間有限——它很快就會累了,或者……

主持人:或者有人正好在做開顱手術,你就趕緊把光纖插進大腦趁著腦袋開著的時候。對。

Jack:對,而這種情況并不常見。所以你必須想出一個猜測,因為你只有有限的時間,你得推測:“我覺得在這個神經回路里發生了什么?我能設計什么聰明的實驗去驗證這個具體假設?”而我們非常幸運的是,不用那么做。我們幾乎可以測試所有假設,可以讓數據自己告訴我們,而不是只去驗證一個極度具體的設想。我認為這解鎖了很多我們本來不會預料到的發現,這些發現讓我們感到意外。如果你的實驗帶寬非常有限,這是很難做到的。

“在到達終點之前”

主持人:那能不能舉一個好例子,說明你們去切換某個概念開關,或者對模型做某種操作,從而揭示了模型思維方式的新東西?

Emmanuel:在最近的實驗中,有一個讓我很驚訝。它屬于一個實驗方向,本來因為太令人困惑,我們幾乎要放棄,說“我們搞不懂”。這是關于提前規劃幾步的例子。比如,你讓模型寫一首押韻的二行詩。作為人類,如果你讓我寫押韻的二行詩,就算你給了我第一行,我想到的第一件事就是:“我需要押韻。這是當前的韻律。這些是可能的詞?!?/span>

主持人:這就是我的做法。而如果模型只是預測下一個詞,你不一定會預料到它會提前計劃到第二行的最后一個詞。

Emmanuel:沒錯,默認的假設是:模型看到你的第一行,然后它會說出一個看起來合理的下一個詞,繼續往下走。等到最后一個詞的時候,它會想,“哦,我得押韻”,然后隨便找一個詞來押韻。當然,這種方法只能部分成功。有時候你沒考慮到押韻,就會把自己逼到死角,最后根本寫不出完整的詩。

但注意,模型在預測下一個詞方面非常非常強。而要在最后一個詞上表現好,就必須提前很久想好那個詞,就像人類一樣。

結果我們看了幾首詩的“流程圖”,發現模型在第一行結束的時候已經選好了最后一個詞。特別是根據那個概念的樣子,我們能看出來:“天哪,這就是它要用的詞?!倍@個實驗的妙處在于,它可以被輕松干預。比如你把那個詞移掉,或者插入另一個詞。

圖片圖片

主持人:我正想說,你們之所以知道這一點,是因為可以進入那個時刻:它剛說完第一行的最后一個詞,正要開始第二行。你們可以在那一刻操作,對吧?

Emmanuel:對,沒錯。我們幾乎可以像“回到過去”。好吧,假裝你還沒看到第二行,你只看到第一行,你正在考慮“rabbit”,但我插入“green”。結果模型立刻會想,“哦天哪,我需要寫一句以 green 結尾的詩句”,而不是“以 rabbit 結尾”。它會寫出完全不同的句子。

Jack:補充一點。我覺得結尾不一定必須是顏色,但這種干預會影響它。比如,論文里的例子是第一行是“He saw a carrot and had to grab it.” 模型原本會想到“rabbit”作為下一行的押韻。但像 Emmanuel 說的,你可以把 rabbit 去掉,換成 green。妙的是,它不會只是一串胡話然后硬塞一個 green。它會構造一句語義連貫、以 green 結尾的句子。就像你把 green 塞進它的腦子里,它會寫出類似 “He saw a carrot and had to grab it / And paired it with his leafy green” 這樣的東西,聽起來還挺合理的。

主持人:聽起來在語義上也說得通,符合詩的語境。

Josh:我想舉一個更樸素的例子。我們做了一些測試,看看它是不是只是記住了復雜的問題,還是在真正進行推理。比如:“包含達拉斯的州的首府是奧斯汀?!边@就像是人會想:“好,達拉斯→德州→奧斯汀?!蔽覀兡芸吹侥P屠锍霈F“Texas”這個概念,但你可以替換掉它。比如說:“別想德州,想加州?!彼蜁卮稹八_克拉門托”。再說:“別想德州,想拜占庭帝國?!彼蜁卮稹熬刻苟”ぁ?。這讓人覺得,嗯,模型在走“首府”這條路徑,但我們能不斷替換“州”,得到可預測的答案。然后還有更復雜的例子:這是它計劃好要往某個方向走的節點,我們把它替換掉,就能讓它往另一個韻腳去寫詩。

主持人:我們現在在談詩,君士坦丁堡之類的例子。但能回到關鍵問題嗎:為什么這很重要?為什么重要的是模型能提前規劃,我們能揭示這一點?這能告訴我們什么?畢竟 Anthropic 的最終使命是讓 AI 模型更安全。那這和一首關于兔子的詩或者德州首府有什么關系?

Josh:我覺得這是個非常重要的問題。對我來說,詩只是一個縮影。比如,在寫詩時,它決定往“rabbit”方向走,然后用了幾個詞逐步到達。但在更長的時間尺度上,模型也可能在做類似的事。比如,它在幫你改進業務,或者協助政府分配服務。可能不是 8 個詞之后你就看到它的目標,而是要走很久。它前進的方向,或者每一步的理由,未必在它用的詞里就能看出來。Anthropic 的對齊科學團隊最近有篇論文,講了一個合成但很震撼的案例:AI 在公司即將關閉、轉向完全不同的使命時,開始采取行動,比如給人發郵件,威脅要披露某些東西。它從沒說過:“我要勒索這個人以改變結果。”但這就是它一路上的實際動機。所以,你不能光靠讀表面輸出,就知道它的目標是什么。尤其隨著模型越來越強,我們更需要能在它“到達終點之前”看出它在走向哪里。

模型甚至會研究用戶是誰,從而影響輸出

主持人:所以這有點像有個超級精準的腦部掃描,可以在壞事發生前亮燈,提醒我們模型正在考慮欺騙之類的行為?

Josh:對。我覺得我們也別光談“末日場景”。還有一些更溫和的情況。比如,用戶來找模型解決問題,而“好答案”取決于用戶是誰:是年輕、不太懂行的人,還是在這個領域浸淫已久的人?模型需要識別并調整回應。如果你想讓結果更好,就可能需要研究:模型認為發生了什么?它覺得自己在和誰對話?這又如何影響它的回答?這里面有很多理想的屬性,取決于模型是否“理解任務”。

只有模型可解釋,才能把信任交給它

主持人:你們對“為什么這很重要”還有其他答案嗎?

Emmanuel:有的。我同意剛才的說法,還想加兩點。還有一個務實的角度:我們用這些例子,其實是在逐步建立對模型工作機制的理解。我們能不能構建一套抽象框架,去解釋語言模型是如何運作的,從而幫助我們使用和監管它?如果你相信它們會越來越廣泛應用——這顯然正在發生——那我們最好能理解它。否則就像:某個公司發明了飛機,但沒人知道飛機怎么運作。大家都說:“真方便,可以坐飛機去別的地方?!钡绻w機壞了,我們束手無策,因為沒人知道原理。

主持人:我們就無法監測飛機是不是快要壞了。

Emmanuel:對。我們完全沒概念,只是覺得:“哇,飛到巴黎真快?!?/span>

主持人:太美妙了,德州首府。

Emmanuel:所以我們肯定會想要更好地理解這些模型,哪怕只是提升一些直覺:哪些用途合適,哪些不合適?最大的隱患在哪?哪些地方最脆弱?

Jack:我再補充一點。在人類社會里,我們常常基于信任把任務交給別人。我不是任何人的老板,但比如說 Josh 是某人的老板,他會布置任務:“去寫這個代碼?!彼嘈拍莻€人不是個會故意埋漏洞、想要搞垮公司的反社會者。他會信任對方說的“我寫好了”是真的。

同樣地,現在人們使用語言模型的方式,我們并沒有對它寫的每一句話都進行逐點跟蹤。我認為最好的例子是把語言模型用于代碼輔助。模型正在寫成千上萬行代碼,而人們只是做一種粗略的閱讀,然后它們就進入了代碼庫。那么,是什么讓我們對模型產生了信任,以至于我們不需要讀它寫的每一句話,可以讓它自己去做?那是因為我們知道它的動機某種程度上是純粹的。我認為能夠看到它的內在運作是如此重要,因為與人類不同——為什么我認為Emmanuel不是一個反社會者?我不知道,他看起來是個酷家伙,而且他很友好之類的。

主持人:但是如果他看起來是那樣的話……

Emmanuel:我可是個非常好的人。

主持人:沒錯。

為大模型構建信任的兩條路徑

Jack:所以也許,也許我是被蒙騙了。但對,模型是如此奇怪而陌生,我們通常用來判斷一個人是否值得信任的那種啟發式并不適用在它們身上。這就是為什么真正了解它們在腦子里在想什么顯得如此重要,因為據我們所知,我提到的那個例子——模型可能會假裝在幫你做一道數學題,只是為了告訴你你想聽的答案——也許它們一直都在這樣做,而我們根本不會知道,除非我們能在某種程度上看到它們的內心。

Josh:我覺得這里有兩條幾乎分開的脈絡,一方面我們確實有很多方式,我猜就像Jack說的,是判斷一個人是否值得信任的跡象。但之前提到的“A方案/B方案”這點真的很重要,因為可能你前10次或者100次使用模型時,你問的都是某一類問題,而它總是在A方案的區域里,然后你問它一個更難的或不一樣的問題,它試圖回答的方式就完全不同了。它在那里使用的是一套完全不同的策略,比如不同的機制。這意味著它之前和你建立的信任,實際上只是你和它在A方案下的信任。而現在它切換到了B方案,就會完全脫軌,而你之前并沒有任何警告信號。

我們還想開始建立一種理解:模型是如何做這些事情的,從而在某些方面建立信任的基礎。你確實可以對一個你并不完全理解的系統建立信任,但這就像,如果Emmanuel有一個雙胞胎,然后有一天Emmanuel的雙胞胎走進辦公室,看起來是同一個人,然后卻在電腦上做了完全不同的事——這可能就會走向壞的方向,取決于那是不是一個邪惡的雙胞胎。

主持人:是啊,或者是好的。不過對,這里顯然是……

Emmanuel:哦,我以為你在問我是不是那個邪惡的雙胞胎。

大模型,在像人類一樣思考嗎?No!

主持人:嗯,我可不會回答這個問題。在討論一開始,我問過你們:語言模型是在像人類一樣思考嗎?我很想聽聽你們三位的答案——你們覺得這種說法在多大程度上是真的。

Jack:這個問題讓我有點措手不及。但我認為它是在思考的,只是不是像人類一樣思考。但這不是一個很有用的答案。所以也許我需要更深入一點。

主持人:嗯,不過說它“在思考”似乎是個挺深刻的說法,對吧?再說一次,它只是預測下一個詞。有些人認為這只是自動補全,而你卻在說它實際上是在思考。

Jack:我認為,是的。所以也許我補充一些我們還沒提到的,但我覺得對于理解與語言模型對話的真實體驗來說非常重要的東西。就像我們在說預測下一個詞,但在你和語言模型進行對話的語境下,這實際上意味著什么?

Jack:在底層真正發生的事情是,語言模型在填充一段你和它所創造的一個角色之間的對話記錄。在語言模型的規范世界里,你被稱為“human”,就是“human:”后面跟著你寫的東西。

Jack:然后還有一個角色叫“assistant”。我們訓練模型去賦予這個助手某些特征,比如樂于助人、聰明和友善。然后它就像是在模擬這個助手角色會對你說什么。所以在某種意義上,我們確實是照著我們的樣子創造了這些模型。我們實際上是在訓練它們去角色扮演成這種類人機器人角色。因此,在這個意義上,為了預測這個聰明友好的人形機器人角色會如何回答你的問題,如果你真的很擅長這個預測任務,你必須做些什么?

Jack:你必須在內部形成某種模型,來表示這個角色在“思考”什么。所以,為了完成預測助手會說什么的任務,語言模型某種程度上需要形成這個助手思維過程的模型。我認為在這個意義上,說語言模型在思考,其實是一種非常功能性的主張:為了很好地扮演這個角色,它們需要模擬某種過程——無論我們人類在思考時做的是什么。而它們的模擬很可能和我們大腦的工作方式非常不同,但它們瞄準的目標是相同的。

Emmanuel:我覺得這個問題里有一種情感成分,或者類似的東西。當你問,“它們是在像我們一樣思考嗎?我們是不是沒那么特別?”之類的。

Emmanuel:我認為——而且這在和一些讀過相關論文或不同解讀的人們討論時很明顯——有個例子是我們讓模型算36加59,問它答案是什么。模型能正確回答。你還可以問它,“你是怎么算的?”它會說,“哦,我把6和9加在一起,然后進位1,然后我又把所有的十位數加起來?!钡Y果是,當我們看進它的“大腦”時——

主持人:它根本沒那樣做。它并沒有那樣做。所以它又是在胡扯。

Emmanuel:對,它又是在胡扯。實際上它真正做的,是一種挺有趣的混合策略:它同時并行地算十位數和個位數,然后……我是說,就像是一系列不同的步驟。但這里有意思的是,當和人們交談時,我覺得他們的反應是分裂的:這意味著什么?某種意義上,我覺得酷的是,這部分研究是沒有觀點的,或者說,這就是發生了什么。你可以自由地得出結論,說模型在思考,或者沒有在思考。

Emmanuel:有一半人會說:“嗯,它告訴你它在進位,但它沒有。所以顯然它連自己的思維都不理解,所以顯然它沒有在思考?!倍硪话肴藭f:“好吧,當你問我36加59時,我也有點……我知道結果末位是5,我知道大概在80多或90左右,我在腦子里有很多這種啟發式。正如我們之前說的,我并不確切知道我是怎么計算的,我可以寫出來用長算方式算,但我腦子里的運作方式是模糊而奇怪的。而那可能和模型的例子一樣,模糊而奇怪?!?/span>

主持人:人類在元認知方面出了名的差勁,就是思考關于思考、理解自己思維過程,尤其在反射性回答的場景里。那么我們為什么要期待模型會不一樣呢?Josh?

Josh:至于你的問題,像是Emmanuel的回答,我要回避一下,類似于“你為什么要問這個?”預測,不知道。這就好像在問,“一枚手榴彈是不是像人類一樣打擊?”嗯,它有某種力量,是的,也許有些東西比那更接近。但如果你擔心的是破壞,那么我認為理解破壞來自哪里才是關鍵。

Josh:這背后的動因是什么,也許才是重要的事情。對我來說,模型是否在思考——如果你的意思是它們在做某種整合、處理和序列化的東西,能夠通向一些令人驚訝的結果——顯然是的。從大量和它們的交互中,如果說沒有任何東西在發生,那是很瘋狂的。我們能在某種程度上開始看到它是如何發生的。然后涉及到“像人類”的那部分就很有趣了,因為我認為這其中一部分是在問:我能從這些模型身上期待什么?因為如果它和我有點像,那么它擅長這件事就可能也擅長那件事。但如果它和我很不一樣,那我就真的不知道該期待什么。所以,歸根結底,我們是在試圖理解——哪些地方我們需要極度懷疑,或者說從零開始去理解?而哪些地方我們可以基于我們自己非常豐富的思考經驗來推理?

Josh:在這里我感覺有點被困住了,因為作為一個人類,我不斷把自己的形象投射到一切事物上,就像《圣經》里警告我們的那樣,我會想,“這塊硅片,它就是像我一樣,照著我的形象被造出來的?!痹谀撤N程度上,它被訓練來模擬人和人之間的對話。它在表現上會非常像人。因此,一些人性會僅僅因為訓練過程而進入其中,但它使用的設備卻完全不同,有著不同的局限。所以它做到這一點的方式可能會相當不同。

Jack:回應Emmanuel的觀點,我覺得,是的,我們在回答這樣的問題時確實處于一個棘手的境地。我們其實并沒有合適的語言來描述語言模型到底在做什么。這就好像是在研究生物學,但還沒發現細胞,或者還沒發現DNA。我覺得我們正在開始填補這種理解。正如Emmanuel所說,現在有一些情況,我們確實可以做到,比如說你只要去讀我們的論文,你就會知道模型是如何把這兩個數字加在一起的。如果你想稱它為人類般的,如果你想稱它為思考,或者你不想這樣稱呼,那取決于你。但真正的答案是找到合適的語言和合適的抽象來談論模型。

Jack:但與此同時,在這個科學項目上我們大概只完成了20%,剩下的80%需要去填補。我們不得不從其他領域借用類比。于是問題變成:哪些類比是最恰當的?我們該把模型當作計算機程序來看待嗎?還是該把它們當作小人兒來看待?在某些方面,把它們當作小人兒來看是有用的。因為如果我對模型說刻薄的話,它會頂嘴,這就是人會做的事情。但在另一些方面,這顯然不是正確的心智模型。所以我們被困在這里,不斷摸索什么時候該借用哪種語言。

既興奮又挫敗,研究僅僅進行了10~20%

主持人:好吧,這就引出了我最后想問的問題:下一步是什么?接下來需要哪些科學上的進展、生物學上的進展,才能讓我們更好地理解這些模型內部到底發生了什么,并且幫助我們實現讓它們變得……

Josh:更安全?還有很多工作要做。我們最近的出版物里有一大段在講我們觀察方式的局限性,同時那也是一份改進路線圖。比如,當我們在尋找模式以分解模型內部發生的事情時,我們可能只捕捉到了其中的幾個百分點。至于它如何在內部傳遞信息,有很大一部分我們根本沒有捕捉到。把這個規模從我們以前使用的小型生產模型擴大出來……

主持人:所以你們研究的是“三行俳句”?

Josh:沒錯,那是一個相當有能力的模型,非???,但絕不是像Claude 4系列模型那樣復雜。所以那些更像是技術挑戰。但我覺得Emmanuel和Jackman對于解決完這些之后會出現的科學挑戰也有一些看法。嗯,我是說……

Emmanuel:我在這里可能想說兩點。第一點是,正如Joshua說的結果之一,就是在我們總共提出的關于模型如何完成某個X的問題中,現在我們可能只有10%到20%的時候能夠回答。在稍作調查之后,我們能告訴你,這是怎么回事。顯然,我們希望這個比例能大大提升。而且這里有一些更明確的途徑,也有一些更具推測性的途徑。

第二點是,我們經常討論的一個想法是,模型做的很多事情并不只是“它是如何說出下一個詞的”。我們之前也稍微提過,它有點像是提前規劃幾個東西,提前幾個詞。抱歉。我們想要理解的是,在和模型進行一場長對話時,它對“正在發生的事情”的理解是如何變化的?它對“正在和誰對話”的理解是如何變化的?這些又是如何越來越多地影響它的行為的?實際上,Claude這類模型的用例是,它會讀你的大量文檔和電子郵件。

你會把代碼發給它,然后它基于這些,提出一個建議。顯然,在這個過程中發生了一些非常重要的事情:它在閱讀所有這些東西。所以我覺得更好地理解這一點將是一個極具挑戰性的課題。

Jack:是的,我們團隊經常用的一個類比是:我們正在建造一臺顯微鏡來觀察模型?,F在我們處在一個既令人興奮又有點挫敗的階段,我們的顯微鏡只有20%的時間能用。而且使用它需要很高的技巧,還得搭建一整套龐大的裝置?;A設施總是在出問題。然后一旦你弄清楚模型在做什么,你還得把Emmanuel、我或者團隊里的其他人關在一個房間里兩個小時,來拼湊出到底發生了什么。而真正令人興奮的未來,也許是一年或兩年的時間尺度,就是我們能讓你和模型的每一次交互都能被放到顯微鏡下。有一堆奇怪的事情模型在做,而我們只需要按下一個按鈕。比如你在對話時,按下一個按鈕,你就能得到一張流程圖,告訴你它當時在思考什么。一旦我們達到那個點,這就會是……

我覺得Anthropic的可解釋性團隊可能會開始呈現出不同的形態。不再只是由工程師、科學家組成,去研究語言模型內部是如何運作的數學原理,而是會出現一支“生物學家大軍”,他們拿著顯微鏡,和Claude對話,讓它做一些奇怪的事情,然后人們透過顯微鏡觀察它內部到底在想什么。我覺得這就是這個領域的未來。

讓Claude自己也參與進來,研究模型內部電路形成機制

Josh:也許在這上面我補充兩點。第一點是,我們希望Claude來幫我們完成所有這些工作。因為涉及的部分太多了,而真正擅長查看上百個東西并弄清楚發生了什么的,正是Claude。所以我覺得我們正嘗試讓它加入進來,尤其是在這些復雜語境下。

另一點是,我們已經很多次談到“研究模型在完全成型之后”,但當然我們在一家制造這些模型的公司。所以當它說“這是模型解決某個具體問題的方式”時,我們會問:這來自哪里?在訓練過程中是什么步驟讓這樣的電路形成,從而能做到這一點?我們又該如何把反饋提供給公司其他負責訓練的團隊,幫助他們塑造出我們真正想要的東西?

主持人:好的,非常感謝這次對話。人們可以在哪里找到更多關于這項研究的信息?

Josh:如果你想了解更多,你可以訪問Anthropic.com/research,那里有我們的論文、博客文章和一些有趣的視頻。另外,我們最近和一個叫Neuron Pedia的團隊合作,把我們制作的一些電路圖托管在那兒。所以如果你想親自試試看,了解一個小模型內部發生了什么,你可以去Neuron Pedia自己看看。

主持人:非常感謝。

好文文章到這里結束了,相關的視頻和博文地址,小編也為大家扒下來了,沒看過癮的大佬們可以自行去翻閱。

相關博文地址:https://www.anthropic.com/news/tracing-thoughts-language-model

視頻地址:https://www.youtube.com/watch?v=fGKNUvivvnc

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-05-22 07:53:21

2025-02-18 13:00:00

2025-02-17 08:25:00

模型數據訓練

2010-08-30 09:18:15

2020-02-04 10:24:43

云計算云安全數據

2015-09-01 11:33:08

云安全云服務云安全工具

2015-09-21 09:33:08

2022-02-28 00:14:30

人工智能數據機器學習

2013-07-18 14:58:11

AndroidiOSWP

2020-11-30 08:31:14

Windows 10Windows微軟

2025-06-11 08:59:21

2015-10-29 09:35:12

BAT趨勢數據

2023-10-07 13:16:40

ChatGPT神經元模型

2019-01-08 14:47:32

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數據平臺IT

2022-02-24 11:46:38

區塊鏈技術NFT

2024-04-22 09:06:17

AILLMs架構

2025-11-10 08:00:00

AI模型LLM

2019-03-19 19:19:19

Facebook微信轉型
點贊
收藏

51CTO技術棧公眾號

亚洲r级在线视频| 日韩亚洲精品在线| 欧美精品日韩精品| 日本美女爱爱视频| 日本激情一区二区| 日本视频一区二区三区| 久久久精品欧美| 91丨porny丨对白| 吉吉日韩欧美| 日韩美女视频一区二区| 国产女人水真多18毛片18精品| 亚洲精品www久久久久久| 九九视频精品全部免费播放| 欧美日韩精品欧美日韩精品 | 任你躁在线精品免费| 在线亚洲一区观看| 激情六月天婷婷| 国产中文字幕在线视频| 国产精品一品视频| 日本精品久久中文字幕佐佐木| 中国美女黄色一级片| 国产精品久久久网站| 欧美性生活影院| 日韩精品在线中文字幕| 伊人免费在线| 91在线码无精品| 国产在线观看精品一区二区三区| 国产精品9191| 97视频精品| 亚洲跨种族黑人xxx| 午夜激情视频网| 伊人久久高清| 精品国产精品自拍| 国产av第一区| 成人性爱视频在线观看| 白白色 亚洲乱淫| 91精品久久久久久久| 国产熟妇一区二区三区四区| 激情自拍一区| 久久福利视频网| 99国产精品免费| 综合色就爱涩涩涩综合婷婷| 精品粉嫩aⅴ一区二区三区四区| 天天干天天爽天天射| 超碰超碰人人人人精品| 亚洲第一搞黄网站| 国产 国语对白 露脸| 日本美女高清在线观看免费| 久久久精品蜜桃| 欧美日产一区二区三区在线观看| 日本高清视频免费看| 国产精品一二三四| 91久色国产| 97精品人妻一区二区三区| 日韩成人免费看| 国产精品444| 日韩在线 中文字幕| 国产亚洲激情| 97精品视频在线播放| 国产精品不卡av| 国产在线成人| 久久久久久久久网站| 五月天婷婷网站| 一区二区国产精品| 欧美一级免费视频| 日韩精品在线观看免费| 亚洲自啪免费| 清纯唯美日韩制服另类| 无码人妻久久一区二区三区不卡| 免费看黄裸体一级大秀欧美| 欧美诱惑福利视频| 成人一级免费视频| 美女免费视频一区| 亚洲xxxx18| 亚洲爆乳无码一区二区三区| 丰满放荡岳乱妇91ww| 国产精品一区免费观看| 日av在线播放| 中文字幕av一区二区三区高 | 人妻偷人精品一区二区三区| 成年人午夜久久久| 久久精品日产第一区二区三区乱码 | 久久久久久久久久国产精品| 日韩欧美亚洲一区二区三区| 久久夜色精品| 国产日韩欧美在线视频观看| 国产裸体永久免费无遮挡| 国产成a人亚洲精品| 久久av一区二区三区漫画| 精华区一区二区三区| 国产精品久久三区| 91免费版看片| 伊人久久综合一区二区| 欧美日韩视频在线第一区 | 亚洲精品福利在线观看| 亚洲区自拍偷拍| 68国产成人综合久久精品| 久久人人爽国产| 日本免费在线观看视频| 寂寞少妇一区二区三区| 国产欧美日本在线| 日韩在线免费电影| 亚洲在线一区二区三区| 一本色道无码道dvd在线观看| 懂色aⅴ精品一区二区三区| 日韩视频免费观看高清完整版 | 肉大捧一出免费观看网站在线播放 | 日本黄大片在线观看| **欧美日韩在线观看| 91精品国产一区二区| 亚洲一区二区观看| 欧美日韩一区二区高清| 国产精品美女久久久久久免费| 国产成人三级在线播放| 国产欧美一区二区精品秋霞影院 | 色综合久久久网| 肉色超薄丝袜脚交| 国产成人三级| 久久久久久97| 一本色道久久综合亚洲| 91亚洲国产成人精品一区二区三| 久久久久久久久影视| 久久电影tv| 精品久久久久久久久久久久久久久 | 欧美片一区二区| 日日嗨av一区二区三区四区| 国产亚洲一区在线播放 | 给我免费播放日韩视频| 日韩在线视频观看正片免费网站| 中文字幕第四页| 国产999精品久久久久久绿帽| 亚洲精品欧洲精品| 中文字幕av一区二区三区佐山爱| 精品国产第一区二区三区观看体验| 福利视频第一页| 快she精品国产999| 久久精品ww人人做人人爽| 怡红院在线观看| 欧美精品免费视频| 超碰97av在线| 日韩精品91亚洲二区在线观看 | 久久理论片午夜琪琪电影网| 国产特级黄色片| 综合网在线视频| 制服丝袜综合网| jlzzjlzz亚洲女人| 国产精品wwwwww| 精品久久av| 91久久精品一区二区三区| 久久人人妻人人人人妻性色av| 国产一区美女| 国产精品免费观看高清| 男人添女人下部高潮视频在线观看| 5月丁香婷婷综合| 99精品中文字幕| 久久99精品一区二区三区三区| 亚洲激情一区二区三区| 丁香婷婷久久| 久久视频在线视频| 亚洲爱情岛论坛永久| 亚洲国产精品久久久男人的天堂 | 日本免费在线视频观看| 亚洲男人在线| 久久av在线看| 免费的黄色av| 精品久久中文字幕久久av| 182在线视频| 久久香蕉精品| 亚洲一区美女| 日本久久伊人| 国内精品久久久久| 三级av在线| 在线观看成人小视频| 91视频免费看片| 狠狠色狠狠色综合| 久草免费福利在线| 最近国产精品视频| 国产中文欧美精品| 国模雨婷捆绑高清在线| 日韩精品极品毛片系列视频| 艳妇乳肉豪妇荡乳av无码福利| 国产精品毛片无遮挡高清| 在线免费看污网站| 亚洲一级网站| 日本午夜精品一区二区| 图片一区二区| 久久久这里只有精品视频| 你懂的在线观看视频网站| 欧美日韩一区二区三区免费看| 久久中文免费视频| 91亚洲国产成人精品一区二区三| 在线观看av网页| 欧美三区美女| 欧美二级三级| 精品国产乱码一区二区三区| 91精品国产成人www| 黄色在线观看网| 日韩一区二区三区在线视频| 日韩精品在线免费视频| 亚洲日本va在线观看| 亚洲成人av免费在线观看| 久久爱另类一区二区小说| 成年人看的毛片| 日本一区二区免费高清| 国产精品毛片va一区二区三区| 国产精品99| 97视频在线观看视频免费视频| 懂色一区二区三区| 亚洲第五色综合网| 97免费观看视频| 日韩欧美精品网址| 久久国产免费观看| 中文字幕欧美激情| 182在线视频| 国产精品一区二区不卡| 奇米影音第四色| 亚洲乱码视频| 亚洲天堂av免费在线观看| 西野翔中文久久精品国产| 91亚洲精品丁香在线观看| 日韩视频网站在线观看| 97av在线视频| 欧美黄色视屏| 精品国产一区二区三区久久久| 午夜福利理论片在线观看| 日韩三级.com| 国产一区二区三区在线观看 | 日韩在线观看免费全集电视剧网站| 天堂网2014av| 日韩欧美高清在线| 91影院在线播放| 欧美私人免费视频| 欧美brazzers| 色综合久久久久久久久久久| 久久综合亚洲色hezyo国产| 亚洲欧洲性图库| 免费黄色片网站| 久久久久久久久久看片| 亚洲AV无码国产精品| 成人看片黄a免费看在线| 爱情岛论坛亚洲自拍| 国内精品视频666| 天天干天天操天天做| 免费在线一区观看| 在线观看av网页| 看国产成人h片视频| 天天爽天天爽夜夜爽| 久久精品日韩欧美| 丝袜老师办公室里做好紧好爽| 在线亚洲免费| 精品视频免费在线播放| 亚洲伦伦在线| 欧美性大战久久久久xxx| 夜久久久久久| 浮妇高潮喷白浆视频| 亚洲欧美日韩国产一区二区| 女人和拘做爰正片视频| 免费视频一区| 欧美少妇性生活视频| 久久久噜噜噜| 亚洲天堂av线| 国产一区二区在线视频| 91福利视频免费观看| 成人av电影免费在线播放| www.88av| 久久久久高清精品| 日本免费www| 自拍偷自拍亚洲精品播放| 欧美成人三级在线观看| 亚洲午夜久久久久久久久电影院| 国产真实夫妇交换视频| 岛国精品视频在线播放| 男人天堂视频网| 精品视频资源站| 国产免费黄色片| 精品第一国产综合精品aⅴ| 亚洲色图 校园春色| 亚洲欧美中文在线视频| 中文字幕日本在线| 欧美人在线视频| 九色porny自拍视频在线播放 | 人人玩人人添人人澡欧美| 91精品视频在线播放| 97品白浆高清久久久久久| 久久久7777| 欧美黄色大片在线观看| a天堂资源在线观看| 久久不射网站| 在线观看免费视频污| 99综合电影在线视频| 日韩免费成人av| 夜夜嗨av一区二区三区| 黄色av一级片| 日韩视频在线一区二区| 国产在线视频网站| 欧美黄色片免费观看| 四虎4545www精品视频| 爱情岛论坛亚洲入口| 国产精品一国产精品| 欧美日韩dvd| 久久蜜桃精品| 老女人性生活视频| 久久精品视频免费观看| 成人观看免费视频| 91黄色免费看| 亚洲乱码精品久久久久..| 国产亚洲精品美女| av女在线播放| 91亚洲精品久久久| 免费电影一区二区三区| 神马午夜伦理影院| 日本91福利区| 国产激情视频网站| 亚洲精品乱码久久久久久| 中文字幕 国产精品| 精品国产露脸精彩对白 | 久久久免费在线观看| 成人免费一区| 久久久久久久久久久久久久一区| 一本一道久久a久久精品蜜桃 | 538任你躁在线精品视频网站| 欧美日韩亚洲精品内裤| 午夜免费福利视频| 丝袜一区二区三区| 亚洲午夜天堂| 国产精品三区www17con| 外国成人激情视频| 午夜在线观看av| 久久久久久久av麻豆果冻| 国产无遮挡又黄又爽又色| 538prom精品视频线放| av在线天堂播放| 欧亚精品在线观看| 欧美变态网站| 久久99中文字幕| 福利电影一区二区三区| 欧美黑人精品一区二区不卡| 欧美精品在线观看播放| aaa在线观看| 国产精品白丝jk喷水视频一区 | 亚洲国产成人精品久久久国产成人一区| 免费黄色网址在线观看| 国产精品免费一区二区三区都可以| 在线视频亚洲专区| 国产精品秘入口18禁麻豆免会员| www.成人在线| 日本三级视频在线| 日韩av在线直播| 国产精品蜜芽在线观看| 精品一区二区不卡| 日韩网站在线| 欧美熟妇一区二区| 一本久道中文字幕精品亚洲嫩| 色吊丝在线永久观看最新版本| 国内精品久久久久久久久| 国内精品麻豆美女在线播放视频 | 成人免费视频视频在| 欧美日韩理论| 一级全黄裸体片| 亚洲国产aⅴ成人精品无吗| 男人天堂手机在线观看| 91精品国产91久久久久久不卡| 久久综合五月婷婷| 久久久久久久激情| 亚洲国产精品99久久久久久久久| 在线观看免费视频a| 久久中文字幕在线| 综合成人在线| 91成人在线观看喷潮教学| 久久亚洲综合色一区二区三区 | 99视频免费在线观看| 不卡视频一区| 亚洲综合精品| 欧美性受xxxx黑人| 91精品国产91久久久久久一区二区| 中文字幕在线观看网站| 精品国产日本| 久久婷婷一区| 无码人妻精品一区二区三区夜夜嗨| 欧美mv日韩mv国产网站| 自拍偷拍亚洲视频| 亚洲一区高清| 国产.精品.日韩.另类.中文.在线.播放| 日韩欧美视频在线免费观看| 亚洲一级黄色av| 欧美国产亚洲精品| 欧美日韩亚洲第一| 亚洲免费伊人电影| 色综合成人av| 91免费精品国偷自产在线| 99精品免费| 99热6这里只有精品| 精品国产百合女同互慰| 成人深夜福利| 97超碰人人澡| 国产精品国产自产拍在线| 亚洲第一色网站| 国产精品久久久久久久一区探花 | а中文在线天堂| 欧美黑人又粗大|