6.5億美元！AI智能體最大收購案產品之父Jake Keller采訪：垂域Agent是成為10億獨角獸的新機會原創

51CTO技術棧

發布于 2024-10-12 13:13

瀏覽

0收藏

編譯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

YC最新的一期訪談，請來了創業大佬Jake Keller ，圍繞他的創業之路來聊垂直領域 AI Agents 的掘金機會。

為什么是 Jake Keller，他的經歷有多牛呢？我們簡單看三點，就知道他的采訪含金量：

Jake 創建法律公司 Case Text 十余年之久，從 AI 1.0時代就在不斷嘗試新技術，與OpenAI等多家工作室保持合作。
在 ChatGPT 上線之前，Jake 的公司就拿到了秘密開發中的GPT-4的訪問機會，并在 48 小時內決定All in GPT-4。
發布基于GPT-4 的產品 CoCounsel （編者注：AI 法律助手）僅半年，就以6.5億美元被 Thomson Reuters 收購，這也是迄今為止規模最大的垂直AI Agents收購案。

6.5億美元！AI智能體最大收購案產品之父Jake Keller采訪：垂域Agent是成為10億獨角獸的新機會-AI.x社區圖片

Jake Keller 做客 YC 《LightCone》的這期節目，《為什么說垂直領域的LLM Agent是新的10億美元SaaS機會》，帶來許多扎實的思考和技術與商業的新線索。

6.5億美元！AI智能體最大收購案產品之父Jake Keller采訪：垂域Agent是成為10億獨角獸的新機會-AI.x社區從左到右依次是：主持人Diana、嘉賓Jake Keller、主持人Gary、主持人Jared

播客視頻上線后，獲得了大量好評，還有從業者說 Jake Keller 的采訪切實地解答了他的困惑。

6.5億美元！AI智能體最大收購案產品之父Jake Keller采訪：垂域Agent是成為10億獨角獸的新機會-AI.x社區圖片

話不多說，先給大家畫個重點：

第一次體驗 GPT-4 的 48 小時內，Jake 決定公司的 120 人都投入到開發基于 GPT-4 的產品 CoCounsel 中。
與 GPT-4 技術的結合，使得產品在一分半時間，完成了律師一天才能完成的任務。
在引入 GPT 技術前，公司已經實現了2000萬美元年收入，為了說服員工投入新產品開發，Jake以身作則，構建了新產品的第一個版本。
公司所有人在發布產品的前幾個月里幾乎沒有睡覺，所有人都認為這是一次引領市場的絕佳機會。
Jake 反對“套殼GPT”的說法，在一個垂直領域中，在大模型工作之前，“已經為你的應用程序構建了幾十個不同的東西”，在進入提示環節時，如何“分解大問題成逐步思考的策略”“寫出非常具體的提示”都是難以復制的知識資產。
Jake認為o1模型將改變很多使用GPT API公司的工作方式，現在“不僅教會AI如何回答問題，更要教會它如何思考。”

以下是經過整理的播客全文，enjoy：

主持人Gary ：今天我們有一位非常特別的嘉賓，Case Text的Jake Keller。我覺得Jake有點像是登上月球的第一批人之一。他創立了Case Text，大約是在11、12年前吧。

在最初的十年里，你的公司從0走到了1億美元的估值。而在GPT-4發布后的兩個月內，估值直接跳到了 Thompson Reuters 以6.5億美元收購的階段。所以你對如何從大語言模型中創造真正的價值有很多經驗。

我覺得你是我們在YC的朋友中，最早意識到這是一次巨變、一次革命的人之一。不僅如此，你還敢把公司都押在上面，結果你賭對了。所以歡迎你，Jake。

Jake Keller ：很高興來到這里。

主持人Jared：我覺得Jake的故事非常酷，我們今天想請他來的原因是，現在優秀的創始人正在創建的公司中，很多都在做垂直領域的AI Agents。

我試圖數了一下在 S24（編者注：S24 指 YC 在 2024 年夏季推出的一組初創公司）中的公司，YC最近一批次里有幾十家公司都在構建垂直領域的AI Agents。而我認為 Jake 是目前最成功的垂直AI Agents的創始人——這是迄今為止規模最大的收購案，而且它已經在很多關鍵任務中大規模應用了。

我們幾個月前舉辦了一次活動，Jake 在那次活動中給我們做了一個非常精彩的演講，講述了他是如何建立這個產品的。我們覺得，對于那些對這個領域感興趣的《LightCone》的觀眾來說，直接從這位領域內最成功的構建者之一那里聽到他的經驗是非常有幫助的。

1.48小時的大膽決定：公司所有人都轉向GPT-4技術項目

主持人Gary ：那么，你是怎么做到的呢？

Jake Keller ：首先，像很多這樣的事情一樣，經過十年長的旅程，有一定的運氣成分在里面。

我們開始深入投資于AI和自然語言處理，并且與一些不同的研究實驗室建立了緊密聯系，其中包括OpenAI的一些人。當他們開始測試早期版本時，我們當時不知道那（個產品）是GPT-4，但那確實是GPT-4。我們很早就看到了它。

于是，在GPT-4公開發布前的幾個月，我們公司內部都簽了保密協議，所有人都在研究這個東西。我永遠不會忘記第一次看到它的那一刻。我們用了大概48小時就決定，把公司里每個人的工作都從當時正在做的項目轉移到我們基于GPT-4技術的新產品 CoCounsel 的構建上。

主持人Jared ：當時有多少人？

Jake Keller ：當時大約有120人。

主持人Jared ：你把120個人的工作全部改變了？

Jake Keller ：是的，完全改變了，是在48小時內完成的。

主持人Gary ：對于正在觀看的觀眾來說，Case Text最初一直都在法律領域，你是個律師，你為自己構建了這個東西。最早的版本實際上是帶有注釋的判例法（編者注：是指由法院在具體案件中作出的裁決和判決所形成的法律規則和原則，能夠為未來類似案件提供指導和參考），對吧？

Jake Keller ：是的，完全正確。在公司非常早期的階段，公司一直專注的使命是如何將最先進的技術帶入法律領域。

作為一個律師，我其實很喜歡這份工作，但我最討厭的是不得不使用律師們經常需要用來完成工作的那些技術。我記得當時是2012年，我還在一家律師事務所，如果我想做一些非常瑣碎的事情，比如我有一部新iPhone，我可以上Google搜索電影時間或者最近的提供素食選項的泰國餐館，這非常容易。但如果我想找到一份能證明我當事人清白的證據，讓他不用在監獄里待一輩子，或者找到一份能幫我贏得數十億訴訟的關鍵法律案件，那這就得花五天連續工作到凌晨5點。我當時想：這肯定有更好的辦法。

主持人Diana ：作為律師的工作流程是什么樣的？你們需要閱讀一疊又一疊的文件嗎？

Jake Keller ：差不多吧。在我開始執業之前，所有東西都還沒虛擬化或者上線，你會真的在地下室里對著一箱又一箱的文件，逐一閱讀，試圖找到（想要的資料），比如在一家像輝瑞或Google這樣的公司里所有關于潛在欺詐的電子郵件。

如果你想找判例法（這比我的時間早一些），你還得親自去圖書館，打開書本，開始逐頁閱讀。雖然當時開始有一些基于網絡的研究工具出現，但它們都非常笨重，找到相關信息還是很難。

主持人Diana ：你基本上無法對這些東西使用Control F（編者注：查找）功能，對吧？”

Jake Keller ：“是的，沒錯。我永遠記得，當時在律所工作時，我還在為使用的工具構建瀏覽器插件，來讓我的工作更高效和有效。其實我之所以離開律所，申請YC創辦公司，部分原因是我因為花太多時間做這些技術開發而被總法律顧問訓斥。他們還明確表示，我所在的律所擁有所有相關技術的產權。所以我決定另謀出路。”

2.之前的工作都是漸進式的，直到ChatGPT出現了

主持人Jared ：“那么你想講講Case Text前10年的故事嗎？那段像是長期的艱難跋涉，以及LLM（大語言模型）時代之前的經歷？”

Jake Keller ：“從那段時間我得到的一個教訓是，創業時，你可能一開始并沒有完全找對方向。你可能有一個大概正確的方向，你知道有個問題需要解決，但可能需要很長時間才能找到解決方案。比如在我們公司，我們看到了法律領域存在技術不佳的問題，還有很多律師依賴內容進行研究并理解法律。所以我們覺得，‘我們能做得更好’，但問題是，我們如何獲得這些內容呢？于是我們花了好幾年的時間嘗試讓律師像Gary所說的那樣去注釋判例法，提供信息。”

主持人Gary ：“就像一個UGC網站，用戶生成內容類型的？”

Jake Keller ：“是的，那是我們當時的重點之一，結合更好的技術和更好的內容。”

當時，我們的偶像是像Stack Overflow、維基百科和GitHub這樣的開放源碼或UGC網站。但這完全失敗了。我們根本無法讓律師花時間貢獻信息。我覺得這就是不同的群體，典型的維基百科編輯可能有很多時間可以自由支配，因此他們為免費貢獻內容感到自豪（當然不是全部人），而律師是按小時收費的，他們的時間非常寶貴，永遠覺得時間不夠用，根本沒有時間來為UGC網站貢獻內容。所以我們不得不轉型。

于是我們開始深入投資，當時這還不叫AI，只是自然語言處理和機器學習。我們發現，我們并不需要依靠UGC來復制我們競爭對手在大型內容數據庫中的某些優勢。當時就能自動化實現部分功能。此外，我們還開始創造出比競爭對手能夠提供的更好的用戶體驗，那時我們使用的AI技術在今天看來可能顯得很基礎，像是用于Pandora和Spotify推薦音樂的推薦算法，系統分析這首歌與那首歌的關聯，人們聽了這首歌后還聽了那首等。

類似地，我們分析了案件間的相互引用，它們引用了較早的判決意見，形成了一個引用網絡。我們找到了檢查律師工作的方法，比如他們會上傳自己的工作進展，然后我們可以告訴他們，‘所有談論這個案子的人也都提到了這個案子，你遺漏了這個。’像這樣的體驗非常酷。

“實際上，直到最后，直到 CoCounsel 之前，我們做的大多數事情都是對法律工作流程的漸進式改進。有趣的是，當只有漸進式改進時，實際上很容易被忽視。我們很多客戶可能不會直說，但給人的感覺就是，你走進他們辦公室，向他們推銷產品，告訴他們‘這將徹底改變你的工作方式’，他們會想，‘我每年賺500萬美元，我不想改變任何東西。這個技術……不，我不想引入任何有可能讓我的生活變得更糟或潛在風險的東西，或者更高效的東西’，因為他們是按小時收費的。”

真正的轉折點是在ChatGPT發布后。當時我們還在私下（參與）秘密開發GPT-4，后來ChatGPT發布了。突然之間，美國乃至世界上的每位律師都意識到，‘天哪，我不知道這會如何改變我的工作，但它肯定會帶來重大改變’，他們能感覺到。

而那些之前說‘我每年賺500萬美元，我不需要改變任何東西’的人，現在都變成了‘我每年賺500萬美元，但這會改變一些東西，我需要搶先了解這項技術。’這種技術本身（稍后我們會深入探討）改變了我們為律師構建產品的方式，也改變了市場對什么是必要技術的認知。

在我們十年的發展中，這是第一次，即使我們還沒有公開發布基于GPT-4的CoCounsel，他們就已經開始打電話給我們了，像是在說：“我們知道你們在做AI，我們需要趕上這個潮流。你能給我們展示什么？我們可以一起做些什么？” 我覺得這是因為這次的改變不再是漸進的了，而是基本的變化，突然之間他們不得不重視，再也無法忽視了。

3.找到法律領域PMF，成為“登月第一人”

主持人Gary ：我對你有的這種心態模型是這樣的：有一個叫“想法迷宮”的概念，創始人一開始進入迷宮，就像是在試探，實際上是在場上，和客戶交談，學習，了解哪里是墻壁？應該往哪條路走？是該往左還是右？通常初創公司的創始人在這個想法迷宮中會遇到死胡同，然后不得不轉向。

我覺得你的故事非常有趣，因為你當時已經接近某種無法達到產品市場契合點的路徑末端，但當LLDs（大語言模型）出現時，就像迷宮被重新搖動了一下。而你實際上比任何其他人都更接近產品市場契合點。這就是為什么這段時間如此瘋狂。對，這正是為什么你成為了“登月第一人”。

Jake Keller ：是的，是的，我覺得這確實有道理。問題是，每次我們在迷宮中前進時，都覺得自己可能已經達到了產品市場契合點。你知道，在發布CoCounsel之前，我們已經有了實際的收入，也有了真正的客戶，他們對我們贊不絕口。

我一直在想馬克·安德森在2000年代初寫的一篇文章，叫《唯一重要的事情》。在文章里，他描述了有產品市場契合點時的感覺，他列出了幾件事，比如：你的服務器會崩潰，你無法足夠快地雇傭支持人員和銷售人員，你會在Woodside著名的餐廳Bucks免費吃飯一年，那是很多風險投資家會帶你去的地方。

我早年讀到這篇文章時，覺得這有些夸張，但是當我們發布CoCounsel時，確實是完全一樣的情況。我們的服務器崩潰了，我們無法足夠快地雇傭支持人員，也無法足夠快地雇傭銷售人員，我在Bucks吃了很多頓飯。以前，如果我們能登上《美國律師協會期刊》或其他法律特定的出版物，那就是一個很重要的日子了。而現在，我們上了CNN和MSNBC，突然之間，一切都變了。而這就是我認為的真正的產品市場契合點。馬克·安德森在2005年左右的那篇文章，確實準確描述了2023年產品市場契合點的樣子。

主持人Jared ：你能談談那段瘋狂的時期嗎？從你們發布CoCounsel到以6.5億美元被收購，僅僅過了兩個月。那兩個月內究竟發生了什么？

Jake Keller ：要說明的是，交易在我們發布后六個月才最終完成，但兩個月后，談判就開始了。

為了提供一些背景信息，我們開始構建CoCounsel的想法是在看到GPT-4后的一個周末，大概48小時內，我們萌生了一個點子——一個AI法律助理的概念，聽起來現在可能不那么瘋狂，但在當時卻很瘋狂。這個法律助理幾乎像是事務所的一個新成員，你可以與它對話，就像你今天和ChatGPT對話一樣，給它任務，比如“我要你幫我讀這些一百萬份文件，看看有沒有證據表明這家公司存在欺詐行為。”

幾小時后，它會說：“我讀完了這些文件，這是總結。”或者“幫我總結文件，進行法律研究，并整理一份報告，回答律師的初步研究問題。”因此，這就像是事務所的一個強大擴展工具。這是我們從一開始的設想，我們制作了一個非常早期的初始版本。

由于與OpenAI的協議，我們不能公開這個產品，但他們允許我們把NDA（保密協議）擴展到少數幾個客戶身上。因此，在GPT-4公開發布的幾個月前，我們讓一些客戶使用它。那些客戶不知道自己在使用GPT-4，但他們實際上看到了某種特別的東西。

這甚至是在ChatGPT之前。這是我們第一次體驗到這種“如神一般”的AI，它突然完成了我當律師時需要花整整一天才能完成的任務，而它只用了大約一分鐘半。你可以想象，當時真的很瘋狂。

首先，我們公司所有120個人在GPT-4公開發布前的幾個月里幾乎沒有睡覺，直到我們可以公開發布產品。我們覺得自己有一個絕佳的機會可以領先市場。每個人都非常努力地工作時會發生一些非常美妙的事情——你可以非常快速地進行迭代。我現在還看到有些公司卡在我們剛看到GPT-4的第一個月時的狀態。我覺得這可能是因為他們沒有像我們那樣全情投入和專注于那段大約六個月的時間，直到GPT-4的公開發布。

4.ALL in AI，進入深度創始人模式

主持人Diana ：你為了完成這次轉型，必須重振公司。你進入了深度創始人模式，因為有很多員工的反對聲，覺得“這個東西已經在運作了，為什么我們要投身到AI的深淵里去？”能談談你作為創始人的這個時刻嗎？

Jake Keller ：首先，這尤其是在你經營一家企業10年之后變得尤其明顯，因為他們已經看著你在這個迷宮中徘徊，碰到死胡同。而且很多人從頭到尾都在看著我，作為創始人說：“我們肯定要朝這個方向走，這一定會成功。”有時候并不成功，而員工能忍受這樣的次數是有限的。所以這可能是我和一些員工之間的最后一次信任機會。

他們會想：“Jake又來了，又是這個瘋狂的新技術，又是某個我們要深度投資的想法。”是的，確實需要花費一些努力去說服人們。如果你能想象不同角色的處境，比如你負責市場拓展，負責銷售或營銷產品，而我們每年增長70%-80%，我們有1500萬到2000萬美元的年收入，情況并不糟糕，對吧？非常棒。是的，確實很棒。所以他們會想：“我們為什么要這樣做？”甚至董事會中的一些成員也是，一些人立即理解了，但有些人需要被說服。

至于那次創始人時刻，對我來說真的有效的是我以身作則。我自己構建了第一個版本。

主持人Gary ：即使在擁有120人的公司里，擁有大量工程師和律師的情況下，在那之前你還是自己打開了IDE，親自編寫了這個東西。

Jake Keller ：是的，部分原因是，最初只有我和我的合作者簽署了保密協議。

主持人Gary ：這反而是個好事情，對吧？

Jake Keller ：結果證明這是完美的，即使在保密協議擴展后，我們一開始還是保持了小范圍的團隊。

在最初的一段時間內，我在48小時內決定讓整個公司參與進來，但實際上我們是在獲得訪問權限后一周半才通知公司的。在那一周半時間里，我們構建了第一個版本，這個原型版本。

我永遠不會忘記這個時刻，時機非常有趣。我們在一個周五看到了GPT-4，整個周末我們都在使用它。然后周一是一次公司高管的外部會議，所有高管都來了。他們以為我們會討論如何達成下季度的銷售目標，但我告訴他們：“各位，我們要討論的完全不是這些東西。讓我給你們看一些東西。”

所以，是的，我自己構建了第一個版本，但通過這個過程，我和少數幾個人確實幫助說服了其他人。我們還早期引入了客戶，當一個懷疑的銷售人員或市場營銷人員，甚至工程師，看到客戶實時對產品做出反應，看到他們臉上的表情時，那真的迅速改變了人們的想法。你要想象一下，那時的世界還沒有ChatGPT，一些人第一次看到這個點子時完全被震撼了。這確實迅速改變了很多人的想法。我親眼看到人們在Zoom通話中經歷了生存危機般的反應。

主持人Diana ：哦，你能看到他們的表情，對吧？

Jake Keller ：各種反應都有，比如“我該怎么辦？” 我們展示給一些資深律師看的時候，他們常常會說：“那我該退休了吧，我沒法處理這個。”

主持人Gary ：這一切很多都是由GPT-4的發布推動的吧？你們之前有GPT-3的訪問權限，甚至還有GPT-2，對吧？

Jake Keller ：是的，我們與很多實驗室保持著緊密的合作，包括OpenAI，他們不斷向我們展示早期版本的成果。

他們會問：“你能用這個為法律行業構建一些東西嗎？” 每次我們都會回答：“不行，這太差勁了。” 到了GPT-3和3.5的時候，終于出現了合理的英文語言生成，看起來有點像律師的風格了，雖然那已經很值得稱贊了，但它還是會胡編亂造，和實際需求相去甚遠。尤其是在法律領域，準確性非常重要，不能有任何錯漏，不能胡亂假設。所以我們為早期版本花了很多精力，才讓它們接近可用狀態。

我記得其中一個里程碑是在GPT-3.5發布時，有一項研究表明GPT-3.5的律師資格考試通過率僅達到第10百分位。雖然它表現比一些人好，但也只是10%的人，可能就是那些隨便填寫答案的考生。

然后我們獲得了GPT-4的早期訪問權限，我們立刻想再測試一次，并與OpenAI合作，確認測試集不是訓練數據中的內容，而是完全新的測試。結果顯示，GPT-4表現超過了90%的考生。這是一個巨大的飛躍。接著我們還進行了一些測試，比如讓它閱讀4到5個案例，根據這些案例撰寫一份備忘錄，回答這個問題。我們做了大量的提示工程工作，確保它能夠準確回答，引用正確的案例內容，而不是胡編亂造。

5.回應套殼GPT的質疑：構建業務邏輯讓產品難以復制

主持人Diana ：很多反對者會說，很多公司只是在構建GPT的外殼，沒有在構建太多的知識產權。但實際上，解釋這些問題需要很多技巧。能不能和我們談談，實際上還有多少東西需要構建？

Jake Keller ：哦，是的，我的意思是，當你真正試圖為客戶解決問題時，并真正完成任務——在我們的案例中，就是做一個年輕助理律師會做的事情，并且做到非常好——你需要添加很多層次的東西才能真正完成工作。等你把這一切加起來，你就不僅僅是個GPT套殼了。

你已經是一個完整的應用程序了，這個應用程序可能包括在我們的案例中，像法律本身這樣的專有數據集，以及我們自動添加的注釋。

這可能包括連接到客戶數據庫，在我們的案例中，法律行業有非常具體的法律專用文件管理系統，連接這些非常重要。也可能包括一些微妙的事情，比如你如何進行光學字符識別（OCR），你使用了什么OCR程序，以及在執行任務時如何設置它們。

比如，CoCounsel 做的任務之一是審查大量文件。當你開始處理大量文件時，你會看到這些文件上滿是手寫批注，有時掃描件是傾斜的，還有法律行業中的一個奇怪現象，他們會在一頁紙上打印四頁內容以節省空間，所有OCR程序會直接從左到右讀取，但實際上它應該是按順序讀取的。

所以，當你處理了所有這些邊緣情況后，坦白說，即使你還沒有觸碰到大型語言模型，光是到大型語言模型之前，可能已經為你的應用程序構建了幾十個不同的東西，以確保它能正常工作。

而當你進入提示環節時，寫出測試、非常具體的提示，以及分解大問題成逐步思考的策略，如何以正確的方式輸入和格式化信息，所有這些也成為了你的知識產權，而且很難復制，也很難構建，因此很難被復制。

主持人Diana ：這些都是業務邏輯，這就是為什么許多非常成功的SaaS公司在非常特定的領域需要非常自定義的，冷門的、利基的集成，連接到這些冷門的法律數據庫。

Jake Keller ：是的，絕對沒錯。我一直在思考的兩件事是，基本上 SaaS 在很長一段時間里都只是SQL的一個外殼，對吧？如果你想想像 Salesforce 這樣非常成功的公司，他們圍繞基本上只是數據庫和數據庫中表格之間的連接構建了業務邏輯，有時填補了技術人員能夠做但大多數人做不了的差距，或者讓它變得更容易接觸。或者填補了這樣一個差距：你可以在ChatGPT中展示很多很酷的演示而不寫一行代碼，但幾乎能運行且工作70%的時間和能100%正常運行是完全不同的任務。

人們可能會為那些工作70%的東西每月付20美元，但如果能100%正常工作，可能每月會愿意支付500到1000美元，具體取決于使用場景。所以這個最后一公里或一百公里的價值是非常大的。

6.不斷測試和修正消除模型“幻覺”，目標正確率是100%

主持人Jared ：是的。你能談談你是如何從70%提升到100%的嗎？因為我們聽到的關于這項技術的另一個批評是，這些大型語言模型“幻覺”太多，不夠準確，不能用于真實世界。但正如你之前提到的，你正在處理的用例是一個任務關鍵的場景，涉及的風險很高。如果AI Agents給律師提供錯誤信息，可能會對重要的法庭案件產生嚴重影響。你是如何讓它足夠準確，以至于律師們——他們天生保守——能信任它的呢？

Jake Keller ：首先，這種測試驅動開發框架能起到很大的作用，因為你可以開始看到模式，了解它為什么會出錯，然后你可以針對該模式添加指令。有時它仍然不能做對，然后你就會真正問自己，我的指令是否非常清晰？我是否包括了不該看到的信息？或者信息太多或太少，無法讓它真正理解全部背景？通常這些模型是相當智能的，所以你通常可以追根溯源，找出你為什么沒有通過某些測試，然后逐步修正，直到通過這些測試并做對。我們學到的一件事是，如果它通過了100個測試，接下來它對任何隨機用戶輸入的準確率可能就會非常高，幾乎達到100%。

主持人Gary ：讓我覺得棘手的是，許多我們合作的創業者都很想走“無評估、無測試驅動”的路線，只靠感覺進行提示工程。也許你很快就轉換到這種方法了，你們從一開始就很清楚，我們不能像那樣做提示工程？

Jake Keller ：是的，我認為最重要的事情首先取決于使用場景。對于我們處理的許多事情來說，無論是好是壞，都有一個正確答案。如果你給出了錯誤答案，律師們不會高興的。我曾經是律師，也為律師服務了十年，每次我們做錯了一件小事，我們都會立刻聽到反饋。所以我在這個過程中也許一直有那個聲音在我腦海里。

我從那10年的艱苦經歷中學到的是，它必須達到100%。

主持人Gary ：哦，是的，哦，是的，這可能適用于比我們意識到的更多領域。

Jake Keller ：確實如此。另一件我們常常思考的事情是，你可能很快就會對這些東西失去信心。特別是如果你的第一次體驗很糟糕，尤其是在你第一次接觸時，你可能會想“也許我一年后再看看這個AI技術吧。” 尤其是當你是個忙碌的律師，而不是技術人員。所以我們知道，必須確保律師的第一次接觸和第一周的體驗是非常順利的，否則他們就不會深入投資。

7.談OpenAI o1模型：“讓AI模仿頂尖律師是如何思考問題的”

主持人Diana ：那么讓我們談談OpenAI的o1模型吧，因為這是一個非常不同的模型。

到目前為止，像GPT-4和之前的幾代模型，它們的智能可以類比為丹尼爾·卡尼曼提出的“系統一”思維，這是一種非常快速的、基于模式的直覺決策。這種經濟理論甚至贏得了諾貝爾獎。

LLMs在這種思維方面表現出色，但它們在執行功能上非常差勁。而你所描述的所有這些東西，實際上是在賦予LLM執行功能，讓它能夠“思考”，并真正管理那些更慢的思維過程。而我認為o1模型令人興奮的地方在于，我們還沒有看到它被構建出來，因為它幾天前剛剛發布。我認為它接近于“系統二”的思維。這是AGI（通用人工智能）的關鍵缺失部分，我看到很多研究人員對此感到興奮。讓我們談談你對o1的看法，以及它會如何改變局面。

Jake Keller : 首先，我認為o1是一個非常令人印象深刻的模型。就像其他模型一樣，我們給它的測試內容是我們知道它之前無法通過的，而它展示了令人驚嘆的細致程度、精確性和智能。這不僅僅是數學上的精確，有時是那些你不會預期需要一個超級智能模型來完成的任務。

例如，在我們進行的一個測試中，我們給它了一位律師的真實法律簡報，但我們對其中的一些引用稍作修改，使它變得錯誤，比如改變了一些案例中的引用。這是一份40頁的法律簡報，修改可能只是加了一個詞，如“不是”，這就完全改變了其含義。然后我們也將案件的完整文本提供給AI，并詢問它“律師對這個案件有任何錯誤理解嗎？” 以前的每一個LLM都會說“沒有，一切都對”，因為它們在處理這種細微的差異時并不夠精確。但o1模型立刻察覺到了這些差異。它會停下來思考一會兒，然后開始回答，比如它會指出“某個地方的‘和’被改為了‘既不…也不’”，這是我們以前期望的LLM能做到但始終無法通過的測試。而現在o1能夠勝任這些需要精確、細致思考的任務。

主持人Gary : 顯然我們對o1的內部運作機制并不了解，但我們知道它大概使用了類似“鏈式思維”的方法。如果OpenAI有一個龐大的語料庫，記錄了人們在逐步完成任務時的內部思考過程，o1可能會變得更加出色。這與你們之前的策略有些相似，你們是把問題分解成多個步驟以達到100%的準確率，而不是簡單地把所有內容都投入到上下文窗口里，然后希望它能“神奇地”工作。你認為這是目前正在發生的事情嗎？

Jake Keller :或許是的。他們可能改變了他們的承包商的工作方式，不再是簡單的“輸入問題，輸出答案”，而是“輸入問題，思考如何解決這個問題，再輸出答案”。但有趣的是，這樣做的限制就在于撰寫這些指令的人的智力水平。

而我們正在研究的是，是否可以通過提示o1模型在思考過程中該注意哪些問題來引導它思考。我們聘請了一些頂尖的律師，讓AI模仿這些頂尖律師是如何思考問題的。我們還沒有最終的證據證明這顯著提高了結果，但這確實是一個非常有趣的機會，即不僅教會AI如何回答問題，還教會它如何思考。

主持人Gary : 我真的非常感激，因為我覺得你在分享一些線索。在許多其他領域，這項技術才剛剛開始。你去幾乎任何一家公司，人們都沒有意識到剛剛發生了什么。他們仍然重復那些陳舊的說法，比如“你最好做微調”或者類似的說法。這些事情實際上根本沒有與我們每天看到的創業公司和創始人為用戶創造的事物聯系起來。我很高興我們能夠分享這些信息和知識。即使是我們談到的一些事情，比如“你應該做評估”。實際上，從70%到100%之間有很多隱藏的關鍵點，這些線索可能會催生數十億甚至上千億美元的公司。

Jake Keller : 確實如此。我們希望如此。我認為你將會看到其他領域（比如法律）真正升級，當你不需要花費幾百萬美元和六個月的時間，真的待在地下室逐個閱讀文件時，你可以直接跳過這些步驟，直接獲取結果。現在，你可以從戰略上、智能地思考問題了。對于這些公司來說，這將是一個巨大的突破。因為目前他們支付的薪水數百萬美元只是為了完成這些工作。如果有公司能夠推出一款AI，哪怕只完成其中80%的工作，其價值已經非常明顯了。我想鼓勵大家不要因為那些陳舊的說法而放棄，比如“它幻覺太多”“它不夠準確”等等。事實上，有一條路徑，你可以做到的。

主持人Gary : 有一些好消息，那就是工作不會消失，它們只會變得更有趣——這是我的看法。好了，時間到了，非常感謝你和我們一起討論。

本文轉載自51CTO技術棧，作者：伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

智能體

獨角獸

已于2024-10-12 13:39:35修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

6.5億美元！AI智能體最大收購案產品之父Jake Keller采訪：垂域Agent是成為10億獨角獸的新機會原創

1.48小時的大膽決定：公司所有人都轉向GPT-4技術項目

2.之前的工作都是漸進式的，直到ChatGPT出現了

3.找到法律領域PMF，成為“登月第一人”

4.ALL in AI，進入深度創始人模式

5.回應套殼GPT的質疑：構建業務邏輯讓產品難以復制

6.不斷測試和修正消除模型“幻覺”，目標正確率是100%

7.談OpenAI o1模型：“讓AI模仿頂尖律師是如何思考問題的”

目錄

51CTO

51CTO博客

51CTO學堂

6.5億美元！AI智能體最大收購案產品之父Jake Keller采訪：垂域Agent是成為10億獨角獸的新機會 原創

1.48小時的大膽決定：公司所有人都轉向GPT-4技術項目

2.之前的工作都是漸進式的，直到ChatGPT出現了

3.找到法律領域PMF，成為“登月第一人”

4.ALL in AI，進入深度創始人模式

5.回應套殼GPT的質疑：構建業務邏輯讓產品難以復制

6.不斷測試和修正消除模型“幻覺”，目標正確率是100%

7.談OpenAI o1模型：“讓AI模仿頂尖律師是如何思考問題的”

目錄

6.5億美元！AI智能體最大收購案產品之父Jake Keller采訪：垂域Agent是成為10億獨角獸的新機會原創