部署自己的大語言模型的五種方法
這是歷史上發(fā)展最快的新技術。生成式人工智能正在改變世界,改變我們創(chuàng)建圖像、視頻、音頻、文本和代碼的方式。
根據(jù)戴爾公司 9 月份對 IT 決策者進行的一項調(diào)查,76% 的人表示,生成式人工智能將對他們的組織產(chǎn)生 “重大(如果不是變革性的)”影響,而且大多數(shù)人預計將在未來 12 個月內(nèi)看到有意義的成果。
大語言模型(LLM)是生成式人工智能的一種。它側(cè)重于文本和代碼,而不是圖像或音頻,盡管有些模型已經(jīng)開始整合不同的模式。目前企業(yè)中最流行的 LLM 包括 ChatGPT 和其他 OpenAI GPT 模型、Anthropic 的 Claude、Meta 的 Llama 2 以及 Technology Innovation Institute in Abu Dhabi 的開源模型 Falcon。其中,F(xiàn)alcon 以支持英語以外的語言而著稱。
公司部署語言識別器有幾種方式,如讓員工訪問公共應用程序,使用提示工程和應用程序接口將語言識別器嵌入現(xiàn)有軟件,使用矢量數(shù)據(jù)庫提高準確性和相關性,微調(diào)現(xiàn)有模型,或建立自己的模型。
01 |部署公共 LLM
Dig Security 是一家以色列云數(shù)據(jù)安全公司,其工程師使用 ChatGPT 編寫代碼。"首席執(zhí)行官 Dan Benjamin 說:“每個工程師都會使用一些東西來幫助他們更快地編寫代碼。ChatGPT 是最早也是最簡單的編碼助手之一。但它也存在一個問題--你永遠無法確定你上傳的信息是否會被用于訓練下一代模型。Dig Security 通過兩種方式解決了這種可能性。首先,公司使用安全網(wǎng)關檢查上傳的信息。”
Benjamin 說:“我們的員工知道他們不能上傳任何敏感信息。這些信息都被屏蔽了。”
其次,公司將工程師輸送到運行在私有 Azure 云上的 ChatGPT 版本。這意味著 Dig Security 獲得了自己獨立的 ChatGPT 實例。Benjamin 認為,即使采用了這種 “帶刺”的安全方法,它也不是一個完美的解決方案。“沒有完美的解決方案。任何認為有完美解決方案的組織都是在自欺欺人”。
例如,有人可以使用 VPN 或個人電腦訪問 ChatGPT 的公共版本。這就需要另一個層面的風險緩解措施。
他說:“關鍵在于員工培訓,確保他們了解自己需要做什么,并接受過良好的數(shù)據(jù)安全培訓。”
Dig Security 公司并非孤軍奮戰(zhàn)。
Skyhigh 公司企業(yè)營銷總監(jiān) Tracy Holden 指出,2023 年上半年,有近 100 萬終端用戶通過企業(yè)基礎設施訪問 ChatGPT,1 月至 6 月間用戶量增長了 1500%。
根據(jù) Netskope Threat Labs 七月份的一份報告,在 ChatGPT 上發(fā)布的源代碼比任何其他類型的敏感數(shù)據(jù)都要多,每萬名企業(yè)用戶每月發(fā)生 158 起事件。
最近,企業(yè)開始有了更安全、更適合企業(yè)的選擇,比如微軟的 Copilot,它將易用性與額外的控制和保護結(jié)合在一起。在 11 月初舉行的 OpenAI DevDay 上,首席執(zhí)行官 Sam Altman 表示,目前有 1 億活躍用戶在使用該公司的 ChatGPT 聊天機器人,200 萬開發(fā)者在使用其 API,超過 92% 的財富 500 強企業(yè)正在 OpenAI 平臺上進行開發(fā)。
02 |矢量數(shù)據(jù)庫和 RAG
對于大多數(shù)希望定制 LLM 的公司來說,檢索增強生成(RAG)是必經(jīng)之路。如果有人在談論嵌入或矢量數(shù)據(jù)庫,這通常就是他們的意思。其工作原理是,用戶提出一個關于公司政策或產(chǎn)品的問題。這個問題不會立即被設置到 LLM 中。而是先進行處理。用戶是否有權訪問該信息?如果有訪問權限,那么就會檢索所有可能相關的信息,通常是從矢量數(shù)據(jù)庫中檢索。然后,問題和相關信息會被發(fā)送到本地語言管理器,并嵌入到優(yōu)化的提示中,提示中還可能指定本地語言管理器首選的回答格式和語音語調(diào)。
矢量數(shù)據(jù)庫是將信息組織成一系列列表的一種方式,每個列表按不同的屬性排序。例如,您可能有一個按字母順序排列的列表,按字母順序排列的回答越接近,相關性就越大。
按字母順序排列的列表是一個一維向量數(shù)據(jù)庫,但向量數(shù)據(jù)庫可以有無限多個維度,讓您可以根據(jù)答案與任意因素的接近程度來搜索相關答案。因此,它們非常適合與 LLM 結(jié)合使用。
銷售參與平臺供應商 Salesloft 的首席產(chǎn)品和工程官 Ellie Fields 說:“現(xiàn)在,我們正在把所有東西都轉(zhuǎn)換成矢量數(shù)據(jù)庫。”是的,它們正在發(fā)揮作用。
她認為,這比使用簡單的文檔為 LLM 查詢提供上下文更有效。
該公司主要使用開源矢量存儲 ChromaDB,其主要用途是 LLM。Salesloft 使用的另一個矢量數(shù)據(jù)庫是 Pgvector,這是 PostgreSQL 數(shù)據(jù)庫的矢量相似性搜索擴展。
Fields 表示:“但我們也使用 FAISS 和 Pinecone 做了一些研究。FAISS 即Facebook 人工智能相似性搜索,是 Meta 提供的一個開源庫,支持多媒體文檔的相似性搜索。”
Pinecone 是一個基于云的專有矢量數(shù)據(jù)庫,也很受開發(fā)者的歡迎,其免費層支持多達 10 萬個矢量。一旦從矢量數(shù)據(jù)庫中檢索到相關信息并嵌入提示,查詢就會被發(fā)送到運行在微軟 Azure 私有實例中的 OpenAI。
Fields 指出:“我們已將 Azure 認證為我們平臺上的新子處理器。當我們有新的處理器時,我們總是會讓客戶知道他們的信息。”
不過,Salesloft 也與谷歌和 IBM 合作,并正在開發(fā)使用這些平臺的生成式人工智能功能。
她說:“我們肯定會與不同的供應商和不同的模式合作。事情每周都在發(fā)生變化。如果你不關注不同的模式,你就會錯失良機。” 因此,RAG 允許企業(yè)將其專有數(shù)據(jù)與模型本身分離開來,當更好的模型發(fā)布時,可以更容易地交換模型。此外,矢量數(shù)據(jù)庫可以更新,甚至是實時更新,而無需對模型進行更多的微調(diào)或重新訓練。
Fields 表示:“我們已經(jīng)更換過模型,從OpenAI 到 Azure 上的 OpenAI。我們已經(jīng)在不同的 OpenAI 模型之間進行了切換。我們甚至可能為客戶群的不同部分支持不同的模型。”
她補充說,有時不同的模型有不同的 API。她認為:“這可不是小事。但更換一個模型還是比重新訓練要容易得多。我們還沒有發(fā)現(xiàn)哪種用例更適合微調(diào),而不是矢量數(shù)據(jù)庫。我相信會有這樣的用例,但到目前為止,我們還沒有找到性能更好的用例。”
Salesloft 推出的 LLMs 的首批應用之一是增加一項功能,讓客戶可以向潛在客戶發(fā)送銷售電子郵件。Fields 說:“客戶花了很多時間來撰寫這些電子郵件。”這很難開頭兒,而且有很多寫作障礙。因此,現(xiàn)在客戶可以指定目標角色、價值主張和行動號召--他們會收到三封不同的電子郵件草稿,可以進行個性化設置。Fields 說,Salesloft 使用 OpenAI 的 GPT 3.5 來編寫電子郵件。
03 |本地運行的開源模型
總部位于波士頓的 Ikigai Labs 提供了一個平臺,允許公司建立定制的大型圖形模型,或設計用于處理結(jié)構(gòu)化數(shù)據(jù)的人工智能模型。但為了使界面更易于使用,Ikigai 在前端使用了 LLM。例如,該公司使用了 Falcon 開源 LLM 的 70 億參數(shù)版本,并在自己的環(huán)境中為一些客戶運行。
為了將信息輸入 LLM,Ikigai 使用了一個同樣在本地運行的矢量數(shù)據(jù)庫。聯(lián)合創(chuàng)始人兼聯(lián)合首席執(zhí)行官 Devavrat Shah 說,該數(shù)據(jù)庫建立在邊界森林算法之上。
四年前在 MIT,我和我的一些學生嘗試了大量的矢量數(shù)據(jù)庫,身兼 Ikigai Labs 人工智能教授的 Shah 說。“我知道這很有用,但沒有這么有用”。
他說,保持模型和矢量數(shù)據(jù)庫的本地化意味著數(shù)據(jù)不會泄露給第三方。Shah 說:“對于可以向他人發(fā)送查詢的客戶,我們使用 OpenAI。我們與 LLM 無關。”
Pricewaterhouse Coopers 建立了自己的 ChatPWC 工具,該工具也與 LLM 無關。該公司的合伙人兼 gen AI 上市戰(zhàn)略負責人 Bret Greenstein 說:“ChatPWC 讓我們的員工更有能力。”例如,它包括用于生成職位描述的預置提示。他說:“它有我所有的格式、模板和術語。我們有人力資源、數(shù)據(jù)和提示專家,我們設計的東西能生成非常好的招聘信息。現(xiàn)在,沒有人需要知道如何進行生成職位描述的驚人提示。”
該工具構(gòu)建于微軟 Azure 之上,但公司也為谷歌云平臺和 AWS 構(gòu)建了該工具。Greenstein:“我們必須為我們的客戶服務,他們存在于每一個云上。同樣,它也對后端使用不同模型進行了優(yōu)化,因為客戶希望這樣做。我們的每種模式都能發(fā)揮作用。Llama 2、Falcon--我們什么都有。”
他說:“人們可以做很多事情。比如建立獨立于模型的數(shù)據(jù),以及建立治理結(jié)構(gòu)。這樣,當市場發(fā)生變化,新的模型出現(xiàn)時,數(shù)據(jù)和管理結(jié)構(gòu)仍然是相關的。”
04 |微調(diào)
管理咨詢公司 AArete 采用開源模型 GPT 2,并根據(jù)自己的數(shù)據(jù)進行了微調(diào)。該公司數(shù)字技術服務副總裁 Priya Iragavarapu 說:“它很輕便。我們想要一個開源的,以便能夠在我們的內(nèi)部環(huán)境中使用和發(fā)布。”
如果 AArete 使用托管模型并通過 API 與之連接,信任問題就會出現(xiàn)。她說:“我們擔心來自提示的數(shù)據(jù)最終會流向哪里。我們不想冒這些風險。”
在選擇開源模型時,她會考慮該模型之前的下載次數(shù)、社區(qū)支持以及硬件要求。
她說:“基礎模型還應具有一定的任務相關性。有一些模型是針對特定任務的。例如,我最近研究了一個擁抱臉模型,它可以將 PDF 中的內(nèi)容解析為結(jié)構(gòu)化格式。”
金融界和醫(yī)療保健行業(yè)的許多公司都在根據(jù)自己的附加數(shù)據(jù)集對 LLM 進行微調(diào)。
她說:“基本的 LLM 是在整個互聯(lián)網(wǎng)上訓練出來的。通過微調(diào),公司可以創(chuàng)建一個專門針對其業(yè)務用例的模型。”
一種常見的方法是創(chuàng)建一個問題和答案列表,然后根據(jù)這些問題和答案對模型進行微調(diào)。事實上,OpenAI 在 8 月份就開始允許使用問答方式對其 GPT 3.5 模型進行微調(diào),并在 11 月份的 DevDay 上為 GPT 4 推出了一套新的微調(diào)、定制和 RAG 選項。
這對客戶服務和服務臺應用特別有用,因為公司可能已經(jīng)擁有一個常見問題數(shù)據(jù)庫。
另外,在 DELL 的調(diào)查中,21% 的公司傾向于在自己的環(huán)境中使用自己的數(shù)據(jù)重新訓練現(xiàn)有模型。
Constellation Research Inc. 副總裁兼首席分析師 Andy Thurai 說:“最受歡迎的選擇似乎是 Llama 2。Llama 2 有三種不同的尺寸,對月用戶少于 7 億的公司免費。”他認為,公司可以在自己的數(shù)據(jù)集上對其進行微調(diào),并很快擁有一個新的定制模型。事實上,Hugging Face LLM 排行榜目前由不同微調(diào)和定制的 Llama 2 所占據(jù)。在 Llama 2 之前,F(xiàn)alcon 是最流行的開源 LLM。“現(xiàn)在是一場軍備競賽。他說,微調(diào)可以為特定業(yè)務用例創(chuàng)建更準確的模型。”如果使用通用的 Llama 模型,準確度可能會很低。
與 RAG 嵌入相比,微調(diào)也有一些優(yōu)勢。使用嵌入法時,公司必須為每次查詢進行矢量數(shù)據(jù)庫搜索。Thurai 說:“而且你還得實施數(shù)據(jù)庫。這也不是件容易的事。”
微調(diào)也沒有上下文窗口限制。通過嵌入,可以添加到提示中的信息有限。如果一家公司進行微調(diào),他們也不會經(jīng)常這樣做,只是在發(fā)布基礎人工智能模型的重大改進版本時才會這樣做。
最后,如果公司擁有快速變化的數(shù)據(jù)集,微調(diào)可以與嵌入結(jié)合使用。他說:“你可以先進行微調(diào),然后對增量更新進行 RAG。”
Forrester Research 公司的分析師 Rowan Curran 預計,在未來一年左右的時間里,將會出現(xiàn)大量經(jīng)過微調(diào)的特定領域模型。他說,但只有少數(shù)公司(10% 或更少)會這樣做。
Pricewaterhouse Coopers 的 Greenstein 說,構(gòu)建 SaaS 應用程序等應用軟件的軟件公司可能會使用微調(diào)技術。他說:“如果你有一個高度可重復的模式,微調(diào)可以降低你的成本。但對于企業(yè)部署來說,RAG 在 90% 到 95% 的情況下更有效率。”
加拿大企業(yè)搜索和推薦公司 Coveo 的 ML 副總裁 Sebastien Paquet 補充說:“我們實際上正在研究針對特定垂直行業(yè)的微調(diào)模式。我們有一些具有專門詞匯的專業(yè)垂直領域,比如醫(yī)療垂直領域。銷售卡車零部件的企業(yè)有自己的零部件命名方式。”
不過,該公司目前使用的是運行在私有 Azure 云上的 OpenAI 的 GPT 3.5 和 GPT 4,LLM API 調(diào)用是隔離的,因此 Coveo 可以在需要時切換到不同的模型。該公司還在特定用例中使用了一些來自 Hugging Face 的開源 LLM。
05 |從零開始構(gòu)建 LLM
很少有公司會從頭開始構(gòu)建自己的 LLM。畢竟,顧名思義,這些公司都相當龐大。OpenAI 的 GPT 3 擁有 1,750 億個參數(shù),在 45 TB 的數(shù)據(jù)集上進行了訓練,訓練成本高達 460 萬美元。據(jù) OpenAI 首席執(zhí)行官 Sam Altman 稱,GPT 4 的成本超過 1 億美元。
正是這種規(guī)模賦予了 LLM 魔力和處理人類語言的能力,使其具備一定程度的常識和聽從指令的能力。
Insight 公司的杰出工程師 Carm Taglienti 說:“你不能只用自己的數(shù)據(jù)來訓練它。在數(shù)以千萬計的參數(shù)上進行訓練才有價值。”
如今,幾乎所有的 LLM 都來自大型超級計算機或 OpenAI 和 Anthropic 等專注于人工智能的初創(chuàng)公司。
即使是那些在構(gòu)建自己的模型方面擁有豐富經(jīng)驗的公司,也在遠離創(chuàng)建自己的 LLM。
例如,Salesloft 多年來一直在構(gòu)建自己的人工智能和機器學習模型,包括使用早期技術的生成式人工智能模型,但對于從頭開始構(gòu)建全新的尖端基礎模型卻猶豫不決。
Fields 說:“這是一個龐大的計算步驟,至少在現(xiàn)階段,我不認為我們會去做。”
來源:www.cio.com































