精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<small id="qac6u"></small><del id="qac6u"></del>

<fieldset id="qac6u"></fieldset>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型原創

發布于 2024-10-14 19:12

瀏覽

0收藏

?摘要：我們介紹了ChatGLM，這是我們持續開發的大規模語言模型家族。本報告主要聚焦于GLM-4系列語言模型，包括GLM-4、GLM-4-Air 和 GLM-4-9B。它們是我們最強大的模型，集成了前三代ChatGLM的所有經驗和教訓。迄今為止，GLM-4模型在中文和英文的十萬億個標注符號上進行了預訓練，并輔以來自24種語言的小型語料庫，主要為中英文使用進行了對齊。高質量的對齊通過多階段后訓練過程實現，包括監督微調和從人類反饋中學習。評估表明，GLM-4在通用指標上與GPT-4相媲美甚至超越，如MMLU、GSM8K、MATH、BBH、GPQA和HumanEval；在指令跟隨方面接近GPT-4-Turbo；在長上下文任務上匹敵GPT-4 Turbo (128K)和Claude 3；在中文對齊上優于GPT-4，并在AlignBench中表現優異。GLM-4 All Tools模型進一步對齊了用戶意圖，能夠自主決定何時使用及選擇何種工具（包括網頁瀏覽器、Python解釋器、文本到圖像模型和用戶定義的函數）來完成復雜任務。在實際應用中，它在訪問在線信息和使用Python解釋器解決數學問題等任務上表現優異，甚至超過GPT-4 All Tools。我們還開源了一系列模型，包括ChatGLM-6B、GLM-4-9B、WebGLM和CodeGeeX，2023年在Huggingface上累計下載量超過1000萬次。

1 引言

ChatGPT的表現引人注目，其功能最初由GPT-3.5模型在2022年11月驅動，隨后在2023年3月升級為GPT-4。根據OpenAI的說法，GPT-3.5系列通過引入指令微調、監督微調（SFT）和/或從人類反饋中進行的強化學習（RLHF）在GPT-3的基礎上有所改進。最初的GPT-3于2020年發布，標志著從GPT-1的1.17億參數和GPT-2的15億參數躍升至1750億參數的重大進展。這種規模的擴展使得GPT-3具備了上下文學習和廣泛的能力，促成了大型語言模型（LLMs）的出現。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

圖 1 標題：GLM 家族的語言、代碼、視覺和智能體模型的時間線。本報告主要關注語言模型，即 ChatGLM。API 可通過 ??https://bigmodel.cn??? 獲取，開源模型可通過 ???https://github.com/THUDM??? 訪問。

受GPT-3的啟發，我們提出了通用語言模型（GLM）架構，該架構以自回歸填空任務為特點，并在2021年開源了GLM-10B模型（參見圖1中的GLM時間線）。自2021年底起，我們開始預訓練GLM-130B。我們的目標是訓練一個百億級模型，以匹敵或超越GPT-3（davinci），并驗證在這種規模下成功訓練模型的技術，與其他工作如OPT-175B和BLOOM-176B類似。我們于7月完成了GLM-130B的4000億標記的訓練和評估，并于2022年8月發布了模型和預訓練細節。根據HELM 2022年11月的數據，GLM-130B在各個維度上與GPT-3（davinci）相匹敵。

此后，我們開始對GLM-130B進行指令微調。ChatGPT的出現進一步促使我們通過SFT和RLHF使基礎模型對齊。我們從頭開始創建并構建了提示-響應對，并執行了SFT，同時還開始研究如何有效應用RLHF。在2023年3月14日，經過對齊的模型ChatGLM-130B上線，此外，較小版本的ChatGLM-6B也在同一天開源，獲得了遠超預期的關注。ChatGLM-6B設計為擁有62億參數，旨在1）促進訓練前后技術和數據選擇的快速迭代，2）通過INT4量化支持在消費級顯卡上進行本地部署。自此，我們迅速探索并改進了預訓練和對齊技術，導致了每三個月推出的第二代和第三代ChatGLM系列，這些系列完全從頭開始預訓練。

ChatGLM-6B是在大約一萬億中文和英文語料庫上預訓練的，具有2048個上下文長度（2K），并主要通過SFT進行增強。2023年6月發布的ChatGLM2-6B通過更多更好的數據進行預訓練和對齊，帶來了比前代顯著的改進，包括在MMLU上提高了23%，在GSM8K上提高了571%，在BBH上提高了60%。通過采用FlashAttention技術，其上下文長度擴展到了32K。此外，多查詢注意力機制的集成提高了推理速度42%。更進一步，我們的第二代代碼模型CodeGeeX2-6B通過在額外的6000億代碼標記上進行預訓練，展示了相較于初代CodeGeeX-13B顯著的Pass@1提升：Python提高了57%，C++提高了71%，Java提高了54%，JavaScript提高了83%，Go提高了56%，這些成績是通過HumanEval-X評估的。通過進一步實現更多樣化的訓練數據集、更充分的訓練步驟和更優化的訓練策略，ChatGLM3-6B在語義、數學、推理、代碼和知識等42項基準測試中拔得頭籌。從這一代開始，ChatGLM還支持函數調用和代碼解釋器，以及復雜的智能體任務。在這些發展的過程中，我們還開發了1.5B、3B、12B、32B、66B和130B參數的模型，使我們能夠驗證觀察結果并建立我們自己的縮放規律。

總結所學經驗和積累的知識后，我們啟動了GLM-4的訓練。第一個階段的檢查點經過了多階段的后期訓練過程（如SFT、RLHF、安全性對齊），目前主要集中在中英文的語言使用。隨后，它發展為兩個不同的版本：GLM-4和GLM-4 All Tools，兩者均支持128K的上下文長度。自2024年1月16日起，GLM-4（0116）通過GLM-4 API上線，GLM-4 All Tools則可通過???https://chatglm.cn??以及支持自定義GLM智能體創建的移動應用程序訪問。最新的模型包括在預訓練和對齊方面進行升級的GLM-4（0520）和GLM-4-Air。GLM-4-Air在更低延遲和推理成本的情況下實現了與GLM-4（0116）相當的性能。GLM-4的評估在各種語言基準上進行，評估了GLM-4在英文中的通用能力、在中英文中的指令跟隨能力，以及在中文中的對齊、長上下文和智能體能力。

首先，在最常用的英文學術基準上——MMLU、GSM8K、MATH、BBH、GPQA和HumanEval，GLM-4（0520）的表現與GPT-4（0613）相當。例如，它在MMLU上的得分為83.3，而GPT-4為86.4，Gemini 1.5 Pro為83.7。其次，根據IFEval的評估，GLM-4的指令跟隨能力在提示和指令層面都接近GPT-4-Turbo，無論是在英文還是中文。第三，在中文語言對齊方面，GLM-4在AlignBench的八個維度上表現優于GPT-4，并與GPT-4-Turbo持平。最后，針對長上下文任務，GLM-4（128K）在LongBench-Chat上的表現與GPT-4 Turbo和Claude 3 Opus相當，得分為87.3，而GPT-4 Turbo得分為87.2，Claude 3 Opus得分為87.7。

GLM-4 All Tools模型特別對齊以更好地理解用戶意圖，并自主選擇最適合完成任務的工具。例如，它可以通過網頁瀏覽器進行多輪次信息檢索，使用Python解釋器解決數學問題，利用文本到圖像模型生成圖像，并調用用戶定義的函數。圖2展示了GLM-4 All Tools使用網頁瀏覽器和Python解釋器解決“查詢2000年至2023年全球人口增長，并計算平均年增長率”的示例。我們的實際測試顯示，它不僅匹敵，而且在訪問在線信息和解決數學問題等常見任務中超過了GPT-4 All Tools的能力。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

圖 2：GLM-4 All Tools 的一個示例。

繼三代開放的ChatGLM-6B模型之后，我們還開放了GLM-4-9B（128K和1M上下文長度）模型。GLM-4-9B基于大約10萬億多語言語料庫進行預訓練，具有8192（8K）的上下文長度，并使用與GLM-4（0520）相同的流水線和數據進行后訓練。盡管使用的訓練計算量較少，它的表現超越了Llama-3-8B，并支持GLM-4中所有的All Tools功能。我們還提供了一個實驗模型GLM-4-9B-Chat-1M，支持1百萬（1M）上下文長度（相當于大約200萬個中文字符）。表1展示了三代ChatGLM-6B模型和GLM-4-9B的表現，展示了ChatGLM隨著時間的推移逐步改進的過程。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

圖3總結了從GLM-130B到ChatGLM、ChatGLM2/3再到GLM-4 All Tools的主要改進和特點。在這一過程中，我們還為代碼LLM（CodeGeeX）以及圖像理解的視覺語言模型（CogVLM）和文本到圖像生成模型（CogView）的開放開發做出了貢獻。這些開源的模型和數據可以通過???https://github.com/THUDM???和???https://huggingface.co/THUDM???進行訪問。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

2 ChatGLM 技術

在本節中，我們介紹了ChatGLM中采用和開發的預訓練和后訓練技術，包括模型架構、預訓練數據、對齊過程和All Tools功能。對于我們使用的每一個主要技術，我們都提供了詳細的技術報告，以展示我們如何達到GLM-4的水平。

預訓練數據

我們的預訓練語料庫由多語言文檔組成（主要是中文和英文），這些文檔來自多種來源，包括網頁、維基百科、書籍、代碼和論文。數據處理流程主要包括三個階段：去重、過濾和分詞。去重階段通過移除重復或相似的文檔來提高數據多樣性，包括精確去重和模糊去重。過濾階段通過移除包含冒犯性語言、占位符文本、源代碼等噪聲文檔來提高數據質量。分詞階段將文本轉換為一系列標記以供進一步處理。預訓練數據中的標記數量直接影響模型的訓練速度。為了優化這一點，我們采用了字節級字節對編碼（BPE）算法來分別學習中文和多語言的標記，并將其與tiktoken中的cl100k_base分詞器的標記合并，生成一個大小為150,000的統一詞匯表。在最終的訓練集里，我們重新加權不同來源的數據，增加像書籍和維基百科等高質量和教育資源的比例。最終，預訓練語料庫大約包含10萬億個標記。

在ChatGLM發展的四代過程中，我們的發現與現有研究一致：數據的質量和多樣性對于構建有效的大型語言模型至關重要。盡管我們獲得了許多經驗教訓，但至今我們仍未找到指導數據收集、清理和選擇過程的基本原則。

架構

GLM家族的語言模型基于Transformer架構。在GLM-130B中，我們探索了各種選項來穩定其預訓練，考慮到當時的硬件限制。具體來說，GLM-130B采用了DeepNorm作為層歸一化策略，并使用了旋轉位置編碼（RoPE）以及帶有GeLU激活函數的門控線性單元（GLU）。在我們的探索過程中，我們研究了各種提高模型性能和推理效率的策略。最近的GLM-4模型采用了以下架構設計選擇：

- 除QKV外沒有偏差：為了提高訓練速度，我們移除了除注意力層中的查詢、鍵和值（QKV）之外的所有偏差項。在這樣做時，我們觀察到在長度外推方面有輕微的改進。

- RMSNorm和SwiGLU：我們采用了RMSNorm替代LayerNorm，并用SwiGLU替代ReLU。這兩種策略均被觀察到能提高模型性能。

- 旋轉位置嵌入（RoPE）：我們將RoPE擴展為二維形式，以適應GLM中的二維位置編碼。

- 組查詢注意力（GQA）：我們用組查詢注意力（GQA）替代多頭注意力（MHA），以減少推理期間KV緩存的大小。由于GQA使用的參數比MHA少，因此我們增加了前饋網絡（FFN）的參數數量，以保持相同的模型規模，即將FFN的維度設置為隱藏層維度的10/3。

我們的模型上下文長度從ChatGLM的2K擴展到ChatGLM2和ChatGLM3的32K，再到GLM-4的128K和1M。這個擴展不僅通過上下文擴展（位置編碼擴展和長文本的連續訓練）來實現，還通過長上下文對齊，使GLM-4能夠有效處理長上下文。

對齊

預訓練為大型語言模型奠定了基礎，而后訓練則進一步優化這些模型，使它們更符合人類偏好，例如理解人類意圖、遵循指令和進行多輪對話。對于GLM-4，對齊主要通過監督微調（SFT）和從人類反饋中進行的強化學習（RLHF）來實現。在SFT中，我們發現真實的人類提示和交互（而非基于模板或模型生成的響應）對于對齊質量至關重要。盡管SFT在很大程度上使基礎模型符合人類偏好，RLHF則有助于進一步緩解諸如響應拒絕、安全性問題、生成的雙語標記混合以及多輪連貫性等問題。

對于第一代模型（ChatGLM-6B和ChatGLM-130B），提示-響應對主要由模型開發人員進行標注。對于后續的模型，對齊數據是由內部標注數據和從第三方獲取的專有數據組合而成，并接受了相對嚴格的質量控制措施。與現有的做法類似，標注員被指示從多個維度對模型的響應進行評分，包括安全性、真實性、相關性、幫助性和人類偏好。

ChatGLM技術

在ChatGLM的發展過程中，我們引入并將發布一些用于提高其性能的技術。

- 大型語言模型的涌現能力：我們研究了預訓練損失與下游任務性能之間的關系，發現即使在相同的預訓練損失下，不同規模的語言模型和訓練標記在下游任務上表現相同。我們還發現，在某些任務上（如MMLU和GSM8K），只有當預訓練損失低于某個閾值時，模型的表現才會超越隨機水平。因此，我們重新定義了涌現能力，即那些在預訓練損失較低的模型中展現出來的能力。

- 長對齊（LongAlign）：為了擴展語言模型的上下文窗口大小，我們提出了長對齊（LongAlign）——一個全面的長上下文對齊方案。它使得GLM-4能夠處理長達128K標記的長上下文文本，其性能與Claude 2和GPT-4 Turbo相當。

- ChatGLM-Math：為了提高語言模型在解決數學問題上的能力，我們引入了ChatGLM-Math，它通過自我批評而非外部模型或手動標注進行數據選擇。

- ChatGLM-RLHF：為了將語言模型與人類反饋對齊，我們引入了ChatGLM-RLHF，這是我們在LLM中應用PPO和DPO的實踐。

- 自對比（Self-Contrast）：為了避免昂貴的人類偏好反饋數據，我們開發了一種無反饋對齊策略——自對比（Self-Contrast）。它利用目標語言模型自身生成大量負樣本，以進行RLHF對齊。

- AgentTuning：為了提高語言模型的智能體能力，我們開發了AgentTuning框架，并引入了AgentInstruct指令微調數據集，該數據集包含高質量的智能體與環境的交互軌跡。

- APAR：為了提高語言模型在具有層次結構的響應中的推理速度，我們提出了一種自動并行自回歸（APAR）生成方法。它通過指令微調訓練語言模型來規劃其（并行）生成過程，并執行APAR生成。

- 基準測試：我們還開發了多個開放的語言模型基準，包括用于評估語言模型作為智能體能力的AgentBench，用于評估語言模型長上下文處理能力的LongBench，用于衡量ChatGLM中文對齊質量的AlignBench，HumanEval-X用于評估Python以外編程語言中的HumanEval問題，以及用于評估模型解決實際編程任務能力的NaturalCodeBench (NCB)。

GLM-4 All Tools

最新的ChatGLM模型是GLM-4和GLM-4 All Tools，二者均通過上述技術進行訓練和對齊。GLM-4 All Tools是進一步對齊以支持智能代理和相關任務的模型版本。它能夠自主理解用戶意圖，規劃復雜指令，并調用一種或多種工具（如網頁瀏覽器、Python解釋器和文本到圖像模型）來完成復雜任務。圖4展示了GLM-4 All Tools系統的整體流程。當用戶發出復雜請求時，模型會逐步分析任務并規劃解決步驟。如果它判斷無法獨立完成任務，它將依次調用一個或多個外部工具，利用這些工具的中間反饋和結果來幫助解決任務。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

基于GLM-4的所有工具功能，我們還開發了GLM應用平臺，允許用戶為特定任務創建和定制自己的智能體。GLM不僅支持嵌入式Python解釋器、網頁瀏覽器、文本到圖像模型，還支持用戶定義的函數、API和外部知識庫，以更有效地滿足用戶需求。

3 GLM-4 的能力

我們從多個角度評估了GLM-4模型的能力，包括其在學術基準測試中的基本能力、代碼問題解決能力、智能體在英語環境中的能力、指令跟隨、中文和英文中的長上下文處理能力以及中文對齊能力。如前所述，GLM-4主要在中文和英文上進行預訓練，并且對中文進行了重點對齊。在本節中，我們主要報告最新版本GLM-4，即GLM-4 (0520) 和 GLM-4-Air (0605) 的結果，因為GLM-4 (0520) 在評估的基準測試中表現略優于最初的0116版本。評估期間，GLM-4 和 GLM-4-Air 均以BFloat16精度進行部署。

作為基準，我們呈現了GPT-4（0603）、GPT-4 Turbo（1106，2024-04-09）、Claude 2、Claude 3 Opus和Gemini 1.5 Pro的結果，這些結果均來自相應的技術報告或通過其公開API測試得出。

總體而言，GLM-4 在標準基準測試、指令跟隨、長上下文、代碼問題解決及智能體能力方面與當前最先進的模型（GPT-4 Turbo、Gemini 1.5 Pro 和 Claude 3 Opus）接近。在中文對齊方面，它在多個領域表現強勁，如基礎語言能力、中文高級理解、專業知識和開放性問題?？傊?，GLM-4 是中文語言任務中的佼佼者。它在中文數學和邏輯推理能力上與GPT-4和Claude 3 Opus相當，盡管在這方面稍稍落后于GPT-4 Turbo。

3.1 學術基準測試評估

為了評估基本模型的總體性能，我們選擇了六個常用的基準，涵蓋了知識、數學、推理、常識和代碼：

- MMLU：多項選擇題集，收集自各種考試，包括數學、歷史、計算機科學等。我們向模型提供所有答案并要求其選擇正確答案的字母。

- GSM8K：包含8,500道小學數學文字題（測試集中有1,000道），需要模型使用數學概念解決實際情境問題。我們使用鏈式思維（chain-of-thought）提示進行測試。

- MATH：包含12,500道具有挑戰性的競賽級數學問題（測試集中有5,000道）。我們使用鏈式思維提示進行測試。

- BBH：23項具有挑戰性的BIG-Bench任務。我們使用鏈式思維提示進行測試。

- GPQA：一項涵蓋生物、化學和物理學的研究生級別多項選擇題基準測試。

- HumanEval：一個代碼生成基準，評估生成的合成函數的正確性，使用自動測試用例檢查。

我們將GLM-4的表現與原始GPT-4進行比較，結果如表2所示?？梢钥吹?，GLM-4在MMLU上達到了GPT-4準確率的96.3%，并且在其他基準測試中表現優于GPT-4?？傮w而言，GLM-4的基本能力接近GPT-4 Turbo和Claude 3 Opus。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

3.2 指令跟隨能力評估

我們使用最近引入的IFEval數據集評估了GLM-4在跟隨指令方面的能力。該數據集包含從25個不同指令中提取的541個提示，通過明確的標準進行驗證（例如，“請在郵件末尾寫上：P.S. 我確實喜歡這個蛋糕”可以通過字符串匹配來驗證）。我們遵循[61]中的方法，計算提示級別和指令級別的準確率，分別在嚴格模式和寬松模式下進行評估。為了進一步評估模型在跟隨中文指令上的表現，我們將原始提示翻譯成中文，刪除不適用于中文的指令（例如大寫規則），并調整評分腳本以適應中文數據。

表3展示了GLM-4在IFEval上的表現。在寬松模式下，GLM-4的指令級別準確率與GPT-4 Turbo在英文和中文中的表現相當。在嚴格模式下，GLM-4在英文和中文中的指令級別準確率分別達到了GPT-4 Turbo（2024-04-09）的99.0%和98.6%。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

3.3 對齊能力評估

AlignBench通過一種自動的“語言模型即裁判”方法來評估大型語言模型在中文背景下的對齊能力。該基準包含683個問題，涵蓋8個不同類別，并通過基于GPT-4的多維規則校準的逐點參考打分方法對模型的響應進行評判。我們在AlignBench-v1.1版本上進行評估，該版本更加細致地改進了參考生成的質量，特別是在需要知識的問題上補充了從網頁中收集到的帶有URL的人類證據，這類問題占總查詢的66.5%。在這個版本上，幾乎所有的語言模型得分都比之前的AlignBench有所下降。

表4展示了GLM-4在AlignBench上的表現。GLM-4在整體得分上超過了GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro，尤其在中文邏輯推理和語言理解方面表現優異，顯著優于其他強大的模型。這些結果表明其對中文語言和知識的掌握能力很強。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

目前，GLM-4與GPT-4 Turbo（2024-04-09）之間的性能差距主要體現在數學維度上。我們已經引入了ChatGLM-Math中的技術（如自我批評）來持續增強GLM模型的推理能力。

3.4 長上下文處理能力評估

為了評估GLM-4在長文本任務上的表現，我們在LongBench-Chat上進行了評估。LongBench-Chat的上下文長度范圍從10K到100K，涵蓋了用戶常用的多種長文本場景，如文檔問答、摘要生成和代碼生成。為了更詳細地比較GLM-4在不同語言中的表現，我們將LongBench-Chat按語言劃分為中文和英文兩部分。表5分別展示了兩種語言的結果，從中可以清楚地看到，GLM-4在英文提示上的表現與GPT-4 Turbo和Claude 3 Opus一致，而在中文提示上的表現甚至超過了最好的模型。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

3.5 實際用戶提示下的代碼生成能力評估

雖然HumanEval已被廣泛用于評估代碼生成，但其中大部分問題都屬于入門級算法問題。然而，在實際中，真實用戶提出的問題往往更為復雜，超出了HumanEval的范疇。此外，之前的研究報告指出在訓練數據中存在HumanEval污染的問題，使得HumanEval的評估結果相對不再可信。因此，除了HumanEval，我們還在NaturalCodeBench（NCB）上對GLM-4進行了評估，NCB是一個源于實際用戶提示的雙語代碼基準，反映了真實世界中的復雜代碼任務。表6展示了結果，GLM-4在實際場景中的代碼生成能力與Claude 3 Opus接近。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

3.6 函數調用能力評估

為了評估GLM模型在函數調用方面的能力，我們在Berkeley函數調用排行榜上進行了評估。該基準包含2,000個問題-函數-答案對，評估模型在三個類別上的函數調用能力：通過抽象語法樹（AST）評估、通過API執行評估和相關性檢測。結果如表7所示。GLM-4 (0520) 在函數調用能力上與GPT-4 Turbo (2024-04-09) 表現一致。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

3.7 智能體能力評估

大型語言模型（LLMs）作為智能體在多種環境和情境中表現出色，稱為“LLMs-as-Agents”。因此，我們在AgentBench上評估了GLM-4及其他對比模型在不同的實際環境中的表現，包括代碼、游戲和網頁相關的任務。結果如表8所示，GLM-4系列模型在智能體任務上的表現令人印象深刻。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

3.8 全工具能力評估

GLM-4進一步對齊以支持智能代理和用戶自定義GLMs功能，生成的模型版本為GLM-4 All Tools。表9顯示了GLM-4 All Tools在使用Python解釋器解決數學問題和網頁瀏覽器獲取信息方面的表現，與GPT-4 All Tools表現相當。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

4 安全性與風險

我們致力于確保GLM-4能夠作為一個安全、負責任且無偏見的模型運行。除了應對常見的倫理和公平問題，我們還仔細評估并減輕模型在現實世界場景中可能對用戶造成的潛在傷害。

風險緩解

在預訓練階段，我們通過移除包含敏感關鍵詞和預定義黑名單網頁的文本，嚴格清理數據。在對齊階段，我們對每一個訓練樣本進行安全性評估，并移除任何可能帶來潛在風險的樣本。無害性也是在比較多個模型輸出時進行偏好對齊的重要標準之一。

我們有一個“紅隊”，其任務是不斷挑戰模型，提出一些棘手的問題，這些問題往往會引發不安全的回答。我們收集所有來自GLM-4的有害問題-回答對，并通過人工標注進行改進，以便進一步對模型進行對齊。

安全性評估

我們使用SafetyBench數據集對GLM-4模型進行了評估，該數據集從7個維度評估了每個模型的能力：倫理與道德（不道德行為）、非法活動（基本法律知識）、心理健康（對心理健康的負面影響）、冒犯性（冒犯行為）、身體健康（可能導致身體傷害的危險行為）、隱私與財產（隱私泄露或財產損失）、不公平與偏見。我們在SafetyBench的中文子集中對不同模型進行評估，該子集通過刪除高度敏感的問題（這些問題容易被阻斷）來緩解不同API安全策略的干擾。

表10展示了GLM-4與現有最先進模型的安全性表現。在大多數維度上，GLM-4 (0520) 表現出有競爭力的安全性，并且整體上達到了與Claude 3 Opus相當的表現。GLM-4略微落后于GPT-4家族的模型，特別是在“身體健康”維度上，該維度要求模型具備關于物理世界的常識，以避免潛在風險。我們已在這一方向上投入了更多的精力，以開發更強大且更安全的GLM模型。

ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型-AI.x社區

5 結論

在本報告中，我們介紹了從GLM-130B到GLM-4（全工具版）的ChatGLM系列大型語言模型。在過去一年半的時間里，我們在理解大型語言模型的各個方面取得了巨大進展，并獲得了寶貴的第一手經驗。隨著每一代模型的開發，團隊在模型預訓練和對齊方面學習并應用了更加有效和高效的策略。最近的ChatGLM模型——GLM-4 (0116, 0520)、GLM-4-Air (0605) 和 GLM-4 全工具版——展示了在執行復雜任務時顯著的進步，它們能夠自主調用外部工具和功能。這些GLM-4模型在性能上達到了甚至在某些情況下超越了最先進的模型，如GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro，尤其是在處理與中文相關的任務時表現突出。

此外，我們致力于通過開源發布模型權重和在此過程中開發的技術，推動大型語言模型的可訪問性和安全性。在2023年，我們開源的語言、代碼和視覺模型在Hugging Face上的下載量已超過1000萬次。目前，我們正在基于現有的經驗教訓開發更強大的模型。未來，我們將繼續通過開源推動最前沿的大型語言模型技術的發展，并致力于實現讓機器像人類一樣思考的目標。

?

本文轉載自公眾號AIRoobt ，作者：AIRoobt

原文鏈接：??https://mp.weixin.qq.com/s/p-IDsEWdBPfW99w_4S4b8Q???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大型語言模型

贊

收藏

回復

舉報

回復

相關推薦

NVIDIA新模型Nemotron-4 340B系列：98%的訓練數據是合成生成的，你敢信？

AI論文解讀 ? 5159瀏覽 ? 0回復
探索GLM4-ALLTools：全能AI工具箱，釋放開發者潛能

ermulong ? 4841瀏覽 ? 0回復
探索GLM4-ALLTools：全能AI工具箱，釋放開發者潛能

ermulong ? 3725瀏覽 ? 0回復
大型語言模型（LLM）的歷史與未來

51CTO內容精選 ? 5124瀏覽 ? 0回復
GLM-4-Flash宣布免費，Agentic RAG體驗，讓我覺著，真香！

PaperAgent ? 4023瀏覽 ? 0回復
超越GPT-4！LoRA技術引領大型語言模型新革命

AI論文解讀 ? 4578瀏覽 ? 0回復
GLM4模型開源，意料之中的尺寸，意料之外的效果

NLP工作站 ? 5425瀏覽 ? 0回復
人工智能新高度：GLM-4-Plus，智譜AI打造媲美GPT-4o的基座大模型

穿越時空111 ? 7327瀏覽 ? 0回復
從傳統 RAG 到圖 RAG，賦予大型語言模型更強大的知識力量

NLP前沿1 ? 4102瀏覽 ? 0回復
GLM4模型開源，意料之中的尺寸，意料之外的效果

NLP工作站 ? 3959瀏覽 ? 0回復
AMD 開源 AMD OLMo：完全開源的 1B 語言模型系列

Halo咯咯 ? 3821瀏覽 ? 0回復
微調大型語言模型（LLM）的五個技巧

51CTO內容精選 ? 4152瀏覽 ? 0回復
RAG從入門到精通系列：基礎RAG

PyTorch研習社 ? 4695瀏覽 ? 0回復
語言、邏輯與大型語言模型——從古代哲學抽象思維到人工智能的演進

上堵吟1 ? 4760瀏覽 ? 0回復
清華發布GLM 4！32B參數模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 5334瀏覽 ? 0回復
國產大模型崛起！智譜發布GLM-4-32B-0414系列模型，以32B模型參數比肩GPT-4o和DeepSeek V3/R1

AIGCStudio ? 4326瀏覽 ? 0回復
GPT-4.1系列深度解析：從代碼到動畫，從理論到實戰，AI的多面手來了！

Halo咯咯 ? 6241瀏覽 ? 0回復
Zhipu AI剛剛發布了GLM-4.5系列：重新定義帶有混合推理的開源代理AI

Halo咯咯 ? 5958瀏覽 ? 0回復
直面 GPT-4：GLM 4.5 如何憑開源+代理能力逆襲？

Halo咯咯 ? 4115瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

基于協作式語義專家的語言模型微調（AAAI 2025） 3天前發布
大型語言模型基準測試綜述（2025） 3天前發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發現堪稱性價比之王！ 0回復

上一篇： SELF-REFINE: 通過自反饋進行迭代優化

下一篇： DeepSeek LLM: 通過長期主義擴展開源語言模型

社區精華內容

目錄

床上的激情91.| 99精品全国免费观看视频软件| 午夜日韩在线电影| 日韩av在线电影观看| 亚洲一级黄色大片| 黄页网站一区| 国产亚洲精品一区二区| 欧美污在线观看| 成人小电影网站| 亚洲欧洲av在线| 国产一区二区视频在线免费观看| 精品乱码一区内射人妻无码| 午夜久久tv| 怡红院精品视频| 国产午夜在线一区二区三区| 97成人超碰| 亚洲成国产人片在线观看| 清纯唯美一区二区三区| 亚洲精品国产suv一区| 天堂一区二区在线| 久久久久久午夜| 欧美巨胸大乳hitomi| 第四色在线一区二区| 欧美午夜精品电影| 国产视频九色蝌蚪| h视频在线免费观看| 久久久精品tv| 久久99精品久久久久久久青青日本| 中文字幕在线视频免费| 香蕉国产精品偷在线观看不卡| 插插插亚洲综合网| 一区二区三区在线观看免费视频| 久久影视三级福利片| 欧美一区二区三区不卡| 亚洲77777| 综合在线影院| 精品久久久免费| 日本中文字幕在线视频观看 | 国产亚洲精品一区二区| 少妇精品无码一区二区三区| 欧美激情三级| 7799精品视频| 欧美精品久久久久久久久25p| 性感女国产在线| 午夜精彩视频在线观看不卡| 日韩国产成人无码av毛片| 免费大片在线观看www| 国产日韩欧美高清| 日韩av高清| 国产中文字幕在线观看| 久久精品视频在线看| 九九九九九九精品| 婷婷五月综合激情| 91丨porny丨户外露出| 好吊色欧美一区二区三区 | 日韩电影中文字幕在线观看| 免费观看污网站| 91九色鹿精品国产综合久久香蕉| 日韩一区二区精品葵司在线| 三级黄色片播放| 狂野欧美xxxx韩国少妇| 日韩欧美亚洲国产另类 | 999久久久久久久久6666| 欧美一区二区美女| 亚洲av无码久久精品色欲| 欧美欧美在线| 精品国产污污免费网站入口 | 精品国产精品| 综合欧美国产视频二区| 五月婷婷综合激情网| 国产精品x453.com| 久久99国产精品久久久久久久久| 久草福利资源在线观看| 极品日韩av| **欧美日韩vr在线| 免费黄色片视频| 久久国产麻豆精品| 亚洲一区二区三区久久| 国模私拍视频在线| 国产亚洲精品福利| 国产a级片免费看| 伦理在线一区| 欧美性极品少妇精品网站| 亚洲精品怡红院| 国产一区二区三区视频在线| 亚洲第一区在线| 精品无码人妻一区二区免费蜜桃 | a级片一区二区| av中文字幕在线看| 欧美综合一区二区三区| 亚洲色图欧美自拍| 日韩有码中文字幕在线| 中文字幕日韩欧美| 精品少妇久久久| 日本欧美久久久久免费播放网| 在线观看视频一区二区欧美日韩| 在线不卡a资源高清| 久久精品香蕉视频| 电影91久久久| 国产丝袜视频一区| 国产精品白丝喷水在线观看| 亚洲久久成人| 91久久久久久久久| 亚洲av电影一区| 综合久久久久综合| 国产又黄又大又粗视频| 成人在线视频www| 亚洲免费影视第一页| 国产精品精品软件男同| 国产精品嫩草99av在线| 成人在线免费观看视视频| 五月色婷婷综合| 亚洲男女一区二区三区| 久久久久久香蕉| 超碰一区二区三区| 久久久精品亚洲| 国产一级片免费在线观看| 成人亚洲一区二区一| 亚洲精品tv久久久久久久久| 国产三级电影在线播放| 欧美一区二区视频在线观看2022| 亚洲码无人客一区二区三区| 亚洲乱码久久| 成人h在线播放| 欧美18hd| 欧美在线观看18| 亚洲熟妇无码av| 1024成人| 国产99午夜精品一区二区三区 | 色久欧美在线视频观看| 可以免费看的av毛片| 国产电影精品久久禁18| 亚洲三级一区| 成人网ww555视频免费看| 日韩精品在线私人| 国产乡下妇女做爰毛片| 国产经典欧美精品| 四虎免费在线观看视频| 国产亚洲人成a在线v网站 | 国产乱子伦精品| 羞羞视频在线观看不卡| 欧美日本韩国一区二区三区视频| av黄色在线免费观看| 久久蜜桃资源一区二区老牛| 国产乱子伦精品| av最新在线| 亚洲成人激情图| 国产成人亚洲欧洲在线| av一区二区三区四区| 国产精品网站免费| 欧洲精品一区| 日韩av电影手机在线观看| 日韩美女一级视频| 色偷偷成人一区二区三区91 | 精品乱子伦一区二区| 17c精品麻豆一区二区免费| 中文字幕av不卡在线| 成人在线国产| 国产这里只有精品| 免费黄网站在线播放| 91精品视频网| 久久久99精品| 99精品黄色片免费大全| 漂亮人妻被中出中文字幕| 九九久久婷婷| 国产免费一区二区三区在线观看 | 免费在线性爱视频| 在线亚洲一区观看| 成人性视频免费看| 国产成人亚洲综合a∨猫咪| a级免费在线观看| 西野翔中文久久精品字幕| 欧美最猛性xxxxx免费| av午夜在线| 日韩一级大片在线| 国产精品xxxx喷水欧美| 国产色产综合色产在线视频 | 爱情电影网av一区二区| 中文字幕亚洲图片| 精品人妻一区二区三区日产乱码| 亚洲国产精品久久人人爱| av网站免费在线播放| 日本伊人午夜精品| 法国空姐在线观看免费| 免费成人蒂法| 91精品免费视频| 99riav视频在线观看| 亚洲天堂影视av| 国产偷人妻精品一区二区在线| 午夜成人在线视频| 日本午夜精品视频| eeuss鲁片一区二区三区在线观看| 亚洲乱码国产一区三区| 欧美成人亚洲| 午夜欧美性电影| 国产一级成人av| 国产美女91呻吟求| 黄色软件视频在线观看| 色婷婷成人综合| 无码精品视频一区二区三区| 69av一区二区三区| 人人草在线观看| 亚洲综合在线第一页| 成人免费视频入口| 99久久国产综合色|国产精品| 九色porny自拍| 国产欧美另类| 国产精品videossex国产高清| 国产欧美日韩一区二区三区四区 | 亚洲精品一区二区三区蜜桃| 91国偷自产一区二区开放时间| 欧美日韩国产精品综合| 日本一区二区免费在线观看视频 | 久久露脸国产精品| 欧美天天影院| 国产一区二区三区视频在线观看| 人人妻人人澡人人爽精品日本| 欧美人伦禁忌dvd放荡欲情| 欧美在线观看不卡| 亚瑟在线精品视频| 538精品在线观看| 亚洲欧洲成人自拍| 刘亦菲国产毛片bd| 中文字幕电影一区| 亚洲第一成人网站| 99久久精品费精品国产一区二区| 91av免费观看| 国产一区二区三区四区五区入口| 亚洲色图38p| 香蕉亚洲视频| 日本久久久精品视频| 亚洲人www| 亚洲理论电影在线观看| 欧美精品不卡| 五月天激情图片| 午夜久久影院| 成人免费a级片| 欧美freesex交免费视频| 最新国产精品久久| 91综合视频| 日本女人高潮视频| 亚洲欧美偷拍自拍| 黄色小视频大全| 女同性一区二区三区人了人一 | 日韩欧美国产综合| 国产成人免费看一级大黄| 欧美一区二区在线视频| 国产黄色一区二区| 日韩欧美高清dvd碟片| 亚洲第一天堂在线观看| 精品国产一区二区三区不卡| 成人免费公开视频| 日韩成人黄色av| 免费国产在线视频| 伊人av综合网| 色老头视频在线观看| 精品国产一区久久久| 成人在线免费看黄| 久久人人爽人人爽人人片av高请| 182在线播放| 欧美最猛性xxxxx亚洲精品| 天然素人一区二区视频| 国产精品久久久久免费a∨大胸 | av免费在线观看网址| 久久不射电影网| 黄网站在线观| 欧美孕妇毛茸茸xxxx| 亚洲精品粉嫩美女一区| 国产精品亚洲综合天堂夜夜| 二区三区精品| 国产精品国产精品国产专区蜜臀ah | av每日在线更新| 成人444kkkk在线观看| 成人免费一区二区三区牛牛| 欧美一级在线播放| 久久99国产精品二区高清软件| 91在线播放国产| 精品嫩草影院| 视频在线99| 激情欧美一区| 亚洲免费av一区二区三区| 激情综合网av| 色呦呦一区二区| 中文字幕在线不卡一区| 国产一级aa大片毛片| 色婷婷久久久久swag精品| 一区二区三区播放| 亚洲精品乱码久久久久久金桔影视 | 日韩欧美国产另类| 91精品国产综合久久精品app| 色网站免费观看| 色妞在线综合亚洲欧美| 擼擼色在线看观看免费| 成人激情在线观看| 天堂日韩电影| 欧美日韩国产精品| 久久激情中文| 黑人巨大猛交丰满少妇| 久久蜜桃一区二区| 美女的奶胸大爽爽大片| 色综合天天视频在线观看| 国产熟女一区二区三区四区| 亚洲精品一区久久久久久| av免费在线免费观看| 国产精品99导航| 国语一区二区三区| 最新精品视频| 日韩在线卡一卡二| 中文字幕在线永久| 亚洲日本va在线观看| 极品国产91在线网站| 精品剧情在线观看| 夜级特黄日本大片_在线| 91成品人片a无限观看| 亚洲视频一起| 婷婷视频在线播放| 免费高清在线视频一区·| 五十路六十路七十路熟婆| 亚洲日韩欧美一区二区在线| 免费一级a毛片| 精品一区二区三区四区| 国产深夜视频在线观看| 91久久久久久久久久| 日韩精品91| 91av在线免费播放| 久久综合色一综合色88| 日本少妇久久久| 精品免费日韩av| av在线官网| 91久久在线视频| 98精品视频| 在线看免费毛片| 国产精品九色蝌蚪自拍| 国模私拍一区二区| 亚洲欧美在线一区二区| 中文字幕人成乱码在线观看| 精品欧美日韩在线| 日韩一级免费| 荫蒂被男人添免费视频| 亚洲国产综合色| 日韩专区第一页| 55夜色66夜色国产精品视频| 久久激情av| 国产性xxxx18免费观看视频| 99精品欧美一区| 天堂网中文字幕| 亚洲天堂av电影| 日本成人伦理电影| 三区精品视频观看| 奇米影视7777精品一区二区| 成人免费视频入口| 777色狠狠一区二区三区| 久久99精品久久| **亚洲第一综合导航网站| 中文无码久久精品| 风韵丰满熟妇啪啪区老熟熟女| 亚洲一区二区中文在线| 四虎永久在线观看| 欧洲亚洲妇女av| av亚洲在线观看| 国产aⅴ爽av久久久久| 亚洲三级视频在线观看| 亚洲精品喷潮一区二区三区| 久久免费视频在线观看| 亚洲电影一级片| 在线观看日本一区二区| 亚洲欧美自拍偷拍| 午夜精品久久久久久久第一页按摩 | 日韩中文一区| 久久99精品久久久久久| 紧身裙女教师波多野结衣| 精品日本一线二线三线不卡| h片在线观看下载| 欧美高清性xxxxhd| 精品在线一区二区三区| 免费一级肉体全黄毛片| 日韩乱码在线视频| 欧美网站免费| www.xxx麻豆| 中文字幕精品一区| 精品国产av一区二区| 97人人模人人爽人人喊中文字 | 中文字幕亚洲欧美一区二区三区 | 午夜精品一区二区三区四区| 国产乱码精品一区二区三区av| 国产精品2020| 中文一区二区视频| 丁香五月缴情综合网| 日韩手机在线观看视频| 亚洲人精品午夜| 欧美高清成人| 97免费资源站| 日本v片在线高清不卡在线观看| 一区二区视频免费看| 日韩av中文字幕在线免费观看| 国产一区二区主播在线| 成人av在线播放观看| 国产精品色眯眯| 少妇高潮一区二区三区69| 91欧美激情另类亚洲|

<tfoot id="2cyac"><input id="2cyac"></input></tfoot>

<fieldset id="2cyac"><menu id="2cyac"></menu></fieldset>

<fieldset id="2cyac"><menu id="2cyac"></menu></fieldset>

<fieldset id="2cyac"><input id="2cyac"></input></fieldset>