直追GPT-4！李開復Yi-34B新成績公布：94.08%的勝率超越LLaMA2等主流大模型

作者：量子位 2023-12-11 12:46:42

Elo評分越高，說明模型在真實用戶體驗上的表現越出色，可說是眾多大模型評測集中最能展現 “Moment of Truth 真實關鍵一刻” 的用戶導向體驗對決。

僅次于GPT-4，李開復零一萬物Yi-34B-Chat最新成績公布——

在Alpaca經認證的模型類別中，以94.08%的勝率，超越LLaMA2 Chat 70B、Claude 2、ChatGPT！

圖片

不僅如此，在加州大學伯克利分校主導的LMSYS ORG排行榜中，Yi-34B-Chat也以1102的Elo評分，晉升最新開源SOTA開源模型之列，性能表現追平GPT-3.5。

在五花八門的大模型評測中，伯克利LMSYS ORG排行榜采用了一個最為接近用戶體感的 “聊天機器人競技場” 特殊測評模式，讓眾多大語言模型在評測平臺隨機進行一對一 battle，通過眾籌真實用戶來進行線上實時盲測和匿名投票，11月份經25000的真實用戶投票總數計算了20個大模型的總得分。

Elo評分越高，說明模型在真實用戶體驗上的表現越出色，可說是眾多大模型評測集中最能展現 “Moment of Truth 真實關鍵一刻” 的用戶導向體驗對決。

圖片

△LMSYS ORG榜單（發布于2023年12月8日）

中文能力方面，Yi-34B-Chat 微調模型同樣不遑多讓。SuperCLUE是一項針對中文能力的排行榜，從基礎能力、專業能力和中文特性能力三個不同的維度，評估模型的能力。

根據11月底發布的《SuperCLUE中文大模型基準評測報告 2023》，11月下旬首度發布的 Yi-34B Chat，迅速晉升到和諸多國產優秀大模型齊平的 “卓越領導者” 象限，在多項基準評測中的 “SuperCLUE 大模型對戰勝率” 這項關鍵指標上，Yi-34B-Chat 取得31.82%的勝率，僅次于GPT4-Turbo。

△中文SuperCLUE排行榜（發布于2023年11月28日）

對話場景實測

Yi-34B-Chat 模型實力在不同的對話場景中實力如何？來看幾個更直觀的問題演示：

例如“喂”給Yi-34B-Chat如下問題：

Transformer 模型結構能不能走向 AGI ?

圖片

不難看出，Yi-34B-Chat的回答可以說是有理有據。

再來：

給我生成一個小紅書文案，給大家安利一只豆沙色的口紅。

圖片

回答可以說是非常符合現在小紅書主流的帶貨風格了。

中文理解方面，我們再出一道題：

小王給領導送了一份禮物后。領導說：“小王，你這是什么意思？”小王：“一點心意，意思意思。”領導：“你這就不夠意思了。”小王：“小意思，小意思。”領導：“小王，你這人真有意思。”小王：“也沒什么別的意思。”領導：“那我多不好意思。”小王：“是我不好意思。”這個意思到底是什么意思？

圖片

可以看到，即便是在非常“繞”的中文理解方面，Yi-34B-Chat也是精準的拿捏住了。

據零一萬物介紹，除了 Yi 系列強基座的貢獻以外，Yi-34B-Chat 模型的效果還得益于其人工智能對齊（AI Alignment）團隊采用了一系列創新對齊策略。通過精心設計的指令微調流程，不僅強化了模型在理解和適應人類需求方面的能力，還使得模型與人類價值觀對齊，包括幫助性（Helpful），可靠性（Honest），無害性（Harmless）等。

在強基座設定下，該團隊采用了一種輕量化指令微調方案，該方案涵蓋了單項能力提升和多項能力融合兩個階段。
其中，單項能力包括通用指令跟隨、創意內容生成、數學、推理、編程、泛COT、對話交互等。通過大量的消融實驗，針對模型單能力構建和多能力融合總結了獨家認知經驗。

在數據的量和質方面，一方面，團隊在強基座模型上，實現僅需要少量數據（幾條到幾百條），就能激發模型特定單項能力；另一方面，數據質量比數量重要，少量高質量數據比大量低質量數據更好。通過關注超出模型能力的“低質量”數據，減少了模型“幻覺”。

在指令多樣性與難度方面，團隊通過在各能力項下構建任務體系，實現了訓練數據中的指令均衡分布，大幅提升了模型泛化性。通過復合指令構造和指令難度進化，不僅提升了模型效果，也顯著降低了對數據量的需求。

在風格一致性方面，團隊發現訓練數據的風格會影響模型收斂速度和能力上限的逼近程度，因此統一了回復風格，比如重點設計了CoT的回復風格，實現在輕量SFT情況下，避免了風格不一致加劇模型的“記憶”現象。

在多能力融合階段，團隊采用網格搜索的方法來決定數據配比和超參數的設置，通過基準測試和自建評測集的結果來指導搜索過程，成功實現模型的多能力融合。

不僅如此，Yi模型開源首月，數據也很亮眼。

在Hugging Face社區下載量為16.8萬，魔搭社區下載量1.2萬。在GitHub 獲得超過4900個Stars。

由于性能表現強勁，多家知名公司和機構推出了基于Yi模型基座的微調模型，比如獵豹旗下的獵戶星空公司推出的OrionStar-Yi-34B-Chat模型，南方科技大學和粵港澳大灣區數字經濟研究院（簡稱IDEA研究院）認知計算與自然語言研究中心（簡稱CCNL中心）聯合發布的SUS-Chat-34B等，均性能表現優異。而AMD和Hugging Face合作的GPU加速大模型的實驗中，也選擇了Yi-6B作為范例項目。

知名技術寫作者蘇洋表示，在他觀察的近期Hugging Face榜單中，前三十名有一半多都是 Yi 和其他用戶微調的 Yi-34B 的變體模型，原本占據榜單頭部的 68B 和 70B 模型的數量目前只留有幾個，“從這點看 Yi 對于開源生態的幫助還是非常巨大的。”

用戶真實反饋實錄

Yi-34B開源發布后，開發者Eric Hartford就發現了模型存在的一個小問題。

他在郵件中寫道：

感謝你們提供了一個優秀的模型。Yi模型使用了與LLaMA模型完全相同的架構，只是將兩個張量改了名字。由于圍繞LLaMA架構有很多投資和工具，保持張量名稱的一致性是有價值的。”Eric建議，在Yi被廣泛傳播前，及時恢復張量名稱。

零一萬物意識到命名問題的疏忽對開發者造成的不便，跟Eric和其他開發者提出說明，表達誠摯的歉意，并很快便在各開源平臺重新提交模型及代碼，完成了開源社區的版本更新。

然而Eric自己也沒有預想到，他的這個建議，在國內竟被曲解、誤讀，引發了輿論關于Yi模型“抄襲”LLaMA的質疑。

事實上，一個模型核心技術護城河是在架構之上，通過數據訓練獲得的參數和代碼，在沿用了開源社區普遍使用的LLaMA 架構之上。

根據零一萬物團隊的說法，他們是從零開始，用高質量的數據集、自研訓練科學和AI Infra打造了 Yi-34B 在內的系列模型。為了執行對比實驗的需要，對部分推理參數進行了重新命名。原始出發點是為了充分測試模型，而非刻意隱瞞來源。

身處這場輿論風暴的中心，Eric也在X（twitter）上寫道：

他們沒有在任何事情上撒謊。所有的模型都是在相互借鑒架構。架構是學術研究的產物，已經發表在論文中，任何人都可以自由使用，這絲毫不減損Yi團隊的成就。他們從零開始使用自己創建的數據集訓練Yi，對開源領域的貢獻是值得贊揚的。

圖片

緊接著，他又說，“使用Llama架構沒有任何問題。訓練才是關鍵。Yi給了我們目前可獲得的最佳模型，沒有任何可抱怨的。”

現在，Eric已經成為Yi-34B的忠實擁躉，會使用Yi-34b-200k數據集訓練其他的模型產品，并感嘆絲滑般的訓練體驗。

數字化創業者，開發者，技術寫作者蘇洋表示：

我自己本身是大模型產品的重度用戶，除了用了很久的 Tabnine、Copilot 做代碼輔助生成之外，也算是第一批開始氪金使用 Chat 的玩家，基本各家廠商模型出來都會申請內測，體驗模型的實際能力。這里除去工作中接觸和使用模型的機會外，作為獨立開發者，玩了十幾年的代碼，我個人也非常好奇模型究竟能夠發展到什么程度。
我了解到 Yi-34B 有幾個渠道，當時的 Huggingface 榜單第一名、小圈子朋友的“點贊”和“吐槽”、各種群里刷屏的消息。

圖片

我是開發者，同時也是終端用戶，所以非常好奇，這個模型到底行不行？或者說更想知道模型哪里是行的，哪里是不行的。尤其是榜單分數這么高，質疑聲浪也這么高？與其霧里看花、眾說紛紜，不如自己實際跑一跑。
于是，我嘗試使用家里本地的機器，在純 CPU 環境、CPU & GPU 混合環境下對模型進行測試，結果比想象中要好。
尤其是社區中的 finetune 后的版本，在對新聞、研究報告的摘要總結方面，對非結構化的信息中的實體識別和抽取上表現非常不錯。早些時候，官方還未推出 Chat 版本時，來自社區的 Chat 版本在對話的過程中，通史類的問答表現也非常不錯。當然，可能是由于零一在訓練過程中，出于安全考慮，過濾太多語料的緣故，一些本土化的內容仍然不夠深入。
而且，不光是我的個人體驗，海外也有用戶有相同體感，在“海外貼吧” Reddit 上有分享自己的感受，你們可以自己搜搜看。
我會時不時的瀏覽下 HF 的榜單，在最近榜單中的前三十名，有一半多都是 Yi 和其他用戶微調的 Yi-34B 的變體模型，原本占據榜單頭部的 68B 和 70B 模型的數量目前只留有幾個，從這點看 Yi 對于開源生態的幫助還是非常巨大的。
34B 普通用戶努努力還是能自己相對低成本跑起來的，68 和 70B 的模型想要本地運行，需要更多的資源。但其實目前分數其實相比較 34B 拉不開太多，也就三四分平均分，但參數量差了一倍。換言之，企業想部署使用，所需要的成本也可以得到非常大的節約。
目前國產大模型在開源榜單上已經是第一梯隊，但如果把競爭范圍追加到閉源模型、尤其是海外的模型，仍有很大的距離要去追趕。目前的普遍體驗是開源模型最多只有 GPT-3.5 + 的水平。
我個人相信國產大模型是能夠很快追趕至第一梯隊的。
就如同很多底子很好，又勤奮刻苦的中國大學生，能夠在使用正確方法的前提下，通過努力，不斷的進入更好的學習環境，不斷刷新自己成績，取得耀眼的學術成就。現實中，哪怕是對華人苛刻的 “八大藤校”，是不是中國人越來越多了呢？
只要底子好，堅持使用開源的正確路線和方法，做好本地化適配和調優，就有希望。

參考鏈接：
[1]https://huggingface.co/01-ai/[2]https://www.modelscope.cn/organization/01ai

責任編輯：武曉燕來源：量子位