一次通過率73%,開源代碼大模型WizardCoder超越最新GPT-4以外所有閉/開源模型
這幾天,代碼大模型領域又熱鬧了起來!
先是 Meta 開源代碼專用大模型 Code Llama,且免費商用。效果也非常好,Code Llama 在 HumanEval 和 MBPP 代碼數據集上的一次生成通過率(pass@1)輕松超越 GPT-3.5,其中「Unnatural」版本的 pass@1 逼近了原始 GPT-4(OpenAI 在今年 3 月 GPT-4 技術報告中的數據)。

Code Llama 發布僅一天,來自 Phind 組織的研究人員用微調的 Code Llama-34B 在 HumanEval 評估中擊敗了 GPT-4。他們的兩個模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1 在 HumanEval 分別實現 67.6% 和 69.5% 的 pass@1,顯然都超越了原始 GPT-4 的 67%。

不過,僅僅又過了一天,Phind 微調版 Code Llama 又迎來了一個強勁的對手。這次是 WizardLM 團隊的編程專用大模型 WizardCoder。
該團隊推出了基于 Code Llama 的最新版本模型 WizardCoder 34B,它利用 Evol-Instruct 進行微調而成。
結果顯示,它在 HumanEval 上的 pass@1 達到了驚人的 73.2%,超越了原始 GPT-4、ChatGPT-3.5 以及 Claude 2、Bard。此外,WizardCoder 13B 和 7B 版本也將很快到來。

- GitHub 地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder
- Huggingface:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0
此次具體版本是 WizardCoder-Python-34B-V1.0,下圖是與主流閉源和開源模型的 HumanEval pass@1 比較。除了最新 API 的 GPT-4(該團隊測試后得到的結果是 82.0%),該模型超越了所有閉源和開源模型,包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。

因此,WizardCoder-Python-34B-V1.0 成為了最新的 SOTA 開源代碼大模型。

WizardLM 團隊還表示,WizardCoder-Python-34B-V1.0 的性能百分之百是可以復現的。

想要體驗 WizardCoder-Python-34B-V1.0 的小伙伴可以嘗試以下 demo。

demo 地址:http://47.103.63.15:50085/
有人表示,在試了 demo 后發現,提供準確代碼之前似乎有 COT(思維鏈)在起作用,這非常棒。

還有人表示,WizardCoder-Python-34B-V1.0 要比 GPT-4 犯的錯更少。

不過運行 WizardCoder-Python-34B-V1.0 需要 32GB 以上的 mac。

WizardLM 團隊會帶來更多驚喜
WizardCoder 在成為代碼家族一員已經不是新鮮事,但是 WizardLM 團隊每次都會給大家帶來不一樣的驚喜。
斯坦福發布的大語言模型排行榜 AlpacaEval 是一種基于 LLM 的全自動評估基準,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜單。在這其中,WizardLM 13B V1.2 依舊在第六位。

WizardLM 是由 Can Xu 等人在 2023 年 4 月提出的一個能夠根據復雜指令生成文本的大型語言模型。它使用了一個名為 Evol-Instruct 的算法來生成和改寫指令數據,從而提高了指令的復雜度和多樣性。 WizardLM 共有三個版本:7B、13B 和 30B。
WizardLM 推出的指令微調代碼大模型 ——WizardCoder,更是打破了閉源模型的壟斷地位,在 HumanEval 和 HumanEval + 上優于 Anthropic 的 Claude 和 Google 的 Bard。
更值得一提的是,WizardCoder 還大幅度地提升了開源模型的 SOTA 水平,創造了驚人的進步,提高了 22.3% 的性能,成為了開源領域的新晉「領頭羊」。
以下為 WizardLM 團隊在 GitHub 上發布的諸多模型,這些模型是該團隊不斷創新、改進的足跡。

WizardLM 團隊在 WizardLM 與 WizardCoder 之后,還在今年八月中旬公布了 WizardMath。該團隊還發推文表示,自己一直在致力于解決各個學科復雜的問題。

那么未來 WizardLM 團隊還會帶給我們怎樣的驚喜,讓我們拭目以待。





































