精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o

發布于 2024-6-17 09:44

瀏覽

0收藏

就在剛剛，英偉達再一次證明了自己的AI創新領域的領導地位。

它全新發布的Nemotron-4 340B，是一系列具有開創意義的開源模型，有可能徹底改變訓練LLM的合成數據生成方式！

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

論文地址：

https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

這一突破性進展，標志著AI行業的一個重要里程碑——

從此，各行各業都無需依賴大量昂貴的真實世界數據集了，用合成數據，就可以創建性能強大的特定領域大語言模型！

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

現在，Nemotron-4 340B已經取得了輝煌戰績，直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT-4一較高下！

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

其實，以前這個模型就曾登上大模型競技場LMSys Chatbot Arena，當時它的別名是「june-chatbot」

具體來說，Nemotron-4 340B包括基礎模型Base、指令模型Instruct和獎勵模型Reward，并構建了一個高質量合成數據生成的完整流程。

模型支持4K上下文窗口、50多種自然語言和40多種編程語言，訓練數據截止到2023年6月。

訓練數據方面，英偉達采用了高達9萬億個token。其中，8萬億用于預訓練，1萬億用于繼續訓練以提高質量。

值得一提的是，指令模型的訓練是在98%的合成數據上完成的。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

結果顯示，Nemotron-4-340B-Base在常識推理任務，如ARC-Challenge、MMLU和BigBench Hard基準測試中，可以和Llama-3 70B、Mixtral 8x22B和Qwen-2 72B模型媲美。

而Nemotron-4-340B-Instruct，在指令跟隨和聊天能力方面也超越了相應的指令模型。

Nemotron-4-340B-Reward在發表時，在RewardBench上實現了最高準確性，甚至超過了GPT-4o-0513和Gemini 1.5 Pro-0514這樣的專有模型。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

在BF16精度下，模型的推理需要8塊H200，或16塊H100/A100 80GB。如果是在FP8精度下，則只需8塊H100。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

除此之外，Nemotron-4 340B還有一個非常顯著的特點——對商用十分友好的許可。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

高級深度學習研究工程師Somshubra Majumdar對此表示大贊：「是的，你可以用它生成你想要的所有數據」

無與倫比的合成數據生成

LLM無法獲得大規模、多樣化標注數據集，怎么破？

Nemotron-4 340B指令模型，可以幫助開發者生成合成訓練數據。

這些多樣化的合成數據，模仿了真實世界的數據特征，因而數據質量明顯提升，從而提升了各領域定制LLM的性能和穩定性。

而且，為了進一步提高AI生成數據的質量，開發者還可以用Nemotron-4 340B 獎勵模型，來篩選高質量的響應。

它會根據有用性、正確性、一致性、復雜性和冗長性這5個屬性，對響應評分。

另外，研究者可以使用自己的專用數據，再結合HelpSteer2數據集，定制Nemotron-4 340B 基礎模型，以創建自己的指令或獎勵模型。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

用NeMo微調，用TensorRT-LLM優化推理

利用開源的NVIDIA NeMo和NVIDIA TensorRT-LLM，開發者可以優化指令模型和獎勵模型的效率，從而生成合成數據，并對響應進行評分。

所有Nemotron-4 340B模型都利用張量并行性經過TensorRT-LLM優化，這種模型并行性可以將單個權重矩陣分割到多個GPU和服務器上，從而實現大規模高效推理。

其中，基礎模型可以使用NeMo框架進行定制，以適應特定的用例或領域。廣泛的預訓練數據使得我們可以對它進行微調，并且為特定的下游任務提供更準確的輸出。

通過NeMo框架，英偉達提供了多種定制方法，包括監督微調和參數高效微調方法，如低秩適應（LoRA）。

為了提高模型質量，開發者可以使用NeMo Aligner和由Nemotron-4 340B獎勵模型標注的數據集來對齊模型。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

在各行業的潛在影響：從醫療到金融及其他領域

顯然，Nemotron-4 340B對各行業的潛在影響是巨大的。

在醫療領域，如果能生成高質量合成數據，可能會帶來藥物發現、個性化醫療和醫學影像方面的突破。

在金融領域，基于合成數據訓練的定制大語言模型，則可能會徹底改變欺詐檢測、風險評估和客戶服務。

在制造業和零售業方面，特定領域的LLM可以實現預測性維護、供應鏈優化和個性化客戶體驗。

不過，Nemotron-4 340B的發布，也提出了一些隱憂，比如數據隱私和安全怎樣保證？

隨著以后合成數據的普及，企業是否有防護措施來保護敏感信息，并防止濫用？

如果用合成數據訓練AI模型，是否會引發倫理問題，比如數據中的偏見和不準確可能引發意料外的后果？

但至少在目前，越來越多跡象表明，只有合成數據才是未來。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

預訓練

下面，我們就來看看，英偉達都提出了哪些創新的方法：

數據

預訓練數據是基于三種不同類型的混合，共有9T token。其中，前8T用于正式預訓練階段，最后1T用于繼續預訓練階段。

英語自然語言（70%）：由不同來源和領域的精選文檔組成，包括網頁文檔、新聞文章、科學論文、書籍等。
多語種自然語言（15%）：包含53種自然語言，由單語語料庫和平行語料庫中的文檔構成。
代碼（15%）：包含43種編程語言。

架構

與Nemotron-4-15B-Base類似，Nemotron-4-340B-Base基于的也是僅解碼器Transformer架構。

具體來說，模型使用因果注意力掩碼來確保序列的一致性，并采用旋轉位置嵌入（RoPE）、SentencePiece分詞器、分組查詢注意力（GQA），以及在MLP層中使用平方ReLU激活。

此外，模型沒有偏置項，丟棄率為零，輸入輸出嵌入不綁定。

模型超參數如表1所示，有94億個嵌入參數和3316億個非嵌入參數。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

訓練

?

Nemotron-4-340B-Base使用768個DGX H100節點進行訓練，每個節點包含8個基于NVIDIA Hopper架構的H100 80GB SXM5 GPU。

每個H100 GPU在進行16位浮點（BF16）運算時，峰值吞吐量為989 teraFLOP/s（不含稀疏運算）。

英偉達采用了8路張量并行、12路交錯流水線并行和數據并行相結合的方法，并使用了分布式優化器，將優化器狀態分片到數據并行副本上，以減少訓練的內存占用。

表2總結了批大小增加的3個階段，包括每次迭代時間，以及GPU利用率（MFU）等，其中100%是理論峰值。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

評估

?

在這一部分，我們報告了 Nemotron-4-340B-Base 的評估結果。我們將該模型

表3是Nemotron-4-340B-Base與Llama-3 70B、Mistral 8x22和Qwen-2 72B三款開源模型的比較結果。

可以看到，Nemotron-4-340B-Base在常識推理任務以及像BBH這樣的流行基準測試中拿下了SOTA，并在MMLU和HumanEval等代碼基準測試中位列第二。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

對齊

獎勵模型構建

獎勵模型在模型對齊中起著至關重要的作用，是訓練強指令跟隨模型時用于偏好排序和質量過濾的重要評判者。

為了開發一個強大的獎勵模型，英偉達收集了一個包含10k人類偏好數據的數據集——HelpSteer2。

與成對排名模型不同，多屬性回歸獎勵模型在區分真實有用性和無關偽影（如僅因長度而偏好較長但無用的回復）方面更有效。此外，回歸模型在預測細粒度獎勵、捕捉相似回復之間的有用性細微差別方面表現更好。

回歸獎勵模型建立在Nemotron-4-340B-Base模型之上，通過用一個新的獎勵「頭」替換模型的最終softmax層。

這個「頭」是一個線性投影，將最后一層的隱藏狀態映射到一個包含HelpSteer屬性（有用性、正確性、一致性、復雜性、冗長性）的五維向量。

在推理過程中，這些屬性值可以通過加權求和聚合為一個總體獎勵。

數據對齊

值得注意的是，在整個對齊過程中，英偉達僅使用了大約20K的人工標注數據，而數據生成管線則生成了用于監督微調和偏好微調的98%以上的數據。

提示生成準備

生成合成提示，是合成數據生成（SDG）的第一步。

這些提示在不同維度上的多樣性至關重要，包括任務多樣性（如寫作、開放問答、封閉問答）、主題多樣性（如STEM、人文、日常生活）和指令多樣性（如JSON輸出、段落數量、是或否回答）。

對此，英偉達使用Mixtral-8x7B-Instruct-v0.1作為生成器，分別對這些任務的合成提示進行了生成。

單輪合成提示

為了收集多樣化的主題，英偉達先引導生成器輸出一組多樣化的宏觀主題，然后再為每個合成的宏觀主題生成相關的子主題。

加上人工收集的，最終得到的主題達到了3K個。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

用于合成提示生成的提示如下：

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

合成指令跟隨提示

為了提升對于對齊模型至關重要的指令跟隨能力，就需要生成合成的指令跟隨提示（例如，「寫一篇關于機器學習的文章，你的回答應包含三個段落」）。

具體來說，先隨機選擇一些合成提示。對于每個合成提示，從「可驗證」指令模板中隨機生成一個合成指令（例如，「你的回答應包含三個段落」）。然后，使用手動定義的模板將提示和指令連接在一起。

除了單輪指令跟隨提示外，英偉達還構建了多輪指令跟隨提示，這些指令適用于所有未來的對話（例如「根據以下指令回答問題和所有后續問題：[指令開始]用三個段落回答。[指令結束]」）。

此外，英偉達還構建了第二輪指令跟隨提示，可以根據給定的指令修改之前的回答。

合成兩輪提示

為了在偏好微調中提高模型的多輪對話能力，英偉達構建了兩輪提示來建立偏好數據集。

具體來說，提示包含一個用戶問題，一個助手回答，和另一個用戶問題，形式為「用戶：XXX；助手：XXX；用戶：XXX；」。

英偉達從ShareGPT中獲取第一個用戶提示，并使用中間指令模型生成助手回答和下一輪問題。

真實世界的LMSYS提示

為了更好地模擬真實世界的用戶請求，英偉達將LMSYS-Chat-1M中的提示按平衡比例進行組合，并將其分為兩個不同的集合，一個用于監督學習，另一個用于偏好學習。

在監督學習部分，英偉達移除了LMSYS中被標記為潛在不安全的提示，以避免引發不良對話。但在偏好學習部分則進行了保留，以便模型能夠學習如何區分安全和不安全的響應。

從圖3中可以看到，合成提示的平均有用性高于LMSYS提示。由于簡單提示更容易「有用」，這意味著LMSYS提示比合成單輪提示平均來說更難且更復雜。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

合成對話生成

通過監督微調，模型就可以學習到，如何以對話形式與用戶互動。

英偉達通過提示指令模型生成基于輸入提示的響應，來啟動合成對話。

為了培養多輪對話能力，他們把每個對話設計成包含三輪，好讓對話流程更加動態、更有互動性。

通過迭代角色扮演，模型會交替模擬助手和用戶的角色。

英偉達發現，為了在用戶回合中引導所需的行為，就需要提供明確的提示來定義不同的用戶個性。

并且，附上對話歷史是至關重要的。

他們對用戶回合進行了后處理，排除了禮貌陳述（如「謝謝你...」，「當然，我很高興...」）來模擬真實世界的用戶問題。

生成演示數據，是采用的貪婪采樣方法。

此外，英偉達會使用Nemotron4-340B-Reward評估對話質量，為每個樣本分配一個分數，并過濾掉那些低于預定閾值的樣本。

這就提供了額外的質量控制層，保證保留下來的都是高質量數據。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

合成偏好數據生成

英偉達使用了10K人工標注的HelpSteer2偏好數據，來訓練Nemotron-4-340B-Reward。

不過，他們還需要具有更廣泛提示領域、更高質量響應的偏好數據，這些響應來自頂級的中間模型，并在可能的情況下包含額外的真實信號。

因此，英偉達生成了三元組形式的合成偏好數據（提示，選擇的響應，被拒絕的響應）。

生成響應

偏好數據包含合成的單輪提示、指令跟隨提示、雙輪提示，以及來自真實世界的提示，包括ShareGPT提示、LMSYS提示、GSM8K和MATH訓練數據集中的提示。

對于每個提示，英偉達都使用了隨機的中間模型生成響應。

通過多個模型生成響應，就能確保偏好數據集具有多樣化的響應，以供模型學習。

此外，他們還生成了更具挑戰性的合成偏好示例，這些示例是根據MT-Bench從表現最好的模型中多次隨機生成的響應，這樣就可以進一步提升模型的性能。

以基準真相作為判斷標準

對于每個提示給出的多個響應，英偉達都需要對其偏好排序進行判斷，并選擇出被選中的響應和被拒絕的響應。

一些任務可以使用基準真相（例如GSM8K和MATH訓練數據集中的答案）或驗證器（例如指令跟隨響應可以用 Python程序驗證）來評估。

以LLM/獎勵模型為裁判

大多數提示，是沒有客觀答案的。因此，英偉達嘗試了以大語言模型為裁判和以獎勵模型為裁判。

在第一種情況中，英偉達向裁判的大語言模型提供提示和兩個響應，并要求其比較這兩個響應。

為了避免位置偏差，他們會交換響應順序后，再次詢問大語言模型。當大語言模型兩次判斷一致時，就會選出有效的三元組（提示、被選中的、被拒絕的）。

另外，為了進一步探索了以獎勵模型為裁判的情況，英偉達要求Nemotron-4-340B-Reward 預測每個（提示、響應）對的獎勵，并根據獎勵決定偏好排序。

獎勵基準得分顯示以，獎勵模型為裁判的準確性，要高于以大語言模型為裁判。

特別是在Chat-Hard類別中，選擇的響應和被拒絕的響應難以區分，以獎勵模型為裁判的表現，要遠優于以大語言模型為裁判，平均準確率為0.87對0.54。

在這個過程中，英偉達注意到：Chat-Hard類別的評分對于合成數據生成中的偏好排序特別重要。

因此，在后來的數據集迭代中，他們轉而使用以獎勵模型為裁判。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

從弱到強的迭代對齊

如前所述，高質量的數據對于模型的對齊至關重要。

在數據合成過程中，需要一個對齊的大語言模型來準確遵循指令。

這就引發了一系列重要的問題：哪個模型最適合作為生成器？生成器的強度與數據質量之間有何關系？如何改進數據生成器？

受到弱到強泛化的啟發，英偉達開發了一種新穎的迭代方法，逐步優化數據。這種方法結合了對齊訓練與數據合成的優勢，使它們能夠相互增強，并且持續改進。

圖4展示了從弱到強的迭代對齊的工作流程。

首先，使用一個初始對齊模型來生成對話和偏好數據。然后，通過監督微調和偏好調優，利用它們對更好的基礎模型進行對齊。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

有趣的是，英偉達發現，教師模型并不會限制學生模型的上限——

隨著基礎模型和對齊數據的改進，新對齊的模型能夠顯著超過初始對齊模型。注意，對齊過程與基礎模型的預訓練是并行進行的。

在第一次迭代中，英偉達選擇了Mixtral-8x7B-Instruct-v0.1作為初始對齊模型，因為它是一個具有許可的強大模型。

生成的數據用于訓練Nemotron-4-340B-Base的一個中間檢查點，稱為340B-Interm-1-Base。

值得注意的是，340B-Interm-1-Base的表現優于Mixtral 8x7B基礎模型，這反過來使得最終的340B-Interm-1-Instruct模型，能夠超過Mixtral-8x7B-Instruct-v0.1模型。

這就證明，可以通過弱監督引出模型強大的能力。

在第二次迭代中，英偉達使用生成的340B-Interm-1-Instruct模型，作為新的數據生成器。

由于它比Mixtral-8x7B-Instruct-v0.1更強，第二次迭代生成的合成數據質量就更高。

生成的數據用于訓練340B-Interm-2-Base模型，使其升級為340B-Interm-2-Chat模型。

這個迭代過程形成了一個自我強化的飛輪效應，改進主要來自兩個方面——

(1）當使用相同的數據集時，基礎模型的強度直接影響指令模型的強度，基礎模型越強，指令模型也越強；

(2）當使用相同的基礎模型時，數據集的質量決定了指令模型的效果，數據質量越高，指令模型也越強。

在整個對齊過程中，英偉達進行了多輪數據生成和改進，不斷提升模型的質量。

附加數據源

此外，英偉達還結合了多個補充數據集，以賦予模型特定的能力。

主題跟隨

主題連貫性和細粒度指令跟隨是，指令模型的重要能力。

因此，英偉達結合了CantTalkAboutThis訓練集，其中包括了覆蓋廣泛主題的合成對話，并故意插入干擾回合以分散聊天機器人對主要主題的注意力。

這就能幫助模型，在任務導向的交互中更好地專注于預定的主題。

無法完成的任務

某些任務可能由于需要特定的能力（如互聯網訪問或實時知識）而無法由模型獨立完成。

為減少這種情況下的幻覺，英偉達采用少樣本方法，使用人類編寫的示例來提示大語言模型生成各種問題。

然后，他們會明確要求大語言模型以拒絕的方式回應，收集這些回應，并將其與相應的問題配對。

這些配對數據就可以用于訓練模型，讓它們能夠更好地處理無法完成的任務。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

STEM數據集

Open-Platypus已被證明可以提高STEM和邏輯知識。因此，英偉達將具有許可的子集（如PRM800K、SciBench、ARB 、openbookQA）納入訓練數據中。

基于文檔的推理和問答

基于文檔的問答是大語言模型的重要用例。

英偉達利用FinQA數據集提高了數值的推理能力，使用人工標注數據提高了上下文問答的準確性，并使用 wikitablequestions數據集，增強了模型對半結構化數據的理解。

函數調用

此外，英偉達還使用了一部分來自Glaive AI的樣本，以增強模型在函數調用方面的能力。

對齊算法

分階段的監督微調

監督微調（Supervised Fine-tuning，SFT）是模型對齊的第一步。

為了改善傳統SFT方法存在的缺陷，英偉達設計了一種兩階段的SFT策略，使模型能夠依次、有計劃地學習不同的行為。

結果顯示，這種方法在所有下游任務中都產生了更好的效果。

代碼SFT

為了在不影響其他任務的情況下提高編碼和推理能力，英偉達選擇先在編碼數據上進行SFT。

為了獲得大量的數據，英偉達開發了一種名為Genetic Instruct的全新方法——通過對進化過程的模擬，利用自我指令和向導編碼器突變，從少量高質量種子生成大量合成樣本。

過程中，英偉達還引入了一種適應度函數，利用LLM評估生成指令及其解決方案的正確性和質量。

然后，通過這些評估和檢查的樣本會被添加到種群池中，進化過程會持續進行，直到達到目標種群規模。

最終，經過廣泛的去重和過濾后，英偉達保留了大約80萬條樣本用于代碼SFT訓練。

通用SFT

第二階段，就是通用SFT了。

這里，英偉達采用的是一個包含20萬樣本的混合數據集。

為了減輕遺忘的風險，數據混合中還包括了前一個代碼SFT階段的2%的代碼生成樣本。

偏好微調

在完成監督微調后，英偉達繼續通過偏好微調來改進模型。

在這個階段，模型將學習偏好示例，其形式是：提示，選擇的響應，被拒絕的響應。

直接偏好優化（DPO）

DPO算法通過優化策略網絡，來最大化選擇和被拒絕響應之間的隱含獎勵差距。

在策略學習區分選擇和被拒絕的響應時，可以觀察到，隨著差距的增加，選擇和被拒絕響應的概率都在一致地下降，即使選擇的響應是高質量的。

根據經驗，當訓練時間足夠長時，策略網絡容易過擬合，一個指標（例如，MT-Bench）的改進通常伴隨著其他指標（例如，零樣本MMLU）的退化。

為了解決這些問題，英偉達在選擇的響應上添加了加權的SFT損失，以補充原始的DPO損失。

額外的SFT損失有助于防止策略網絡大幅偏離偏好數據，特別是因為偏好數據不是從參考策略生成的。

為了避免模型學習低質量的選擇響應，當沒有可用的真實值時，英偉達使用了Nemotron-4-340B-Reward來挑選高質量的選擇響應示例。最終，這產生了一個包含16萬示例的偏好數據集。

獎勵感知偏好優化（RPO）

為了解決DPO存在的過擬合問題，英偉達提出了一種新算法——獎勵感知偏好優化（RPO）。它嘗試使用由策略網絡定義的隱含獎勵近似獎勵差距。

基于此，便得到了一個新的損失函數：

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

結果顯示，隨著RPO迭代次數的增加，模型還可以持續地在所有任務上獲得提升。

經過三次RPO訓練迭代后的檢查點，就是最終的Nemotron-4-340B-Instruct。

指令模型評估

自動基準測試

英偉達對Nemotron-4-340B-Instruct進行了全面的自動基準測試評估：

單輪對話：AlpacaEval 2.0 LC和Arena Hard
多輪對話：MT-Bench（GPT-4-Turbo）。需要注意的是，這是原始MT-Bench的修正版本，得分平均要低0.8分。
綜合基準測試：MMLU（零樣本）
數學：GSM8K（零樣本）
代碼：HumanEval（零樣本）和 MBPP（零樣本）上的Pass@1得分
指令跟隨：IFEval
主題跟隨：TFEval

正如表5所示，Nemotron-4-340B-Instruct在當前可用的開源模型中表現出色，具備很強的競爭力。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

對齊訓練包括：代碼SFT、通用SFT、DPO和三輪RPO。

表6展示了模型最終的成績，并量化了每個對齊階段的中間模型的性能：

CodeSFT階段顯著提高了HumanEval得分，從基礎模型的57.3提升到70.7；
接下來的通用SFT階段大幅提升了其他類別的準確性，如MT-Bench和MMLU，盡管HumanEval得分略有下降；
DPO階段進一步提升了大多數指標，但MT-Bench的得分略有下降；
最后的RPO階段均勻地提升了所有指標。特別是，MT-Bench得分從7.90增加到8.22，IFEval Prompt-Strict-Acc的得分從61.7增加到79.9。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

人類評估

除了自動評估外，英偉達模型進行了人類評估。其中，標注員被提供了136個提示，分為10個不同的任務類別。

基于「有用性」和「真實性」這兩個維度，英偉達詳細定義了5個質量等級的具體內容，從而在減少了主觀性的同時，提升了可靠性。

在標注設計中，每個提示都與固定模型集合中的三個不同響應配對。每個提示的響應順序是隨機的，所有提示和響應都由同一組標注員進行評估。

標注完成后，將評分轉換為相對于GPT-4-1106-preview的相對勝/平/負率。

從圖5中可以看到，除了提取和重寫任務外，Nemotron-4-340B-Instruct的勝率與GPT-4-1106-preview相當或更好，特別是在多輪對話中表現出色。

整體來說，Nemotron-4-340B-Instruct的勝：平：負比率為28.19%：46.57%：25.24%。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

從表7中則可以看到，與GPT-4-1106-preview相比，標注員認為Nemotron-4-340B-Instruct的響應長度更為合適（79.41%對74.02%）。

值得注意的是，這一優勢主要來自較低的長/冗長響應率（20.10%對25.74%）。

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

作者

英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o-AI.x社區

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/TTU387lxT_MgcCmxmrqy7A??

標簽

贊

收藏

回復

舉報

回復

相關推薦

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！

大語言模型論文跟蹤 ? 1.1w瀏覽 ? 0回復
合成數據：解鎖通用人工智能的“關鍵之鑰”？

Baihai_IDP ? 3364瀏覽 ? 0回復
對標GPT-4o！不鎖區、支持手機、免費使用，Moshi來啦！

Aceryt ? 4241瀏覽 ? 0回復
開源模型王座一夜易主，GPT-4o被超越

duhorse ? 3236瀏覽 ? 0回復
最強GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 4468瀏覽 ? 0回復
英偉達最強勁敵Groq一招絕殺GPU，反超GPT-4o mini2倍，AI大佬Karpathy：直接飛升AGI!

51CTO技術棧 ? 3522瀏覽 ? 0回復
阿里史上最大規模開源發布，超GPT-4o 、Llama-3.1！

Aceryt ? 3488瀏覽 ? 0回復
擊敗GPT-4o、僅次于o1！英偉達重磅開源超強大模型--Nemotron

Aceryt ? 4514瀏覽 ? 0回復
英偉達出手即王炸！重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術棧 ? 3219瀏覽 ? 0回復
超GPT-4o，1240億參數！最強開源多模態模型 Pixtral Large！

Aceryt ? 3900瀏覽 ? 0回復
Pixtral Large：124B的最強開源多模態大模型

kede96 ? 4540瀏覽 ? 0回復
8B參數媲美GPT-4o mini | 英偉達&MIT等發布NVILA：前沿高效

angel ? 5113瀏覽 ? 0回復
微軟發布Phi-4，最強小模型！參數極小、超GPT-4o

Aceryt ? 3766瀏覽 ? 0回復
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 3836瀏覽 ? 0回復
LLM合集：MiniMax-01 開源，性能比肩 GPT-4o，上下文窗口領先 20-32 倍

AIPaperDaily ? 4623瀏覽 ? 0回復
英偉達全力發展AI Agent！開源專屬大模型，最強AI工廠

Aceryt ? 3151瀏覽 ? 0回復
英偉達開源通用機器人大模型—GR00T N1

Aceryt ? 3120瀏覽 ? 0回復
清華發布GLM 4！32B參數模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 5334瀏覽 ? 0回復
統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型，多項SOTA，效果炸裂！

zhangyannni ? 2535瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek第五天開源猛料，3FS并行文件系統榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發現堪稱性價比之王！ 0回復

上一篇： GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界

下一篇：陶哲軒最新采訪：AI將顛覆數學界！用Lean規?；?，成百上千條定理一次秒殺

社區精華內容

目錄

2021久久国产精品不只是精品| 91青青国产在线观看精品| 亚洲超碰97人人做人人爱| 久久99精品久久久久子伦| 精品国产www| 欧美激情视频一区二区三区免费| 日韩av在线影院| 鲁一鲁一鲁一鲁一av| 日韩三级电影视频| 欧美国产精品专区| 成人久久18免费网站漫画| 国产精品人人人人| 亚洲激情久久| 永久免费毛片在线播放不卡| 精人妻一区二区三区| 91国拍精品国产粉嫩亚洲一区| 亚洲免费观看高清完整版在线 | 欧美中日韩在线| 九色在线观看| 成人aaaa免费全部观看| 91精品美女在线| 无码人妻av免费一区二区三区| 欧美福利影院| 中文字幕亚洲综合久久| 亚洲欧美在线不卡| 91大神精品| 欧美一区二区三区公司| 免费裸体美女网站| 欧美三级网站| 亚洲福利视频三区| 四虎永久免费网站| 9色在线视频网站| 久久久综合九色合综国产精品| yellow视频在线观看一区二区| 中文字幕久久网| 久久激情视频| 欧美亚洲国产日韩2020| 国产小视频在线看| 中文在线播放一区二区| 视频在线观看一区二区| 99久久人妻无码精品系列| 私拍精品福利视频在线一区| 亚洲韩国日本中文字幕| 蜜臀视频在线观看| 中文一区二区三区四区| 日韩精品一区二区三区swag | 欧美男人亚洲天堂| 亚洲精品欧洲| 性欧美长视频免费观看不卡| 久久久精品一区二区涩爱| 亚洲色图88| 久久精品国产亚洲7777| 中文字幕乱码av| 99国产精品免费视频观看| 在线日韩日本国产亚洲| 亚洲精品视频网址| 日韩伦理一区| 久久天堂av综合合色| 小早川怜子一区二区的演员表| 91麻豆精品国产91久久久平台| 日韩中文第一页| 亚洲欧洲综合网| 久久精品久久久| 久精品免费视频| 久久亚洲国产成人精品性色| 精品成人国产| 欧洲日韩成人av| 国产精品午夜一区二区| 久久99久久精品| 91在线视频导航| 丰满熟妇人妻中文字幕| av在线不卡电影| 欧美成人dvd在线视频| 国产福利在线观看| 中文字幕一区av| 亚洲中文字幕无码一区二区三区| 国产盗摄精品一区二区酒店| 欧美日韩亚洲系列| 五月天婷婷激情视频| 亚洲在线资源| 亚洲第一网站免费视频| 日本乱子伦xxxx| 亚洲国产成人精品女人| 午夜伦理精品一区| 在线观看你懂的网站| 韩国av一区二区三区| 国产日韩三区| 国产精品影院在线| 亚洲一区二区三区中文字幕| 欧洲av无码放荡人妇网站| 亚洲日本中文| 亚洲精品v欧美精品v日韩精品| 久久精品—区二区三区舞蹈| 欧美高清一区| 国产精品18久久久久久首页狼| 国产三级第一页| 91在线精品秘密一区二区| 亚洲图色在线| 日韩影院在线| 日韩欧美在线影院| 欧美三级视频网站| 亚洲高清久久| 91精品在线国产| 九九在线视频| 午夜伊人狠狠久久| 男女视频在线观看网站| 国产探花一区| 国产69精品久久久久9| 伊人网av在线| 91麻豆swag| 免费人成自慰网站| 亚洲狼人在线| 亚洲午夜国产成人av电影男同| 久久免费视频精品| 国产在线视频一区二区三区| 欧美日韩精品综合| free性m.freesex欧美| 欧美男人的天堂一二区| 熟女高潮一区二区三区| 日韩视频一区二区三区在线播放免费观看 | 韩国成人一区| 主播国产精品| 91精品国产一区二区| 91精品久久久久久久久久久久| 99精品视频免费| 97免费资源站| 在线中文字幕视频观看| 欧美精品久久天天躁| 成人片黄网站色大片免费毛片| 亚洲国产日本| 国产精品一区二区三区不卡| 在线观看的网站你懂的| 91精品国产一区二区三区蜜臀 | 国产午夜一区| 日韩美女在线看| 日本a一级在线免费播放| 五月婷婷久久综合| 国产真实乱人偷精品| 韩国一区二区三区在线观看| 成人激情春色网| 黄色网在线免费看| 91精品国产综合久久蜜臀| 午夜精品久久久久99蜜桃最新版| 久久精品国产精品青草| 亚洲欧洲日本国产| 91精品福利观看| 久久精品国产2020观看福利| 亚洲在线免费观看视频| 亚洲人亚洲人成电影网站色| 成人亚洲免费视频| 欧美色一级片| 国产综合第一页| 在线手机中文字幕| 亚洲偷熟乱区亚洲香蕉av| 欧美一级黄视频| 中文字幕一区三区| 无码人妻丰满熟妇区毛片蜜桃精品 | 少妇高潮av久久久久久| 久久免费电影网| 色播五月综合网| 亚洲国产一区二区三区在线播放 | 黄色av网址在线| 亚洲成a人v欧美综合天堂下载 | 欧美三级美国一级| 成人妇女免费播放久久久| 在线观看中文字幕的网站| 精品欧美一区二区在线观看| 波多野结衣国产| 日本一区二区三区高清不卡 | 91精品国产综合久久久蜜臀九色| 久久亚区不卡日本| 九九九九九国产| 国产一在线精品一区在线观看| 精品亚洲欧美日韩| 日韩高清不卡| 美女少妇精品视频| 色婷婷视频在线| 色999日韩国产欧美一区二区| 青青青视频在线免费观看| 国产精品一区二区三区四区| 大j8黑人w巨大888a片| 国产欧美日韩在线一区二区| 91嫩草视频在线观看| 成人免费网站视频| 久热国产精品视频| 四虎国产精品永远| 337p亚洲精品色噜噜狠狠| 伊人国产在线观看| 中文字幕+乱码+中文字幕一区| 特种兵之深入敌后| 巨乳诱惑日韩免费av| 18视频在线观看娇喘| 小说区图片区色综合区| 亚洲综合中文字幕68页| 老司机成人影院| 久99久在线视频| 岛国视频免费在线观看| 精品少妇一区二区三区| 国产91av在线播放| 精品欧美激情精品一区| 午夜精品一区二区三级视频| 久久亚洲综合色| 国产成人av免费观看| 日韩成人一区二区三区在线观看| 欧美黑人在线观看| 天天精品视频| 任我爽在线视频精品一| 中文字幕日韩高清在线| 国产在线视频一区| 黄色成人免费网| 欧美激情女人20p| 黄色av免费在线| 中文字幕欧美精品在线| 男同在线观看| 亚洲精品国产欧美| 性一交一乱一伧老太| 欧美人伦禁忌dvd放荡欲情| 亚洲欧美另类在线视频| 亚洲国产综合91精品麻豆| 懂色av粉嫩av蜜臀av一区二区三区| 久久一区二区三区国产精品| 性囗交免费视频观看| 国产成人在线视频网址| 加勒比av中文字幕| 秋霞午夜鲁丝一区二区老狼| 无码人妻精品一区二区三区在线| 狠狠干成人综合网| 欧美美女黄色网| 亚洲精品网址| 中文字幕成人一区| 久久亚洲在线| 一道精品一区二区三区| 欧美一级精品片在线看| 日本一区二区三区免费观看| 亚洲免费成人av在线| 欧美二级三级| 免费视频国产一区| 蜜桃视频在线观看91| 亚洲人成网77777色在线播放| 国产在线一区二区三区播放| 大奶一区二区三区| 国产一区二区精品免费| 农村少妇一区二区三区四区五区| 国产精品免费一区二区| 久久这里只有精品一区二区| 国内精品二区| 五月综合久久| 日本一区二区三区四区高清视频| 九九视频免费观看视频精品 | 欧美在线黄色| 六月婷婷激情综合| 亚洲免费精品| 午夜欧美福利视频| 六月婷婷色综合| 亚洲黄色片免费看| 国产.精品.日韩.另类.中文.在线.播放 | 最新欧美电影| 国产精品自产拍在线观| 91视频成人| 成人欧美一区二区三区黑人免费| 大陆精大陆国产国语精品| 精品一区久久| 成人女性视频| wwwjizzjizzcom| 一本久久综合| 538任你躁在线精品免费| 黄色资源网久久资源365| 欧美午夜精品一区二区| www欧美成人18+| 来吧亚洲综合网| 亚洲一区二区高清| 中文字幕在线天堂| 7777女厕盗摄久久久| 亚欧在线观看视频| 在线国产精品视频| 色女人在线视频| 日本精品免费观看| 精品视频在线观看免费观看| 国产精品一区二区三区精品| 精品视频日韩| 波多野结衣与黑人| 视频一区在线播放| 中文字幕乱码在线人视频| 91视频观看视频| 杨钰莹一级淫片aaaaaa播放| 亚洲成av人片观看| 91国产免费视频| 亚洲精品ady| caoporn97在线视频| 欧洲精品久久久| 三级欧美日韩| 天堂精品视频| 99视频精品| 中文字幕在线视频精品| 久久人人97超碰com| 欧美三级日本三级| 欧美亚洲日本一区| 少妇又色又爽又黄的视频| 日韩亚洲第一页| 波多视频一区| 国产精品区一区二区三在线播放| 精品久久影院| 国产网站免费在线观看| 国产一区久久久| 黄色片在线观看免费| 亚洲va欧美va人人爽午夜| 国产伦精品一区二区三区四区| 亚洲欧美精品伊人久久| 免费看电影在线| 91影院在线免费观看视频| 精品久久视频| 国产一区视频免费观看| 白白色亚洲乱淫| 欧美日韩精品一区二区三区视频播放| 欧美图区在线视频| 国内在线免费高清视频| 久久久久久中文字幕| 成人污版视频| 亚洲毛片aa| 奇米色一区二区三区四区| 精品国产av无码| 好吊成人免视频| 欧美熟妇乱码在线一区| 欧美激情a在线| 亚洲精品在线播放| 国产91porn| 国产一区三区三区| 极品色av影院| 欧美日韩国产首页| 777电影在线观看| 国产精品成久久久久三级| 精品国产一区二区三区久久久樱花| 成人av一级片| 91蜜桃免费观看视频| 偷偷操不一样的久久| 亚洲国产精品系列| 免费h在线看| 欧美激情第一页在线观看| 一区二区日本视频| 久久丫精品国产亚洲av不卡| 懂色av中文一区二区三区天美| 人妻一区二区三区四区| 91av在线网站| 最近国产精品视频| 妓院一钑片免看黄大片| 亚洲国产精品v| 一本久道久久综合无码中文| 日韩在线不卡视频| 日韩av综合| 欧美在线一区视频| 久久综合久久鬼色| 一级片在线免费播放| 日韩中文理论片| 免费观看亚洲天堂| 欧洲精品一区二区三区久久| 99riav一区二区三区| 免费污污视频在线观看| 色多多国产成人永久免费网站| **国产精品| www插插插无码免费视频网站| 99久久伊人精品| 69视频免费看| 久久亚洲精品一区二区| 福利欧美精品在线| 国产精品视频一区二区三区四区五区| 国产欧美精品一区| 国产伦子伦对白视频| 97精品免费视频| 欧美精品一区二区久久| 亚欧精品在线视频| 亚洲成av人片在线观看| av播放在线| 国产高清精品一区| 天堂va蜜桃一区二区三区漫画版| 91无套直看片红桃在线观看| 日韩欧美一区电影| 免费观看一级欧美片| 丰满女人性猛交| 91在线观看地址| 在线观看免费高清视频| 欧美国产欧美亚洲国产日韩mv天天看完整| 天堂av一区二区三区在线播放| 日韩精品你懂的| 婷婷成人综合网| 在线国产91| 精品欧美一区二区精品久久| 另类小说欧美激情| 日本一本高清视频| 日韩视频在线观看免费| 久久中文资源| 国产91在线免费观看| 91成人看片片| jizz一区二区三区| 一级黄色免费在线观看| 久久免费美女视频| 亚洲男女视频在线观看| 国产精品美乳在线观看| 国产日韩高清一区二区三区在线| 操她视频在线观看| 亚洲乱码国产乱码精品精天堂|