Mistral AI發(fā)布Mistral Small 3.2：指令執(zhí)行更精準(zhǔn)，重復(fù)更少，功能調(diào)用更強(qiáng)大！原創(chuàng) 精華

發(fā)布于 2025-6-25 08:39

瀏覽

0收藏

在如今這個(gè)人工智能飛速發(fā)展的時(shí)代，大語言模型（LLMs）正以前所未有的速度更新?lián)Q代。從最初的簡單對(duì)話生成，到如今能夠處理復(fù)雜指令、參與多領(lǐng)域任務(wù)，這些模型正逐漸成為我們生活中不可或缺的助手。然而，隨著應(yīng)用場景的不斷拓展，人們對(duì)于模型的要求也越來越高。我們希望它們能夠減少重復(fù)性錯(cuò)誤，提高魯棒性，同時(shí)在與用戶的交互中更加自然流暢。今天，Mistral AI就帶著它的最新力作——Mistral Small 3.2來滿足我們的這些期待了。

一、精準(zhǔn)指令執(zhí)行，復(fù)雜任務(wù)也能輕松應(yīng)對(duì)

Mistral Small 3.2在執(zhí)行精確指令方面取得了顯著進(jìn)步。在日常使用中，我們常常需要給AI下達(dá)一些微妙而復(fù)雜的指令，比如在數(shù)據(jù)分析時(shí)要求它按照特定的格式提取信息，或者在編程輔助中精確地修改代碼。Mistral Small 3.2就能很好地滿足這些需求。在Wildbench v2指令測(cè)試中，它的準(zhǔn)確率達(dá)到了65.33%，相較于前代的55.6%，有了近10個(gè)百分點(diǎn)的提升。而在更具挑戰(zhàn)性的Arena Hard v2測(cè)試中，性能更是幾乎翻倍，從19.56%躍升至43.1%。這說明它在理解并執(zhí)行復(fù)雜指令方面的能力得到了極大增強(qiáng)，能夠更好地適應(yīng)各種復(fù)雜場景下的任務(wù)需求。

Mistral AI發(fā)布Mistral Small 3.2：指令執(zhí)行更精準(zhǔn)，重復(fù)更少，功能調(diào)用更強(qiáng)大！-AI.x社區(qū)

二、告別重復(fù)，對(duì)話更自然

在長時(shí)間的對(duì)話場景中，重復(fù)輸出一直是困擾大語言模型的一個(gè)問題。試想一下，當(dāng)你和一個(gè)AI聊天，它卻不斷地重復(fù)相同的內(nèi)容，這不僅會(huì)讓對(duì)話變得乏味，還可能影響到一些需要連續(xù)輸出信息的任務(wù)，比如撰寫長篇文章或者進(jìn)行復(fù)雜的講解。Mistral Small 3.2在這方面做出了重大改進(jìn)，它將無限生成錯(cuò)誤的實(shí)例減少了近一半，從2.11%降低到了1.29%。這意味著在長時(shí)間的交互過程中，用戶可以享受到更加流暢、自然的對(duì)話體驗(yàn)，不用擔(dān)心被重復(fù)的內(nèi)容所困擾，大大提升了模型在實(shí)際應(yīng)用中的可用性和可靠性。

三、功能調(diào)用升級(jí)，自動(dòng)化任務(wù)更得心應(yīng)手

除了指令執(zhí)行和對(duì)話方面的改進(jìn)，Mistral Small 3.2在功能調(diào)用方面也展現(xiàn)出了更強(qiáng)的能力。在當(dāng)今的數(shù)字化世界里，AI與各種軟件功能的結(jié)合越來越緊密，比如在辦公自動(dòng)化中調(diào)用文檔編輯、數(shù)據(jù)分析等功能，在智能家居控制中調(diào)用設(shè)備操作等功能。Mistral Small 3.2通過優(yōu)化功能調(diào)用模板，使得這些操作更加穩(wěn)定可靠。它能夠更準(zhǔn)確地識(shí)別用戶的意圖，并調(diào)用相應(yīng)的功能來完成任務(wù)，無論是簡單的數(shù)據(jù)查詢還是復(fù)雜的流程控制，都能輕松應(yīng)對(duì)。這使得它在自動(dòng)化任務(wù)領(lǐng)域具有了更大的潛力，可以更好地融入到各種實(shí)際應(yīng)用場景中，提高工作效率和生活質(zhì)量。

四、STEM領(lǐng)域表現(xiàn)亮眼，技術(shù)實(shí)力更上一層樓

在STEM（科學(xué)、技術(shù)、工程和數(shù)學(xué)）相關(guān)領(lǐng)域，Mistral Small 3.2也取得了令人矚目的成績。以編程測(cè)試為例，在HumanEval Plus Pass@5代碼測(cè)試中，準(zhǔn)確率從88.99%提升到了92.90%。這表明它在理解代碼邏輯、生成高質(zhì)量代碼方面的能力有了顯著提升，能夠更好地輔助開發(fā)者進(jìn)行編程工作，無論是代碼補(bǔ)全、錯(cuò)誤排查還是算法設(shè)計(jì)，都能提供更精準(zhǔn)的建議。同時(shí)，在MMLU Pro測(cè)試中，成績也從66.76%提高到了69.06%，GPQA Diamond評(píng)級(jí)也略有提升，從45.96%上升到46.13%。這些數(shù)據(jù)充分證明了Mistral Small 3.2在處理科學(xué)和技術(shù)問題時(shí)的全面性和專業(yè)性，無論是理論知識(shí)的掌握還是實(shí)際問題的解決，都能展現(xiàn)出較高的水平。

Mistral AI發(fā)布Mistral Small 3.2：指令執(zhí)行更精準(zhǔn)，重復(fù)更少，功能調(diào)用更強(qiáng)大！-AI.x社區(qū)

五、視覺性能優(yōu)化，細(xì)節(jié)調(diào)整見真章

在視覺相關(guān)任務(wù)方面，Mistral Small 3.2也進(jìn)行了一些優(yōu)化。雖然整體表現(xiàn)略有起伏，但一些關(guān)鍵指標(biāo)仍然有所提升。例如，在ChartQA測(cè)試中，準(zhǔn)確率從86.24%提高到了87.4%，在DocVQA測(cè)試中，成績也從94.08%小幅提升至94.86%。這表明它在理解和處理圖表、文檔等視覺信息方面的能力有所增強(qiáng)，能夠更準(zhǔn)確地提取和分析其中的內(nèi)容。不過，也有一些測(cè)試如MMMU和Mathvista出現(xiàn)了輕微的下降，這可能是由于在優(yōu)化過程中需要在不同任務(wù)之間做出一些權(quán)衡。但總體而言，這些優(yōu)化使得Mistral Small 3.2在視覺任務(wù)領(lǐng)域更加適應(yīng)多樣化的應(yīng)用場景，能夠更好地滿足用戶在不同視覺任務(wù)上的需求。

六、總結(jié)：可靠之選，開啟復(fù)雜AI任務(wù)新時(shí)代

總的來說，Mistral Small 3.2相較于前代產(chǎn)品，在多個(gè)關(guān)鍵方面都進(jìn)行了有針對(duì)性的改進(jìn)和升級(jí)。它在指令執(zhí)行的精準(zhǔn)度上有了顯著提升，能夠更好地應(yīng)對(duì)復(fù)雜指令；在減少重復(fù)輸出方面取得了重大突破，讓對(duì)話更加自然流暢；在功能調(diào)用的穩(wěn)定性上也有了長足進(jìn)步，為自動(dòng)化任務(wù)提供了更強(qiáng)大的支持；同時(shí)在STEM領(lǐng)域和視覺任務(wù)上也展現(xiàn)出了更強(qiáng)的實(shí)力。這些改進(jìn)使得Mistral Small 3.2成為了復(fù)雜AI驅(qū)動(dòng)任務(wù)中的可靠選擇，無論是在科學(xué)研究、技術(shù)開發(fā)、教育還是日常辦公等各個(gè)領(lǐng)域，都能為用戶提供更加高效、準(zhǔn)確和穩(wěn)定的服務(wù)。隨著它的不斷優(yōu)化和升級(jí)，我們有理由相信，Mistral AI將在未來的人工智能應(yīng)用中發(fā)揮更加重要的作用，為我們的生活和工作帶來更多便利和驚喜。

本文轉(zhuǎn)載自???Halo咯咯??? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語言模型

LLMs

Mistral AI

贊

回復(fù)