Mistral AI發(fā)布Mistral Small 3.2:指令執(zhí)行更精準(zhǔn),重復(fù)更少,功能調(diào)用更強(qiáng)大! 原創(chuàng) 精華
在如今這個(gè)人工智能飛速發(fā)展的時(shí)代,大語言模型(LLMs)正以前所未有的速度更新?lián)Q代。從最初的簡單對(duì)話生成,到如今能夠處理復(fù)雜指令、參與多領(lǐng)域任務(wù),這些模型正逐漸成為我們生活中不可或缺的助手。然而,隨著應(yīng)用場景的不斷拓展,人們對(duì)于模型的要求也越來越高。我們希望它們能夠減少重復(fù)性錯(cuò)誤,提高魯棒性,同時(shí)在與用戶的交互中更加自然流暢。今天,Mistral AI就帶著它的最新力作——Mistral Small 3.2來滿足我們的這些期待了。
一、精準(zhǔn)指令執(zhí)行,復(fù)雜任務(wù)也能輕松應(yīng)對(duì)
Mistral Small 3.2在執(zhí)行精確指令方面取得了顯著進(jìn)步。在日常使用中,我們常常需要給AI下達(dá)一些微妙而復(fù)雜的指令,比如在數(shù)據(jù)分析時(shí)要求它按照特定的格式提取信息,或者在編程輔助中精確地修改代碼。Mistral Small 3.2就能很好地滿足這些需求。在Wildbench v2指令測(cè)試中,它的準(zhǔn)確率達(dá)到了65.33%,相較于前代的55.6%,有了近10個(gè)百分點(diǎn)的提升。而在更具挑戰(zhàn)性的Arena Hard v2測(cè)試中,性能更是幾乎翻倍,從19.56%躍升至43.1%。這說明它在理解并執(zhí)行復(fù)雜指令方面的能力得到了極大增強(qiáng),能夠更好地適應(yīng)各種復(fù)雜場景下的任務(wù)需求。

二、告別重復(fù),對(duì)話更自然
在長時(shí)間的對(duì)話場景中,重復(fù)輸出一直是困擾大語言模型的一個(gè)問題。試想一下,當(dāng)你和一個(gè)AI聊天,它卻不斷地重復(fù)相同的內(nèi)容,這不僅會(huì)讓對(duì)話變得乏味,還可能影響到一些需要連續(xù)輸出信息的任務(wù),比如撰寫長篇文章或者進(jìn)行復(fù)雜的講解。Mistral Small 3.2在這方面做出了重大改進(jìn),它將無限生成錯(cuò)誤的實(shí)例減少了近一半,從2.11%降低到了1.29%。這意味著在長時(shí)間的交互過程中,用戶可以享受到更加流暢、自然的對(duì)話體驗(yàn),不用擔(dān)心被重復(fù)的內(nèi)容所困擾,大大提升了模型在實(shí)際應(yīng)用中的可用性和可靠性。
三、功能調(diào)用升級(jí),自動(dòng)化任務(wù)更得心應(yīng)手
除了指令執(zhí)行和對(duì)話方面的改進(jìn),Mistral Small 3.2在功能調(diào)用方面也展現(xiàn)出了更強(qiáng)的能力。在當(dāng)今的數(shù)字化世界里,AI與各種軟件功能的結(jié)合越來越緊密,比如在辦公自動(dòng)化中調(diào)用文檔編輯、數(shù)據(jù)分析等功能,在智能家居控制中調(diào)用設(shè)備操作等功能。Mistral Small 3.2通過優(yōu)化功能調(diào)用模板,使得這些操作更加穩(wěn)定可靠。它能夠更準(zhǔn)確地識(shí)別用戶的意圖,并調(diào)用相應(yīng)的功能來完成任務(wù),無論是簡單的數(shù)據(jù)查詢還是復(fù)雜的流程控制,都能輕松應(yīng)對(duì)。這使得它在自動(dòng)化任務(wù)領(lǐng)域具有了更大的潛力,可以更好地融入到各種實(shí)際應(yīng)用場景中,提高工作效率和生活質(zhì)量。
四、STEM領(lǐng)域表現(xiàn)亮眼,技術(shù)實(shí)力更上一層樓
在STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))相關(guān)領(lǐng)域,Mistral Small 3.2也取得了令人矚目的成績。以編程測(cè)試為例,在HumanEval Plus Pass@5代碼測(cè)試中,準(zhǔn)確率從88.99%提升到了92.90%。這表明它在理解代碼邏輯、生成高質(zhì)量代碼方面的能力有了顯著提升,能夠更好地輔助開發(fā)者進(jìn)行編程工作,無論是代碼補(bǔ)全、錯(cuò)誤排查還是算法設(shè)計(jì),都能提供更精準(zhǔn)的建議。同時(shí),在MMLU Pro測(cè)試中,成績也從66.76%提高到了69.06%,GPQA Diamond評(píng)級(jí)也略有提升,從45.96%上升到46.13%。這些數(shù)據(jù)充分證明了Mistral Small 3.2在處理科學(xué)和技術(shù)問題時(shí)的全面性和專業(yè)性,無論是理論知識(shí)的掌握還是實(shí)際問題的解決,都能展現(xiàn)出較高的水平。

五、視覺性能優(yōu)化,細(xì)節(jié)調(diào)整見真章
在視覺相關(guān)任務(wù)方面,Mistral Small 3.2也進(jìn)行了一些優(yōu)化。雖然整體表現(xiàn)略有起伏,但一些關(guān)鍵指標(biāo)仍然有所提升。例如,在ChartQA測(cè)試中,準(zhǔn)確率從86.24%提高到了87.4%,在DocVQA測(cè)試中,成績也從94.08%小幅提升至94.86%。這表明它在理解和處理圖表、文檔等視覺信息方面的能力有所增強(qiáng),能夠更準(zhǔn)確地提取和分析其中的內(nèi)容。不過,也有一些測(cè)試如MMMU和Mathvista出現(xiàn)了輕微的下降,這可能是由于在優(yōu)化過程中需要在不同任務(wù)之間做出一些權(quán)衡。但總體而言,這些優(yōu)化使得Mistral Small 3.2在視覺任務(wù)領(lǐng)域更加適應(yīng)多樣化的應(yīng)用場景,能夠更好地滿足用戶在不同視覺任務(wù)上的需求。
六、總結(jié):可靠之選,開啟復(fù)雜AI任務(wù)新時(shí)代
總的來說,Mistral Small 3.2相較于前代產(chǎn)品,在多個(gè)關(guān)鍵方面都進(jìn)行了有針對(duì)性的改進(jìn)和升級(jí)。它在指令執(zhí)行的精準(zhǔn)度上有了顯著提升,能夠更好地應(yīng)對(duì)復(fù)雜指令;在減少重復(fù)輸出方面取得了重大突破,讓對(duì)話更加自然流暢;在功能調(diào)用的穩(wěn)定性上也有了長足進(jìn)步,為自動(dòng)化任務(wù)提供了更強(qiáng)大的支持;同時(shí)在STEM領(lǐng)域和視覺任務(wù)上也展現(xiàn)出了更強(qiáng)的實(shí)力。這些改進(jìn)使得Mistral Small 3.2成為了復(fù)雜AI驅(qū)動(dòng)任務(wù)中的可靠選擇,無論是在科學(xué)研究、技術(shù)開發(fā)、教育還是日常辦公等各個(gè)領(lǐng)域,都能為用戶提供更加高效、準(zhǔn)確和穩(wěn)定的服務(wù)。隨著它的不斷優(yōu)化和升級(jí),我們有理由相信,Mistral AI將在未來的人工智能應(yīng)用中發(fā)揮更加重要的作用,為我們的生活和工作帶來更多便利和驚喜。
本文轉(zhuǎn)載自???Halo咯咯??? 作者:基咯咯

















