精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力

發(fā)布于 2024-7-11 09:20
瀏覽
0收藏

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

一、結(jié)論寫在前面

下面介紹的論文來自:電子科技大學(xué)、新加坡科技設(shè)計(jì)大學(xué)、同濟(jì)大學(xué)、新加坡國立大學(xué)。

論文標(biāo)題:Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

論文鏈接:??https://arxiv.org/pdf/2406.17294??

代碼和數(shù)據(jù):??https://github.com/HZQ950419/Math-LLaVA??。

LLMs在文本數(shù)學(xué)問題解決方面展示了令人印象深刻的推理能力。然而,現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每個圖像包含有限的問題-答案對,未能充分利用視覺信息來增強(qiáng)多模態(tài)LLMs(MLLMs)的數(shù)學(xué)推理能力。

為了填補(bǔ)這一空白,論文通過從24個現(xiàn)有數(shù)據(jù)集中收集40K高質(zhì)量圖像及其問題-答案對,并合成320K新對,創(chuàng)建了MathV360K數(shù)據(jù)集,該數(shù)據(jù)集增強(qiáng)了多模態(tài)數(shù)學(xué)問題的廣度和深度。論文引入了基于LLaVA-1.5的Math-LLaVA模型,該模型通過MathV360K進(jìn)行微調(diào)。

這一新穎方法顯著提升了LLaVA-1.5的多模態(tài)數(shù)學(xué)推理能力,實(shí)現(xiàn)了19個百分點(diǎn)的提升,并在MathVista的迷你測試分組上與GPT-4V表現(xiàn)相當(dāng)。此外,Math-LLaVA展示了增強(qiáng)的泛化能力,在MMMU基準(zhǔn)上取得了顯著進(jìn)步。論文的研究強(qiáng)調(diào)了數(shù)據(jù)多樣性和合成在提升MLLMs數(shù)學(xué)推理能力中的重要性。    

二、論文的簡單介紹

2.1 論文的背景

多模態(tài)數(shù)學(xué)推理任務(wù)要求模型解釋多樣化的圖像并應(yīng)用高級推理技能。盡管開源的多模態(tài)大型語言模型(MLLMs)如LLaVA和Mini-GPT4在視覺問答任務(wù)上表現(xiàn)良好,但它們在解決涉及視覺內(nèi)容的復(fù)雜數(shù)學(xué)問題方面仍不及專有的MLLMs。

提升多模態(tài)大型語言模型(MLLMs)數(shù)學(xué)推理能力的兩種常見方法是提示方法和微調(diào)方法。提示方法通過精心設(shè)計(jì)的提示利用MLLMs的潛在能力,而微調(diào)方法則使用從現(xiàn)實(shí)世界或高級LLMs(如GPT-4)生成的合成數(shù)據(jù)中收集的推理數(shù)據(jù)來調(diào)整模型參數(shù)。然而,現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每張圖像包含的問答對數(shù)量有限,未能充分利用視覺信息來增強(qiáng)MLLMs的多模態(tài)數(shù)學(xué)推理能力。

為了填補(bǔ)這一空白,論文從24個現(xiàn)有數(shù)據(jù)集中選取了40K張高質(zhì)量圖像及其對應(yīng)的問答對。這些圖像和問題涵蓋了代數(shù)、算術(shù)、幾何、邏輯、數(shù)值常識、科學(xué)和視覺問答等多個學(xué)科。選取標(biāo)準(zhǔn)基于圖像清晰度和理解復(fù)雜性。此外,論文提出了一種流程,基于這40K張圖像和種子查詢合成320K個新問答對。

2.2 數(shù)據(jù)合成

現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每張圖像包含有限的問答對,未能充分發(fā)掘視覺信息以增強(qiáng)MLLM的多模態(tài)數(shù)學(xué)推理能力。

為此,論文提出MathV360K,一個基于40K精選圖像和多子領(lǐng)域種子問答對合成的強(qiáng)大數(shù)據(jù)集。如圖1左側(cè)所示,論文首先從24個開源多模態(tài)問答數(shù)據(jù)集中,根據(jù)圖像清晰度和理解復(fù)雜度篩選出40K高質(zhì)量數(shù)據(jù)點(diǎn)。在第二步,如圖1右上方所示,論文嘗試充分挖掘圖像的視覺信息以生成額外問題。數(shù)據(jù)生成流程包括創(chuàng)建多樣化的新問題以充分發(fā)掘視覺信息、更復(fù)雜的問題以進(jìn)一步提高推理能力,重述問題和未明確指定的問題以提高模型的魯棒性。通過數(shù)據(jù)生成流程,論文為選定的40K數(shù)據(jù)點(diǎn)收集了36萬條高質(zhì)量且多樣化的指令調(diào)優(yōu)數(shù)據(jù),以增強(qiáng)LLaVA-1.5開源模型的圖像理解和數(shù)學(xué)推理能力。    

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

圖1:提出的多模態(tài)問答數(shù)據(jù)選擇與數(shù)據(jù)增強(qiáng)的整體流程圖。論文的數(shù)據(jù)選擇依賴于微調(diào)后的ViT作為圖像分類器。數(shù)據(jù)生成過程依賴于視覺-語言模型

2.2.1 多模態(tài)推理數(shù)據(jù)選擇

2.2.1.1 源數(shù)據(jù)

論文收集了24個視覺問答和多模態(tài)數(shù)學(xué)推理數(shù)據(jù)集,每個數(shù)據(jù)集針對特定的任務(wù)類型和視覺內(nèi)容。論文聚焦于需要高級推理的五種問題任務(wù)類型來編譯源數(shù)據(jù)集:圖表問答(FQA)、幾何問題解決(GPS)、數(shù)學(xué)文字問題(MWP)、教科書問答(TQA)和視覺問答(VQA)。附錄中的表5展示了每個源數(shù)據(jù)集的任務(wù)類型和視覺內(nèi)容的更多細(xì)節(jié)。

每個多模態(tài)訓(xùn)練樣本包含三個組成部分:一張圖像,一個文本問題,以及一個真實(shí)答案。從這種數(shù)據(jù)格式中,模型旨在捕捉視覺信息和問題語義以推理出最終答案。

2.2.1.2 圖像過濾與比例分配

在獲取24個源數(shù)據(jù)集后,論文根據(jù)以下標(biāo)準(zhǔn)有意識地從原始圖像中選擇數(shù)據(jù):(1)圖像的清晰度,因?yàn)橘|(zhì)量差的圖像會引入噪聲并干擾圖像語義的學(xué)習(xí);(2)圖像的理解復(fù)雜度,從簡單到復(fù)雜不等。通過將圖像分類為不同的復(fù)雜度級別并按比例選擇,論文可以形成一個具有適當(dāng)難度分布的訓(xùn)練集;(3)相應(yīng)文本問題數(shù)據(jù)的質(zhì)量,確保難度與圖像的理解復(fù)雜度相匹配。    

論文微調(diào)了兩個Vision Transformer(ViT)模型,分別用于圖像清晰度和圖像理解復(fù)雜度的分類。由于缺乏標(biāo)注的圖像數(shù)據(jù),論文首先從源數(shù)據(jù)集中均勻且隨機(jī)地采樣了10K張圖像。這些圖像使用GPT-4V(OpenAI)進(jìn)行清晰度和理解復(fù)雜度的標(biāo)注,論文設(shè)計(jì)的提示語如圖2所示。對于圖像清晰度,標(biāo)簽0表示模糊、質(zhì)量差的圖像,標(biāo)簽1表示清晰、質(zhì)量好的圖像。圖像理解復(fù)雜度由對象數(shù)量、它們的位置關(guān)系、是否需要數(shù)學(xué)計(jì)算、細(xì)節(jié)級別、紋理和材質(zhì)屬性決定。圖像被分為0、1、2和3四個評分,評分越低表示視覺上下文理解越容易?;谶@10K張標(biāo)注圖像,論文使用交叉熵?fù)p失訓(xùn)練了兩個ViT模型,并初始化了全連接層進(jìn)行分類。論文首先使用微調(diào)后的圖像清晰度分類器對所有源訓(xùn)練數(shù)據(jù)集圖像進(jìn)行分類,并過濾掉標(biāo)簽為0的圖像。表5顯示了過濾前(即訓(xùn)練圖像)和過濾后(即清晰圖像)的圖像數(shù)量。

接下來,論文使用圖像理解復(fù)雜度分類器對篩選后的圖像進(jìn)行評分。表5顯示,大多數(shù)圖像被分類為中等復(fù)雜度,其次是簡單,最后是最復(fù)雜。考慮到簡單圖像更容易學(xué)習(xí),而復(fù)雜圖像更難且需要更多參考樣本,論文采用從簡單到復(fù)雜的漸進(jìn)比例對前三個復(fù)雜度類別進(jìn)行采樣。由于評分3的圖像最為稀缺,論文收集了所有這些圖像。論文根據(jù)總體復(fù)雜度2:3:4:1的比例選擇了40K數(shù)據(jù)點(diǎn),確保從每個源數(shù)據(jù)集中均勻選擇不同復(fù)雜度的樣本。因此,論文獲得了40K高質(zhì)量(1, Q, A)真實(shí)數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)在圖像信息和問題難度上具有多樣性和漸進(jìn)性。    

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

圖2:論文在GPT-4V API中用于圖像標(biāo)注的提示模板。圖像清晰度被視為二元分類,而圖像理解復(fù)雜度被視為多分類

2.2.2 數(shù)據(jù)增強(qiáng)

2.2.2.1 挖掘圖像以生成QA

在選擇了40K多模態(tài)推理數(shù)據(jù)后,論文觀察到每張圖像通常對應(yīng)有限的問題。如圖1的表格圖像所示,原始問題往往僅關(guān)注局部算術(shù)差異。然而,還可以提出關(guān)于總體平均值、連續(xù)變化等問題,表明僅通過一個問題并未充分利用圖像的視覺信息。因此,論文可以通過為每張圖像生成更多的問題-答案對來進(jìn)一步增強(qiáng)可用真實(shí)數(shù)據(jù)。

論文使用GPT-4V根據(jù)輸入圖像和原始問題生成額外的問題。如果以零樣本方式生成問題,它們往往聚焦于單方面的視覺場景,缺乏推理和數(shù)學(xué)技能。對于來自特定任務(wù)的圖像,如幾何圖形,應(yīng)提出更多任務(wù)特定的問題。因此,論文采用少樣本示范方法讓GPT-4V生成新問題。    

對于屬于某一類別(FQA、GPS、MWP、TQA、VQA)的圖像,論文首先將每個任務(wù)類別內(nèi)的源數(shù)據(jù)集問題內(nèi)部聚類為五個類別。具體來說,使用TF-IDF獲取文本問題的特征,并使用K-Means進(jìn)行聚類。如圖4所示,論文以IconQA為例。在訓(xùn)練集中對問題進(jìn)行聚類后,每個聚類內(nèi)部代表一種特定的提問格式和模式,可供參考。通過從屬于某個任務(wù)類型的每個源數(shù)據(jù)集的每個聚類中隨機(jī)抽取一個問題來構(gòu)建示范。

生成輸入圖像新問題的提示如圖3所示。這種方法確保新生成的問題與原始參考問題的分布一致,同時提高多樣性。通過這種方法,論文基于選定的40K數(shù)據(jù)點(diǎn)生成了200K個新的問題-答案對。

2.2.2.2 原始問題增強(qiáng)

論文設(shè)計(jì)了提示來增強(qiáng)原始問題,如圖5所示。使用GPT-4V,論文生成了40K個更復(fù)雜的問題、40K個簡化的問題和40K個改寫的問題。增強(qiáng)主要集中在以下方面:

復(fù)雜性。更復(fù)雜的推理樣本可以增強(qiáng)微調(diào)LLMs(大型語言模型)的推理能力。論文的第一種方法是在原始圖像和相應(yīng)詢問的基礎(chǔ)上創(chuàng)建更復(fù)雜的問題。

邏輯一致性。魯棒的多模態(tài)大型語言模型(MLLMs)應(yīng)對給定圖像中的相似內(nèi)容提供一致的回答。論文采用GPT-4V,通過不同方式提問相同問題,確保答案不變。    

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

圖3:論文使用的GPT-4V API提示模板為每個輸入圖像生成額外問題。演示通過從每個源數(shù)據(jù)集的每個集群中隨機(jī)抽取一個問題構(gòu)建,以適應(yīng)特定任務(wù)類型

語義欠規(guī)范。魯棒的MLLMs必須處理語義欠規(guī)范問題,即語言信號僅傳達(dá)了成功交流所需的部分信息。因此,論文在不影響與圖像結(jié)合的語義理解的前提下,簡化了原始問題。

2.3 實(shí)驗(yàn)

2.3.1 模型與訓(xùn)練

論文采用LLaVA-1.5架構(gòu)作為基礎(chǔ)模型,主要包含Vicuna-v1.5語言模型(Team, 2023)和預(yù)訓(xùn)練的Vision Transformer(ViT)作為圖像編碼器。為了保持基礎(chǔ)模型卓越的視覺感知和描述能力,論文使用提出的MathV360K指令調(diào)優(yōu)數(shù)據(jù)集對LLaVA-1.5-13B進(jìn)行微調(diào)。該數(shù)據(jù)集中多樣的問題模式和豐富的視覺內(nèi)容增強(qiáng)了模型的多模態(tài)數(shù)學(xué)推理能力,同時保持其通用的視覺-語言理解技能。

2.3.2 評估與指標(biāo)

論文采用零樣本方式,使用MathVista的minitest子集來評估論文的模型。該minitest子集包含1000個樣本,其中包括540道多項(xiàng)選擇題和460道需要以整數(shù)、浮點(diǎn)數(shù)或列表形式自由作答的問題。Math-Vista充分評估了MLLMs在多模態(tài)數(shù)學(xué)技能方面的能力,涵蓋代數(shù)推理(ALG)、算術(shù)推理(ARI)、幾何推理(GEO)、邏輯推理(LOG)、數(shù)值常識(NUM)、科學(xué)推理(SCD)和統(tǒng)計(jì)推理(STA)。此外,Math-Vista的問題可以分為以下子集:FQA、GPS、MWP、TQA和VQA。在評估過程中,論文首先利用GPT-4從響應(yīng)中提取預(yù)測選項(xiàng)或答案,然后報(bào)告答案準(zhǔn)確性,即判斷最終答案是否與標(biāo)準(zhǔn)答案匹配。此外,論文還使用MMMU基準(zhǔn)來評估論文模型的增強(qiáng)泛化能力。    

MMMU基準(zhǔn)包含900個評估樣本,涵蓋六個核心學(xué)科:藝術(shù)與設(shè)計(jì)、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會科學(xué)以及技術(shù)與工程,適合評估MLLMs推理能力的泛化性。

2.3.3 實(shí)施細(xì)節(jié)

論文利用GPT-4V(GPT-4 Vision Preview)進(jìn)行數(shù)據(jù)生成過程。為了對圖像清晰度和理解復(fù)雜度進(jìn)行分類,論文微調(diào)了兩個ViT-Large-Patch16-224模型,每個模型的學(xué)習(xí)率為2e-4,訓(xùn)練周期為5個epoch。    

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

圖 4:T-SNE 對 K-Means 的可視化。論文以 IconQA 為例。每個集群的提問格式可以作為參考,用于生成類似視覺內(nèi)容的新問題

對于 LLaVA-1.5-13B 模型,輸入圖像分辨率設(shè)置為 336 乘 336 像素。投影線性層和語言模型均可訓(xùn)練。在微調(diào)階段,論文設(shè)置學(xué)習(xí)率為 2e-5,采用批量大小為 16,并使用配備 80GB 內(nèi)存的 A800 GPU 進(jìn)行 2 個周期的微調(diào)。    

2.4 結(jié)果與分析

2.4.1 主要比較:MathVista

論文在 MathVista 基準(zhǔn)的 minitest 分割上比較了 Math-LLaVA 與其他多模態(tài)語言模型(MLLMs),結(jié)果如表 1 所示。如圖所示,開源 MLLMs 如 miniGPT4、instructBLIP和 LLaVA-1.5-13B 在多模態(tài)數(shù)學(xué)方面表現(xiàn)不佳,總體準(zhǔn)確率低于 30%。

與基礎(chǔ)模型 LLaVA-1.5-13B 相比,其多模態(tài)數(shù)學(xué)能力較差,Math-LLaVA 實(shí)現(xiàn)了 46.6% 的總體準(zhǔn)確率,顯著提升了 19%。更令人驚訝的是,提出的 Math-LLaVA 模型超過了閉源模型 Gemini 1.0 Pro和 Claude 3 Haiku,甚至達(dá)到了與 GPT-4V(OpenAI)相當(dāng)?shù)男阅?,最?qiáng)大的閉源MLLMs。

Math-LLaVA在GPS子集上達(dá)到了57.7%的準(zhǔn)確率,超過了G-LLaVA-13B(Gao et al., 2023),后者已在170K高質(zhì)量的幾何圖像-標(biāo)題和問題-答案對上進(jìn)行了訓(xùn)練。Math-LLaVA的優(yōu)越性能表明,高質(zhì)量、多樣化的多模態(tài)問題-答案對的數(shù)據(jù)選擇和合成在提高M(jìn)LLM的多模態(tài)數(shù)學(xué)推理能力方面是有效的。

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

圖5:在論文的GPT-4V API中使用的提示模板,用于從原始問題文本生成更復(fù)雜、邏輯一致和欠規(guī)范的問題

2.4.2 Math-LLaVA的泛化能力

提出的Math-LLaVA模型在多模態(tài)數(shù)學(xué)推理任務(wù)中展示了出色的性能。為了評估其泛化能力,論文使用包含各種學(xué)科和領(lǐng)域的MMMU基準(zhǔn)進(jìn)行了評估實(shí)驗(yàn)。結(jié)果如表2所示。僅使用選定的數(shù)據(jù),Math-LLaVA在科學(xué)子集上的性能有所下降。

然而,論文可以觀察到,在MathV360K上微調(diào)的Math-LLaVA模型在所有六個子領(lǐng)域上都能顯著超越基礎(chǔ)模型LLaVA-1.5-13B,以及其他幾個開源MLLMs。這種優(yōu)越性能突顯了其向下的多模態(tài)理解和推理任務(wù)的泛化能力。此外,使用論文的合成數(shù)據(jù)進(jìn)行微調(diào)的過程并沒有削弱模型在其他領(lǐng)域的推理能力;相反,它增強(qiáng)了其泛化能力。

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

表1:與MathVista基準(zhǔn)測試mini集上的基準(zhǔn)對比?;鶞?zhǔn)結(jié)果來自Lu et al. (2023)。"表示論文復(fù)現(xiàn)的LLaVA-1.5-13B結(jié)果。閉源和開源MLLMs中的最佳結(jié)果以粗體顯示。MathVista分為兩種方式:任務(wù)類型或數(shù)學(xué)技能,論文報(bào)告每個子集的準(zhǔn)確性

2.4.3 對合成數(shù)據(jù)集的過擬合問題

提出的數(shù)據(jù)合成流程為每張圖像生成額外的問答對,以增強(qiáng)MLLMs的數(shù)學(xué)推理能力。直觀上,論文應(yīng)該探究所提出的模型Math-LLaVA是否在生成的問答對上發(fā)生過擬合。如果發(fā)生過擬合,Math-LLaVA可能會記憶或檢索圖像信息,而不需要任何視覺輸入。

為了檢查這一點(diǎn),論文比較了Math-LLaVA在數(shù)據(jù)合成前后的性能,分別稱為Math-LLaVA-DS和Math-LLaVA,在MathVista上僅使用文本輸入進(jìn)行測試。如表3所示,Math-LLaVA在沒有視覺信息的情況下進(jìn)行推理時,在MathVista上表現(xiàn)出與Math-LLaVA-DS相似的性能,約為32.0%。此外,僅使用文本數(shù)據(jù)對Math-LLaVA進(jìn)行微調(diào)也得到了類似的觀察結(jié)果。這表明Math-LLaVA模型并未在合成的問答對上發(fā)生過擬合。

有趣的是,論文也觀察到,僅使用文本輸入時,LLaVA-1.5-13B在MathVista上的準(zhǔn)確率為23.3%。潛在的原因,如(Chen et al., 2024b)所探討的,可能是MathVista中的許多樣本不需要視覺內(nèi)容,并且在LLMs和MLLMs的預(yù)訓(xùn)練過程中可能發(fā)生了無意中的數(shù)據(jù)泄露。

2.4.4 合成數(shù)據(jù)的有效性

為了驗(yàn)證數(shù)據(jù)選擇和提出的數(shù)據(jù)增強(qiáng)策略的有效性,論文對MathV360K的各個組件進(jìn)行了獨(dú)立實(shí)驗(yàn)。首先,論文在源數(shù)據(jù)集中隨機(jī)抽取40K個數(shù)據(jù)點(diǎn)對LLaVA-1.5模型進(jìn)行微調(diào),不進(jìn)行任何選擇,以展示數(shù)據(jù)過濾和比例調(diào)整的效果。

隨后,論文分別將選定的40K數(shù)據(jù)點(diǎn)與使用四種增強(qiáng)方法生成的數(shù)據(jù)結(jié)合:為QA生成挖掘圖像(AskImg),提出復(fù)雜問題(CompQ),重新表述問題為了邏輯一致性(RephQ),以及簡化問題以解決不明確性(SimpQ)。表4展示了不同增強(qiáng)組合在MathVista上達(dá)到的準(zhǔn)確率。結(jié)果表明,論文的數(shù)據(jù)合成方法,結(jié)合了數(shù)據(jù)選擇和每種增強(qiáng)方法,取得了更好的性能。綜合這些策略,相較于隨機(jī)采樣40K數(shù)據(jù)點(diǎn),實(shí)現(xiàn)了顯著的11%提升。    

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

表2:在MMMU基準(zhǔn)上與基線模型的比較

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

表3:僅使用Math-Vista的文本作為輸入進(jìn)行推理的結(jié)果。對LLaVA-1.5使用圖像-文本或純文本數(shù)據(jù)進(jìn)行微調(diào)

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

    

表4:數(shù)據(jù)選擇和不同數(shù)據(jù)增強(qiáng)策略在MathVista上的有效性

2.4.5 每種任務(wù)類型增強(qiáng)的提升效果

鑒于論文從五種不同的問答任務(wù)類型中選擇了數(shù)據(jù),論文的目標(biāo)是研究哪些類型或技能在多模態(tài)數(shù)學(xué)推理中可以通過增強(qiáng)每個單獨(dú)任務(wù)類別的源數(shù)據(jù)得到提升。為此,論文對新數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),針對每種任務(wù)類型合成的數(shù)據(jù),與選定的數(shù)據(jù)混合。MathVista上的結(jié)果如圖6所示。

論文觀察到,對各種類型的源數(shù)據(jù)進(jìn)行增強(qiáng)可以進(jìn)一步提高模型在相應(yīng)任務(wù)上的性能。特別是在涉及FQA、MWP和VQA的任務(wù)中,增強(qiáng)效果尤為顯著。有趣的是,針對單一任務(wù)類型的數(shù)據(jù)增強(qiáng)也顯示出對其他任務(wù)類型有效性的提升,這可能是因?yàn)椴煌蝿?wù)之間所需的推理技能存在重疊。

電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力-AI.x社區(qū)

圖6:通過針對每種任務(wù)類型的增強(qiáng)在MathVista上的準(zhǔn)確性

本文轉(zhuǎn)載自??AI帝國??,作者: 無影寺 ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
久久久久成人网站| 国产999免费视频| 番号在线播放| 国产一区二区在线看| 久久久久久av| 精品少妇一区二区三区免费观| 日本久久免费| 亚洲人成精品久久久久久| 成人在线看片| 久久久999久久久| 国产综合精品一区| 亚洲一区二区国产| 韩国三级在线看| 日韩高清成人| 亚洲午夜一区二区| 亚洲欧美日韩精品综合在线观看| 人妻妺妺窝人体色www聚色窝| 日韩精品国产欧美| 欧美激情在线观看| 久久久久亚洲AV成人无在| 精品女人视频| 日韩欧美你懂的| 在线观看免费黄网站| 9999精品成人免费毛片在线看| 国产欧美精品一区二区色综合朱莉| 99久久无色码| a网站在线观看| 国产露脸国语对白在线| av资源中文在线| 亚洲色图一区二区三区| 日本精品一区| 香蕉视频成人在线| 国产91精品一区二区麻豆亚洲| 国产精自产拍久久久久久蜜| 日本天堂网在线| 亚洲香蕉网站| 欧美第一黄色网| 爱爱视频免费在线观看| 日本不卡免费一区| 亚洲欧美中文日韩在线v日本| 国产xxx在线观看| av国产精品| 欧美性受极品xxxx喷水| 久久黄色免费看| 二区三区不卡| 国产福利资源一区| 亚洲乱码国产乱码精品精的特点| 五月天亚洲综合情| 久久经典视频| 26uuu另类欧美亚洲曰本| 国产女主播一区二区| 亚洲第一页在线观看| 国产裸体歌舞团一区二区| 成人在线中文字幕| 国产精品视频a| 国产精品一二一区| 国产欧美日韩精品在线观看| 中文字幕av影视| 麻豆视频一区二区| 成人中文字幕+乱码+中文字幕| 一级特黄aaa| 国产乱人伦偷精品视频不卡| 亚洲自拍偷拍网址| 亚洲精选一区二区三区| aa级大片欧美| 日本一区二区三区四区高清视频| 春暖花开成人亚洲区| 国产精品乱子久久久久| 黄频视频在线观看| 青草青在线视频| 偷拍与自拍一区| av视屏在线播放| 亚洲午夜剧场| 日韩午夜激情免费电影| 少妇被狂c下部羞羞漫画| 欧洲vs亚洲vs国产| 中文字幕国产精品| 91在线播放观看| 国产精品日韩久久久| 国产精品成人品| 国产乱色精品成人免费视频 | 久久国产精品免费精品3p| 亚洲国产精品成人av| 精品国产成人亚洲午夜福利| 91偷拍一区二区三区精品| 欧美国产日韩免费| 波多野结衣高清在线| 精品在线视频一区| 黑人另类av| 国内精品久久久久国产| 亚洲v中文字幕| 欧美日韩在线观看不卡| 亚洲精品一区二区三区中文字幕 | 国产亚洲精品熟女国产成人| 我不卡神马影院| 欧美亚洲另类在线| 国产精品尤物视频| 成人午夜av在线| 日韩亚洲视频| 2021中文字幕在线| 欧美日韩视频在线第一区| 午夜影院福利社| 成人同人动漫免费观看| 久久久久久亚洲精品不卡| 亚洲中文一区二区| 粉嫩嫩av羞羞动漫久久久| 日韩欧美视频一区二区| www欧美xxxx| 欧美日韩精品一区视频| 在线免费播放av| 亚洲成av人片一区二区密柚| 青青在线视频一区二区三区| 国产sm主人调教女m视频| 久久看人人爽人人| 精品少妇人欧美激情在线观看| 日韩成人亚洲| 日韩av在线导航| 免费在线一级片| 精品一二三四在线| 日韩av高清在线播放| 国产91足控脚交在线观看| 777午夜精品视频在线播放| 久久人人爽人人爽人人片 | 精品欧美一区免费观看α√| 二区三区精品| 色婷婷**av毛片一区| 9i看片成人免费看片| 高清不卡一二三区| 老司机午夜网站| 欧美综合影院| 中日韩美女免费视频网站在线观看| 国产一级片免费| 国产剧情av麻豆香蕉精品| 正义之心1992免费观看全集完整版| 日本黄色免费在线| 亚洲高清久久网| 麻豆一区二区三区精品视频| 国产一区不卡视频| 欧美日韩一级在线| 成人av在线播放| 日韩有码在线播放| 中文字幕在线观看国产| 国产欧美一区二区精品久导航| 精品人妻一区二区三区四区在线 | 亚洲欧美在线免费| 黄色在线观看国产| 久久亚洲二区三区| 女人和拘做爰正片视频| 丝袜久久网站| 国产成人精品亚洲精品| 国产女主播在线直播| 色狠狠色狠狠综合| 精品人妻中文无码av在线| 三级不卡在线观看| 日韩三级电影网站| 久久国产三级| 久久视频免费在线播放| 99国产精品欲| 一区二区在线看| 久久久久久久穴| 亚洲国产一区二区精品专区| 国产一区免费在线观看| 中文字幕成在线观看| 亚洲精品网址在线观看| 日本成人一级片| 中文字幕永久在线不卡| 精品人妻一区二区乱码| 亚洲手机视频| 久久久一本精品99久久精品| 九九热线视频只有这里最精品| 中文字幕在线视频日韩| 国产成人a人亚洲精品无码| 亚洲综合在线免费观看| 欧美肉大捧一进一出免费视频| 中文一区二区| 亚洲精品白虎| 日韩精品中文字幕一区二区| 欧美激情亚洲国产| 精品视频二区| 51精品视频一区二区三区| 久艹视频在线观看| 久久久亚洲精品石原莉奈| 国产色视频在线播放| 伊人久久大香线蕉综合四虎小说| 国产精品对白刺激久久久| 中文字幕这里只有精品| 久久偷看各类女兵18女厕嘘嘘| 亚洲AV无码一区二区三区少妇| 欧美日韩另类字幕中文| 日本污视频网站| 成人免费毛片a| 欧美精品久久久久久久久25p| 欧美1区3d| 品久久久久久久久久96高清| 欧美高清一级片| 日本亚洲精品在线观看| 黄色免费在线看| 日韩精品免费综合视频在线播放| 11024精品一区二区三区日韩| 亚洲影视在线播放| a资源在线观看| av电影一区二区| 91亚洲精品久久久蜜桃借种| 99精品热视频只有精品10| 天堂精品一区二区三区| 国产精品对白| 91久久精品国产91性色| 欧美xxxxxx| 久久久这里只有精品视频| 亚洲成人三级| 亚洲裸体xxxx| 人妻丰满熟妇av无码区hd| 制服丝袜日韩国产| 欧美brazzers| 欧美日韩精品国产| 精品无码一区二区三区电影桃花| 中文字幕av一区二区三区高 | 91制片厂毛片| 亚洲女优在线| 久操网在线观看| 女生裸体视频一区二区三区| 亚洲国产激情一区二区三区| 精品无人区一区二区| 91丝袜脚交足在线播放| 成人在线免费电影网站| 国产成人小视频在线观看| av男人的天堂在线观看| 欧美精品在线极品| 男人资源在线播放| 中文字幕亚洲一区二区三区| 蜜桃免费在线| 国产视频精品在线| 艳母动漫在线看| 精品电影一区二区三区| 精品国产av一区二区| 欧美日本视频在线| 在线观看亚洲一区二区| 欧美艳星brazzers| 国产99久久久久久免费看| 日韩欧美在线视频免费观看| 欧美精品亚洲精品日韩精品| 亚洲午夜激情网站| 国产无套在线观看| 五月综合激情日本mⅴ| 日产精品久久久久久久| 亚洲国产欧美一区二区三区丁香婷| 手机在线中文字幕| 亚洲天堂av老司机| 国产十六处破外女视频| 一区2区3区在线看| 国产精品111| 精品国产乱码久久久久久天美| www日韩精品| 日韩欧美精品网址| 中文人妻av久久人妻18| 在线观看视频一区二区| 久久久久亚洲视频| 欧美日韩性生活| 精品国产999久久久免费| 日韩免费在线观看| 色一情一乱一区二区三区| 精品视频www| 1区2区3区在线观看| 久久久精品日本| 日韩影视在线| 欧美在线视频一区二区| 国产原创一区| 91国产在线播放| 欧美三级午夜理伦三级在线观看 | 91精品黄色| 好吊妞国产欧美日韩免费观看网站 | 久久综合视频网| 高清国产在线观看| 亚洲欧美日韩电影| 欧美一二三区视频| 欧美性色aⅴ视频一区日韩精品| 亚洲图片中文字幕| 精品免费国产一区二区三区四区| 国产91免费在线观看| 国产午夜精品久久久| 伊人免费在线| 久久免费视频在线| 免费污视频在线一区| 91免费视频国产| 日韩a级大片| 一区二区三区观看| 99riav1国产精品视频| 国产福利影院在线观看| 国产成人综合网站| www亚洲色图| 亚洲一区二区不卡免费| www.日韩一区| 欧美大胆一级视频| 国产露出视频在线观看| 欧美猛男性生活免费| 亚洲天堂导航| 亚洲一区中文字幕在线观看| 天天久久夜夜| 影音先锋成人资源网站| 日韩电影在线看| av av在线| 亚洲人精品一区| 国产亚洲欧美日韩高清| 精品91自产拍在线观看一区| 在线观看麻豆| 欧美中文字幕精品| 亚洲视频三区| 中文字幕制服丝袜在线| 久久久久国产精品午夜一区| 少妇精品无码一区二区| 国产精品免费av| av黄色在线播放| 精品日韩在线观看| 日本激情在线观看| 国产成人一区三区| 欧美a大片欧美片| avav在线播放| 国产精品影视在线| 五月天婷婷丁香网| 色菇凉天天综合网| 色综合888| 国外成人在线直播| 成人福利免费在线观看| 中文字幕在线亚洲三区| 日本va欧美va欧美va精品| 久久午夜夜伦鲁鲁片| 怡红院av一区二区三区| 国产欧美熟妇另类久久久 | 亚洲欧美日韩不卡一区二区三区| 先锋a资源在线看亚洲| 无码人妻精品一区二区三区99不卡| 亚洲色图清纯唯美| 伊人成人在线观看| 日韩中文在线中文网三级| 日本高清不卡一区二区三区视频| 九九九九九九精品| 日韩视频久久| 色婷婷精品久久二区二区密| 亚洲一二三四在线观看| 精品人妻一区二区三区三区四区| 久久精品视频一| 成人综合日日夜夜| 欧美精品一区二区性色a+v| 精品一区二区三区影院在线午夜 | 欧美人成网站| 制服下的诱惑暮生| 亚洲精品国产第一综合99久久 | 国产精品毛片久久久久久久久久99999999| 久草一区二区| 美女被久久久| 欧美大波大乳巨大乳| 色久综合一二码| 91大神xh98hx在线播放| 国产在线高清精品| 一本一本久久a久久综合精品| 人人爽人人爽av| 一区二区三区久久久| 国产小视频免费观看| 亚洲97在线观看| 九九久久婷婷| 三级一区二区三区| 一级做a爱片久久| 色呦呦中文字幕| 国产精品www色诱视频| 日韩在线高清| 欧美体内she精高潮| 亚洲午夜在线视频| 免费黄色在线视频网站| 国产精品久久久久久亚洲调教 | 国产女人爽到高潮a毛片| 欧美日韩国产成人在线观看| 国产乱人伦精品一区| 蜜臀av无码一区二区三区| 久久久久久麻豆| 国产精品久久久久毛片| 欧美精品激情在线观看| 日韩伦理一区二区三区| 五月婷婷丁香色| 亚洲综合色成人| 国产一级网站视频在线| 亚洲综合在线做性| 国产精品呻吟| 中文字幕在线观看2018| 精品久久国产97色综合| 三上悠亚亚洲一区| 女女百合国产免费网站| 91视频com| 999久久久久| 国产精品福利网站| 国产精品久久| 国产真人做爰视频免费| 精品少妇一区二区三区日产乱码| 欧美粗大gay| 大西瓜av在线| 国产精品狼人久久影院观看方式| 亚洲国产精品久久久久爰性色 | 少妇无码av无码专区在线观看| 欧美激情一区三区| 黄色美女一级片| 91夜夜未满十八勿入爽爽影院 |