大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用精華

發(fā)布于 2025-2-21 12:13

瀏覽

0收藏

情緒識(shí)別作為人機(jī)交互中的關(guān)鍵一環(huán)，能夠提升智能系統(tǒng)的反應(yīng)靈敏度和人性化程度。但是傳統(tǒng)的情緒標(biāo)注方法面臨著諸多挑戰(zhàn)和局限性，人工情緒標(biāo)注過(guò)程既耗時(shí)又昂貴，并且標(biāo)注員可能會(huì)因個(gè)人主觀性帶來(lái)不同的評(píng)估標(biāo)準(zhǔn)，從而影響標(biāo)注的一致性和準(zhǔn)確性。

人工標(biāo)注不僅成本高且效率低下，標(biāo)注員需要長(zhǎng)時(shí)間精心標(biāo)注數(shù)據(jù)，這不但要求大量人力資源，還會(huì)引入人類(lèi)認(rèn)知中的固有變異性和潛在偏見(jiàn)。情緒標(biāo)注任務(wù)的主觀性和細(xì)微差別增加了標(biāo)注的復(fù)雜性。探索高效、準(zhǔn)確的自動(dòng)化情緒標(biāo)注方法迫在眉睫，以減輕人工負(fù)擔(dān)并提高標(biāo)注質(zhì)量。

2 月 20 日，arXiv發(fā)表的《Benchmarking Zero-Shot Facial Emotion Annotation with Large Language Models: A Multi-Class and Multi-Frame Approach in DailyLife》探索了大型語(yǔ)言模型（LLMs）在零樣本面部情緒標(biāo)注中的可行性，并評(píng)估其在多類(lèi)和多幀情緒分類(lèi)任務(wù)中的性能。通過(guò)采用GPT-4o-mini模型進(jìn)行快速零樣本標(biāo)注，研究團(tuán)隊(duì)希望發(fā)現(xiàn)一種既能減少標(biāo)注成本，又能提高標(biāo)注效率的新策略。研究還將探討多幀整合和情緒分類(lèi)簡(jiǎn)化方法在提高標(biāo)注準(zhǔn)確性方面的作用，為今后大規(guī)模情緒標(biāo)注任務(wù)提供指導(dǎo)。

本研究由賓夕法尼亞州立大學(xué)信息科學(xué)與技術(shù)學(xué)院的He Zhang和中國(guó)清華大學(xué)未來(lái)實(shí)驗(yàn)室的Xinyi Fu共同完成。He Zhang專(zhuān)注于人工智能、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理技術(shù)的應(yīng)用，尤其是情緒識(shí)別和人機(jī)交互領(lǐng)域。Xinyi Fu則致力于人工智能與多模態(tài)交互的應(yīng)用，特別關(guān)注提升大規(guī)模數(shù)據(jù)處理和注釋的效率與準(zhǔn)確性。兩位華人研究者結(jié)合跨國(guó)合作的優(yōu)勢(shì)，旨在探索LLMs在情緒標(biāo)注中的應(yīng)用潛力，推動(dòng)技術(shù)進(jìn)步并為實(shí)際應(yīng)用提供成本效益高且可擴(kuò)展的解決方案。

方法

在本研究中，研究團(tuán)隊(duì)探索了大型語(yǔ)言模型（LLMs）在零樣本面部情緒標(biāo)注中的可行性，并評(píng)估了其在多類(lèi)和多幀情緒分類(lèi)任務(wù)中的性能。

數(shù)據(jù)集選擇

研究團(tuán)隊(duì)選擇了公開(kāi)的FERV39k數(shù)據(jù)集，該數(shù)據(jù)集包含了豐富的視頻片段，涵蓋多種日常生活中的情緒表達(dá)。FERV39k數(shù)據(jù)集中的DailyLife子集尤為重要，因?yàn)樗巳粘；顒?dòng)、互動(dòng)和情緒表達(dá)的場(chǎng)景，是現(xiàn)實(shí)條件的代表，增強(qiáng)了研究團(tuán)隊(duì)研究工作的可轉(zhuǎn)移性和適用性。

在該數(shù)據(jù)集中，情緒被分為七類(lèi)：“憤怒”、“厭惡”、“恐懼”、“快樂(lè)”、“中立”、“悲傷”和“驚訝”。這些情緒類(lèi)別為情緒識(shí)別任務(wù)提供了一個(gè)全面的分類(lèi)框架。研究團(tuán)隊(duì)之所以選擇DailyLife子集，是因?yàn)樗?339個(gè)視頻片段，每個(gè)片段都被手動(dòng)標(biāo)注了明確的情緒標(biāo)簽，并基于上下文和可見(jiàn)的情緒線(xiàn)索提供了準(zhǔn)確的標(biāo)簽。這為研究團(tuán)隊(duì)的研究提供了一個(gè)廣泛認(rèn)可的基準(zhǔn)。

模型選擇

研究團(tuán)隊(duì)選擇了GPT-4o-mini模型，這是GPT-4架構(gòu)的一個(gè)變體，優(yōu)化了效率和快速推理能力。選擇GPT-4o-mini的理由主要有兩個(gè)方面：首先，它具備強(qiáng)大的零樣本學(xué)習(xí)能力，能夠在無(wú)需特定任務(wù)訓(xùn)練的情況下執(zhí)行任務(wù)；其次，它集成了視覺(jué)能力，能夠接受圖像輸入并解釋圖形信息，適合多模態(tài)處理。

在成本和性能方面，GPT-4o-mini在保證高效性能的同時(shí)，能夠平衡操作成本，成為本研究的理想選擇。

標(biāo)注過(guò)程設(shè)計(jì)

在標(biāo)注過(guò)程中，研究團(tuán)隊(duì)采用了零樣本標(biāo)注策略，直接應(yīng)用LLMs進(jìn)行情緒分類(lèi)。模型根據(jù)簡(jiǎn)單的預(yù)定義指令對(duì)提取的關(guān)鍵幀進(jìn)行標(biāo)注，無(wú)需額外的訓(xùn)練或微調(diào)。這種策略不僅加快了標(biāo)注速度，還降低了操作成本。

提示工程（Prompt Engineering）

為了有效利用GPT-4o-mini模型進(jìn)行圖像情緒標(biāo)注，研究團(tuán)隊(duì)精心設(shè)計(jì)了提示，以指導(dǎo)模型生成準(zhǔn)確的情緒標(biāo)簽。初始提示設(shè)定模型為“專(zhuān)業(yè)圖像情緒分析助手”，明確列出了預(yù)定義情緒標(biāo)簽，確保模型在期望的上下文中操作并理解分類(lèi)框架。每個(gè)圖像（或多幀整合圖像）的分析提示中，包括了文本指令和圖像本身，通過(guò)這種多模態(tài)輸入的方式，使模型能夠同時(shí)處理視覺(jué)和文本數(shù)據(jù)。

標(biāo)注策略

研究團(tuán)隊(duì)采用了多種標(biāo)注策略，以評(píng)估大型語(yǔ)言模型（LLMs）在不同情緒分類(lèi)任務(wù)中的表現(xiàn)。這些策略分為七類(lèi)情緒分類(lèi)策略和三類(lèi)情緒分類(lèi)策略。

大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用-AI.x社區(qū)

圖1：視頻（圖像/片段）數(shù)據(jù)中情感識(shí)別的多策略注釋框架說(shuō)明

七類(lèi)情緒分類(lèi)策略

策略A1：?jiǎn)螏瑯?biāo)注

該策略基于對(duì)每個(gè)視頻片段中的五個(gè)選定幀進(jìn)行獨(dú)立標(biāo)注。這些選定幀包括初始幀、Q1位置幀、中間幀、Q3位置幀和最終幀。每個(gè)幀被獨(dú)立地標(biāo)注為七類(lèi)情緒中的一種：“憤怒”、“厭惡”、“恐懼”、“快樂(lè)”、“中立”、“悲傷”和“驚訝”。每個(gè)幀的預(yù)測(cè)情緒標(biāo)簽與數(shù)據(jù)集中提供的真實(shí)標(biāo)簽進(jìn)行比較，以計(jì)算準(zhǔn)確性。

策略B1：多數(shù)投票決定主要情緒

在策略B1中，所有五個(gè)標(biāo)注幀的情緒標(biāo)簽進(jìn)行匯總，以確定整個(gè)視頻片段的主要情緒。如果某種情緒在標(biāo)注幀中占絕對(duì)多數(shù)，則該情緒標(biāo)簽被分配給整個(gè)視頻片段。在情緒分布平局的情況下，選擇中間幀的情緒標(biāo)簽作為視頻片段的整體情緒狀態(tài)。

策略C1：排除“中立”后的多數(shù)投票

策略C1在確定主要情緒時(shí)排除“中立”類(lèi)別。如果在排除“中立”后某種情緒在標(biāo)注幀中占絕對(duì)多數(shù)，則該情緒被分配給視頻片段。如果五個(gè)幀均被標(biāo)記為“中立”，則該片段被分配“中立”標(biāo)簽。在情緒分布平局的情況下，選擇中間幀的情緒標(biāo)簽代表整個(gè)視頻片段的情緒狀態(tài)。這一方法旨在通過(guò)聚焦更明顯的積極或消極情緒狀態(tài)，提高標(biāo)注準(zhǔn)確性，減輕LLMs在分類(lèi)“中立”情緒時(shí)的歧義性。

策略D1：多幀整合后整體標(biāo)注

策略D1采用多幀整合方法，將五個(gè)選定幀連接成一個(gè)復(fù)合輸入。具體而言，將初始幀、Q1位置幀、中間幀、Q3位置幀和最終幀按順序連接形成統(tǒng)一的圖像輸入，并將其提交給GPT-4o-mini模型進(jìn)行單步驟標(biāo)注。通過(guò)整合多個(gè)幀，該策略利用時(shí)間上下文，使模型能夠考慮視頻片段內(nèi)情緒的進(jìn)展，提高標(biāo)注準(zhǔn)確性，捕捉單個(gè)幀標(biāo)注可能錯(cuò)過(guò)的情緒過(guò)渡狀態(tài)。

大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用-AI.x社區(qū)

圖2：七類(lèi)和三類(lèi)注釋策略的精度比較。這兩張圖都展示了每種策略的單獨(dú)指標(biāo)和總體平均值（宏觀和加權(quán)）

三類(lèi)情緒分類(lèi)策略

策略A2：將七類(lèi)映射為三類(lèi)進(jìn)行標(biāo)注

策略A2將策略A1的結(jié)果應(yīng)用于三類(lèi)情緒分類(lèi)。在此策略中，策略A1中的每個(gè)標(biāo)注幀直接映射到三個(gè)更廣泛的類(lèi)別之一：“積極”、“中立”或“消極”。具體而言，被分類(lèi)為“憤怒”、“厭惡”、“恐懼”和“悲傷”的情緒歸類(lèi)為“消極”，而“快樂(lè)”和“驚訝”歸類(lèi)為“積極”。“中立”標(biāo)簽保持不變。每個(gè)幀的七類(lèi)標(biāo)簽根據(jù)此映射轉(zhuǎn)換為相應(yīng)的三類(lèi)標(biāo)簽，然后計(jì)算準(zhǔn)確性，以評(píng)估模型在簡(jiǎn)化情緒分類(lèi)任務(wù)中的表現(xiàn)。

策略B2：三類(lèi)情緒的多數(shù)投票

策略B2首先應(yīng)用策略A2，將七類(lèi)標(biāo)簽重新組織為三類(lèi)。然后采用類(lèi)似于策略B1的方法，返回占絕對(duì)多數(shù)的情緒標(biāo)簽，或在情緒趨勢(shì)得分平局時(shí)使用中間幀的情緒標(biāo)簽。

策略C2：排除“中立”后的三類(lèi)多數(shù)投票

策略C2首先應(yīng)用策略A2，將七類(lèi)標(biāo)簽重新組織為三類(lèi)，然后采用類(lèi)似于策略C1的方法，減輕LLMs在分類(lèi)“中立”情緒時(shí)的歧義性。

策略D2：多幀整合后的三類(lèi)情緒標(biāo)注

策略D2類(lèi)似于策略D1的多幀整合方法，但使用三類(lèi)分類(lèi)方法。在此策略中，五個(gè)選定幀被連接成一個(gè)復(fù)合輸入，并將其提交給GPT-4o-mini模型，為整個(gè)視頻片段分配單一的三類(lèi)情緒標(biāo)簽（“積極”、“中立”或“消極”）。

這些標(biāo)注策略為研究團(tuán)隊(duì)提供了全面評(píng)估LLMs在零樣本情緒標(biāo)注任務(wù)中的性能的機(jī)會(huì)，并幫助研究團(tuán)隊(duì)發(fā)現(xiàn)最佳的標(biāo)注方法，以提高準(zhǔn)確性和效率。

實(shí)驗(yàn)結(jié)果與分析

在評(píng)估情緒分類(lèi)策略時(shí)，研究團(tuán)隊(duì)采用了精度、召回率、F1分?jǐn)?shù)、支持度和準(zhǔn)確率等指標(biāo)。精度（Precision）衡量的是模型正確預(yù)測(cè)的正樣本占所有預(yù)測(cè)為正樣本的比例。召回率（Recall）反映了模型能識(shí)別出所有真實(shí)正樣本的能力。F1分?jǐn)?shù)是精度和召回率的調(diào)和平均數(shù)，平衡了二者，特別適用于類(lèi)別分布不均的情況。準(zhǔn)確率（Accuracy）則是所有正確預(yù)測(cè)樣本占總樣本的比例。此外，研究團(tuán)隊(duì)還報(bào)告了宏平均（Macro Average）和加權(quán)平均（Weighted Average）兩個(gè)指標(biāo)。宏平均將每個(gè)類(lèi)別視為同等重要，計(jì)算各類(lèi)別精度和召回率的平均值，而加權(quán)平均則根據(jù)每個(gè)類(lèi)別的支持度（Support，即每個(gè)類(lèi)別的真實(shí)樣本數(shù)量）進(jìn)行加權(quán)，以反映類(lèi)別不平衡的影響。

七類(lèi)情緒分類(lèi)結(jié)果

對(duì)于七類(lèi)情緒分類(lèi)，研究團(tuán)隊(duì)采用了四種不同的標(biāo)注策略（A1、B1、C1和D1）。策略A1的整體準(zhǔn)確率為38%，在“快樂(lè)”類(lèi)別的精度達(dá)到0.84，但在“厭惡”類(lèi)別的精度僅為0.04，顯示出模型在某些情緒分類(lèi)上的顯著挑戰(zhàn)。策略B1通過(guò)多數(shù)投票的方式，略微提升了整體準(zhǔn)確率至41%，尤其在“快樂(lè)”類(lèi)別上精度上升至0.89，而“厭惡”類(lèi)別也有小幅改善。策略C1通過(guò)排除“中立”類(lèi)別的多數(shù)投票，將整體準(zhǔn)確率提升至46%，特別是在“悲傷”類(lèi)別的召回率提高到0.76，顯示出通過(guò)專(zhuān)注于更明顯的情緒狀態(tài)，可以減輕“中立”分類(lèi)帶來(lái)的不準(zhǔn)確性。策略D1采用多幀整合方法，與策略C1達(dá)到相同的46%準(zhǔn)確率，通過(guò)整合多個(gè)幀的時(shí)間上下文，捕捉到情緒動(dòng)態(tài)變化，進(jìn)一步提高了模型的情緒識(shí)別能力。

分析混淆矩陣可以發(fā)現(xiàn)，各策略在區(qū)分“中立”和“快樂(lè)”等細(xì)微情緒變化時(shí)仍存在挑戰(zhàn)，但通過(guò)聚合多個(gè)幀或排除“中立”類(lèi)別，可以顯著提升某些類(lèi)別的識(shí)別準(zhǔn)確率。

三類(lèi)情緒分類(lèi)結(jié)果

對(duì)于三類(lèi)情緒分類(lèi)（A2、B2、C2和D2），策略簡(jiǎn)化顯著提高了模型性能。策略A2實(shí)現(xiàn)了57%的準(zhǔn)確率，“積極”類(lèi)別精度為0.72，而“中立”類(lèi)別表現(xiàn)一般，精度為0.27，召回率為0.41。策略B2通過(guò)多數(shù)投票，準(zhǔn)確率提高至65%，“積極”類(lèi)別精度上升至0.79，“消極”類(lèi)別表現(xiàn)強(qiáng)勁，精度為0.70，召回率為0.74。策略C2采用排除“中立”類(lèi)別的多數(shù)投票，也達(dá)到了65%的準(zhǔn)確率，“消極”類(lèi)別精度為0.67，召回率提升至0.87，而“積極”類(lèi)別保持一致性能。策略D2采用多幀整合方法，同樣實(shí)現(xiàn)了65%的準(zhǔn)確率，通過(guò)利用時(shí)間上下文和簡(jiǎn)化情緒類(lèi)別，確保了高效且準(zhǔn)確的標(biāo)注。

大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用-AI.x社區(qū)

圖3：使用混淆矩陣的分類(lèi)策略的性能比較。每個(gè)混淆矩陣代表數(shù)據(jù)集上特定策略的分類(lèi)結(jié)果。

通過(guò)混淆矩陣分析，可以看到，三類(lèi)分類(lèi)策略在“中立”和“積極”情緒之間的混淆情況較多，而對(duì)“消極”情緒的識(shí)別準(zhǔn)確性較高。這表明在簡(jiǎn)化情緒分類(lèi)的情況下，模型能夠更有效地區(qū)分主要情緒狀態(tài)，從而提升整體性能。

不同策略的性能總結(jié)

在七類(lèi)和三類(lèi)情緒分類(lèi)任務(wù)中，各種標(biāo)注策略展現(xiàn)了不同的性能。通過(guò)實(shí)驗(yàn)，研究團(tuán)隊(duì)發(fā)現(xiàn)策略的聚合和整合方法在提升標(biāo)注準(zhǔn)確性方面尤為有效。策略B1、C1和D1中的多數(shù)投票和多幀整合策略在情緒識(shí)別中表現(xiàn)出色，通過(guò)匯總多個(gè)標(biāo)注幀或整合時(shí)間上下文，能夠捕捉到視頻片段內(nèi)的情緒進(jìn)展，增強(qiáng)了模型對(duì)情緒動(dòng)態(tài)變化的理解。這些策略在處理復(fù)雜多變的情緒表達(dá)時(shí)，顯著提高了模型的表現(xiàn)。

聚合和整合方法的有效性

聚合方法通過(guò)匯總多個(gè)幀的情緒標(biāo)注，減少了單一幀標(biāo)注帶來(lái)的誤差和不一致性。在多數(shù)投票策略下，通過(guò)對(duì)視頻片段內(nèi)多個(gè)幀的情緒進(jìn)行綜合考慮，能夠提高整體標(biāo)注的準(zhǔn)確性。多幀整合策略則通過(guò)將多個(gè)關(guān)鍵幀整合為一個(gè)復(fù)合輸入，使模型能夠考慮情緒的時(shí)間上下文。這種方法不僅提高了標(biāo)注的準(zhǔn)確性，還能夠捕捉到單個(gè)幀標(biāo)注可能錯(cuò)過(guò)的情緒過(guò)渡狀態(tài)，從而提供更全面的情緒識(shí)別。

時(shí)間上下文在情緒識(shí)別中的作用

在情緒識(shí)別中，時(shí)間上下文起到了至關(guān)重要的作用。情緒的表達(dá)往往是一個(gè)動(dòng)態(tài)的過(guò)程，通過(guò)整合多個(gè)時(shí)間點(diǎn)的情緒信息，模型能夠更好地捕捉到情緒的變化和發(fā)展趨勢(shì)。多幀整合策略利用時(shí)間上下文，通過(guò)考慮視頻片段內(nèi)情緒的進(jìn)展，顯著提高了模型的情緒識(shí)別能力。時(shí)間上下文的引入，使模型能夠更準(zhǔn)確地識(shí)別情緒過(guò)渡和細(xì)微變化，從而提高整體標(biāo)注的質(zhì)量。

與基線(xiàn)的比較

為了驗(yàn)證研究團(tuán)隊(duì)標(biāo)注策略的有效性，研究團(tuán)隊(duì)將其與隨機(jī)猜測(cè)基線(xiàn)和現(xiàn)有訓(xùn)練模型基線(xiàn)進(jìn)行了比較。

隨機(jī)猜測(cè)基線(xiàn)

在七類(lèi)情緒分類(lèi)任務(wù)中，隨機(jī)猜測(cè)的預(yù)期準(zhǔn)確率約為14.3%。在三類(lèi)情緒分類(lèi)任務(wù)中，隨機(jī)猜測(cè)的預(yù)期準(zhǔn)確率為33.3%。研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明，所有提出的策略均顯著超過(guò)了隨機(jī)猜測(cè)的基線(xiàn)水平。例如，在七類(lèi)分類(lèi)任務(wù)中，表現(xiàn)最好的策略（C1和D1）達(dá)到了46%的準(zhǔn)確率，是隨機(jī)猜測(cè)基線(xiàn)的三倍多。在三類(lèi)分類(lèi)任務(wù)中，策略B2、C2和D2達(dá)到了65%的準(zhǔn)確率，幾乎是隨機(jī)猜測(cè)基線(xiàn)的兩倍。這一顯著的改進(jìn)表明，研究團(tuán)隊(duì)的聚合和整合方法在基于LLMs的零樣本分類(lèi)任務(wù)中提高了標(biāo)注準(zhǔn)確性。

現(xiàn)有訓(xùn)練模型基線(xiàn)

為了進(jìn)一步驗(yàn)證研究團(tuán)隊(duì)的標(biāo)注策略，研究團(tuán)隊(duì)將其與FERV39k數(shù)據(jù)集論文中報(bào)告的基線(xiàn)模型進(jìn)行了比較。基線(xiàn)模型包括ResNet-18（R18）、ResNet-50（R50）、VGG13（VGG13）、VGG-16（VGG16）及其LSTM增強(qiáng)變體。這些模型的性能指標(biāo)包括加權(quán)平均召回率（WAR）和非加權(quán)平均召回率（UAR）。其中，VGG13-LSTM和Two VGG13-LSTM模型表現(xiàn)最佳，分別達(dá)到46.07%和46.92%的WAR。

相比之下，研究團(tuán)隊(duì)的策略D1（多幀整合）在七類(lèi)分類(lèi)任務(wù)中實(shí)現(xiàn)了46%的WAR，接近這些頂尖基線(xiàn)模型的性能。此外，策略D1還顯著超過(guò)了基線(xiàn)模型的平均WAR（約38.98%）。在UAR方面，策略D1在各類(lèi)情緒的召回率方面表現(xiàn)優(yōu)異，超過(guò)了所有基線(xiàn)模型。這表明研究團(tuán)隊(duì)的策略不僅在整體加權(quán)表現(xiàn)上表現(xiàn)出色，還確保了所有情緒類(lèi)別的公平識(shí)別，包括不常見(jiàn)的類(lèi)別。

成本效益與可擴(kuò)展性

研究團(tuán)隊(duì)詳細(xì)考慮了模型的成本效益和可擴(kuò)展性，這對(duì)于大規(guī)模情緒標(biāo)注任務(wù)尤為關(guān)鍵。

模型成本考慮

最初，研究團(tuán)隊(duì)測(cè)試了全幀率標(biāo)注方法，即為每秒的視頻片段標(biāo)注25幀圖像。然而，由于任務(wù)量巨大，該方法的財(cái)務(wù)可行性極低。根據(jù)初步估算，這種全幀率標(biāo)注的API成本大約為每11,000張圖像100美元，顯然這種高成本方法無(wú)法在大規(guī)模應(yīng)用中持續(xù)進(jìn)行。因此，他們需要找到一種更具成本效益的解決方案。

全幀率標(biāo)注的成本估算

對(duì)于每秒25幀的全幀率標(biāo)注，成本快速累積。假設(shè)每幀圖像的標(biāo)注成本為0.01美元，對(duì)于一個(gè)包含2,339個(gè)視頻片段、每個(gè)視頻片段時(shí)長(zhǎng)為1-2秒的數(shù)據(jù)集，總成本將達(dá)到數(shù)千美元。這種高昂的成本使得全幀率標(biāo)注在實(shí)際應(yīng)用中難以維持。

采用關(guān)鍵幀和多幀整合策略的成本節(jié)約

為了降低成本，研究團(tuán)隊(duì)采用了關(guān)鍵幀選擇和多幀整合策略。具體而言，從每個(gè)視頻片段中選擇五個(gè)關(guān)鍵幀（初始幀、Q1位置幀、中間幀、Q3位置幀和最終幀），并將這五個(gè)幀整合為一個(gè)復(fù)合輸入。這種方法不僅減少了標(biāo)注的幀數(shù)，還顯著降低了令牌使用量。通過(guò)這種策略，研究團(tuán)隊(duì)大幅度減少了API請(qǐng)求的數(shù)量，從而降低了整體標(biāo)注成本，同時(shí)保持了較高的標(biāo)注準(zhǔn)確性。

運(yùn)營(yíng)成本與標(biāo)注效率的權(quán)衡

在平衡運(yùn)營(yíng)成本與標(biāo)注效率時(shí)，研究團(tuán)隊(duì)的策略顯示出了明顯優(yōu)勢(shì)。通過(guò)零樣本標(biāo)注，研究團(tuán)隊(duì)能夠在無(wú)需特定任務(wù)訓(xùn)練的情況下，快速部署和適應(yīng)各種標(biāo)注任務(wù)，極大地提高了標(biāo)注效率。與傳統(tǒng)的監(jiān)督模型相比，零樣本標(biāo)注不僅減少了訓(xùn)練成本，還避免了因數(shù)據(jù)標(biāo)注需求而產(chǎn)生的額外資源消耗。這使得研究團(tuán)隊(duì)的標(biāo)注方法在大規(guī)模應(yīng)用中更加經(jīng)濟(jì)可行。

零樣本標(biāo)注在實(shí)際應(yīng)用中的經(jīng)濟(jì)可行性

本研究中的零樣本標(biāo)注方法展示了良好的經(jīng)濟(jì)可行性。通過(guò)采用GPT-4o-mini模型，研究團(tuán)隊(duì)能夠在不進(jìn)行特定任務(wù)訓(xùn)練的情況下，快速且準(zhǔn)確地進(jìn)行情緒標(biāo)注。這種方法不僅降低了模型訓(xùn)練和應(yīng)用的成本，還提高了標(biāo)注任務(wù)的擴(kuò)展性，使其能夠適應(yīng)不同情緒標(biāo)注任務(wù)的需求。

大規(guī)模情緒標(biāo)注任務(wù)的可擴(kuò)展性

研究團(tuán)隊(duì)的零樣本標(biāo)注策略在大規(guī)模情緒標(biāo)注任務(wù)中展現(xiàn)了極大的可擴(kuò)展性。通過(guò)關(guān)鍵幀選擇和多幀整合策略，研究團(tuán)隊(duì)能夠在降低成本的同時(shí)，保持較高的標(biāo)注準(zhǔn)確性。這種高效的標(biāo)注方法為大規(guī)模情緒識(shí)別任務(wù)提供了一種可行的解決方案，適用于各種實(shí)際應(yīng)用場(chǎng)景，如駕駛員注意力檢測(cè)、直播平臺(tái)內(nèi)容管理和健康管理系統(tǒng)。

討論

自動(dòng)化標(biāo)注的效率和速度是LLMs的顯著優(yōu)勢(shì)。通過(guò)利用大型語(yǔ)言模型，研究團(tuán)隊(duì)能夠在零樣本的情況下，快速進(jìn)行情緒標(biāo)注，而無(wú)需花費(fèi)大量時(shí)間進(jìn)行特定任務(wù)的模型訓(xùn)練。LLMs能夠根據(jù)預(yù)定義的指令和提示，在沒(méi)有先驗(yàn)知識(shí)的情況下，準(zhǔn)確分類(lèi)和標(biāo)注情緒，這大大提高了標(biāo)注效率和速度。

然而，LLMs在辨別細(xì)微情緒差異時(shí)仍存在挑戰(zhàn)。盡管模型在處理主要情緒類(lèi)別時(shí)表現(xiàn)出色，但在區(qū)分類(lèi)似情緒如“快樂(lè)”和“驚訝”時(shí)，準(zhǔn)確率會(huì)有所下降。這主要是因?yàn)榍榫w表達(dá)的主觀性和復(fù)雜性，加之LLMs在處理多樣化和細(xì)微變化的數(shù)據(jù)時(shí)，容易受到模型本身的局限性影響。

聚合技術(shù)和時(shí)間上下文在情緒識(shí)別中的影響非常重要。多幀信息的整合顯著提高了情緒識(shí)別的準(zhǔn)確率。通過(guò)聚合來(lái)自多個(gè)時(shí)間點(diǎn)的情緒數(shù)據(jù)，模型能夠更全面地捕捉情緒的動(dòng)態(tài)變化，從而提供更準(zhǔn)確的標(biāo)注結(jié)果。時(shí)間上下文的整合使模型在識(shí)別連續(xù)變化的情緒時(shí)表現(xiàn)更佳，避免了單幀標(biāo)注可能導(dǎo)致的誤差和不一致性。

排除“中立”類(lèi)別的策略效果顯著。通過(guò)專(zhuān)注于更加明顯的積極或消極情緒狀態(tài)，模型在情緒分類(lèi)任務(wù)中的表現(xiàn)得到了提升。這一策略有效地減輕了LLMs在分類(lèi)中立情緒時(shí)的歧義性，增強(qiáng)了情緒標(biāo)注的準(zhǔn)確性。

簡(jiǎn)化情緒分類(lèi)對(duì)提升模型性能有顯著作用。三類(lèi)情緒分類(lèi)法（“積極”、“中立”和“消極”）通過(guò)降低分類(lèi)的復(fù)雜度，使模型能夠更有效地區(qū)分主要情緒狀態(tài)，提高了整體準(zhǔn)確率。在復(fù)雜任務(wù)中，降低分類(lèi)復(fù)雜度有助于提升模型的表現(xiàn)，同時(shí)減少分類(lèi)錯(cuò)誤。

任務(wù)復(fù)雜度與模型性能之間存在顯著關(guān)系。通過(guò)簡(jiǎn)化分類(lèi)任務(wù)，模型能夠更專(zhuān)注于主要情緒類(lèi)別，減少因多樣化數(shù)據(jù)帶來(lái)的分類(lèi)挑戰(zhàn)，從而提高標(biāo)注的準(zhǔn)確性和可靠性。

大型語(yǔ)言模型在情緒標(biāo)注任務(wù)中的成功應(yīng)用，展示了其在其他多模態(tài)數(shù)據(jù)標(biāo)注任務(wù)中的巨大潛力。LLMs可以擴(kuò)展到更廣泛的應(yīng)用場(chǎng)景，如駕駛員注意力檢測(cè)、直播平臺(tái)內(nèi)容管理和健康管理系統(tǒng)，通過(guò)高效的自動(dòng)化標(biāo)注，提高各類(lèi)多模態(tài)數(shù)據(jù)處理的效率和準(zhǔn)確性。

在實(shí)際應(yīng)用中，LLMs的高效性和可擴(kuò)展性對(duì)人機(jī)交互和情感計(jì)算領(lǐng)域有深遠(yuǎn)影響。通過(guò)自動(dòng)化情緒識(shí)別，智能系統(tǒng)可以更靈敏地響應(yīng)用戶(hù)的情緒變化，提供更人性化和個(gè)性化的服務(wù)，提升用戶(hù)體驗(yàn)。此外，LLMs在情感計(jì)算中的應(yīng)用，將進(jìn)一步推動(dòng)人機(jī)交互技術(shù)的發(fā)展，實(shí)現(xiàn)更加自然和流暢的交流互動(dòng)。（END）

參考資料：https://arxiv.org/pdf/2502.12454

本文轉(zhuǎn)載自??獨(dú)角噬元獸??，作者： FlerkenS

標(biāo)簽

大模型

零樣本

LLMs

贊

回復(fù)