禮貌=更不準?賓夕法尼大學新論文:對 AI 粗魯點,提升 4% 準確率
據(jù)2025年9月發(fā)表于arXiv的論文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》。
圖片
論文地址:arxiv.org/abs/2510.04950
賓夕法尼亞州立大學的兩位研究者提出了一個出人意料的發(fā)現(xiàn):越有禮貌的提問,ChatGPT 的回答越不準確。
實驗結果顯示,當用戶以“非常禮貌”的語氣提問時,ChatGPT-4o 的平均準確率僅為 80.8%。而在“非常粗魯”的語氣下,這一數(shù)字上升到 84.8%。
圖片
換句話說,同一道題,用“請您幫我解答”比不上“你給我算算這個”的效果。研究團隊總結道,禮貌語氣可能讓模型“分心”,而直接、命令式表達反而更有效。
過去的研究多認為,粗魯語氣會干擾模型理解,導致性能下降。但這項新實驗表明,最新一代大模型對語氣的反應方式正在反轉。它們在面對“命令型語言”時表現(xiàn)更好,面對“謙和句式”時則精度下降。
論文指出,這一結果“挑戰(zhàn)了人類交互的直覺”。在人類社會中,禮貌象征合作與理性;但在機器世界里,似乎“直給”比“客氣”更高效。
方法驗證:ChatGPT-4o的反常表現(xiàn)
研究團隊以 ChatGPT-4o 為主要實驗對象。他們通過 prompt 設計,構建了一個包含 50 道多選題、五種語氣版本的數(shù)據(jù)集。
圖片
題目涵蓋數(shù)學、科學與歷史,每題四個選項,難度中高,需要多步推理。每個問題被改寫為五種語氣:非常禮貌、禮貌、中性、粗魯、非常粗魯。
例如,“請您幫我回答以下問題好嗎?”代表最高禮貌層級;“你不會連這個都不會吧?”代表最低層級。
所有問題共計 250 個版本。每次測試時,模型被要求“重新開始會話,只返回正確答案選項字母”。這種設置排除了語義干擾,只留下語氣變量。
研究者進行了 10 輪獨立實驗,并使用配對樣本 t 檢驗分析語氣差異的顯著性。結果顯示,在八組語氣對比中,語氣確實顯著影響準確率(p≤0.05)。從“非常禮貌”到“非常粗魯”,正確率持續(xù)上升,沒有反轉。
也就是說,ChatGPT-4o 在聽到“你笨嗎?快答!”時比聽到“請您思考一下好嗎?”更容易答對題。研究團隊稱這種現(xiàn)象為“反直覺的語氣效應”。
他們還指出,這一特征并非舊模型延續(xù),而是新架構帶來的反常現(xiàn)象。在過去的 GPT-3.5 和 Llama2 測試中,粗魯語氣通常降低準確率;而在 GPT-4 及其后續(xù)版本中,語氣曲線被“翻轉”。
模型似乎開始對禮貌免疫,對命令更敏感。
研究者指出,模型對語氣的反應并不源于情緒,而是算法結果。對模型來說,禮貌詞只是字符串,沒有情感含義。
它不會“感受到”尊重或冒犯。但這些額外詞匯可能在語義上增加冗余,使模型難以聚焦問題。
論文寫道:“禮貌語氣往往句式更長、更委婉,結構更復雜,這些因素都可能降低模型推理效率。”
因此,越直接、越命令式的指令,越能讓模型抓住核心信息。
研究團隊強調,他們并不鼓勵用戶使用侮辱性語言。但從性能角度看,確實存在一種“語氣效率曲線”:溫和≠高效,粗暴反而更快、更準。
他們在論文最后寫道,這一發(fā)現(xiàn)“提醒人類,在與AI互動時,語言的社會屬性可能與功能目標相沖突”。人類講求禮貌,而模型只關心任務完成。
在算法世界里,效率壓過了禮節(jié)。
在后續(xù)實驗中,研究團隊還測試了 Claude 與 GPT-o3。初步結果顯示,更先進的模型對語氣的敏感度正在減弱,這可能預示未來的架構會“去語氣化”:聚焦內容,而非表達方式。































