真實評估！北理發布全球首個「全場景教育」基準，支持4000+情境

2025-06-04 08:40:00

發展教育大模型需要新的數據和評估體系！北京理工大學高揚老師團隊推出EduBench，是首個專為教育場景打造的綜合評估基準，涵蓋9大教育場景、12個多視角評估維度、超4000個教育情境。通過多維度評估指標體系和人工標注一致性計算，確保評估可靠性，助力教育大模型發展，推動教育智能化。

為什么發展教育大模型需要新的數據和Eval體系？

AI賦能教育教學，需要從「經驗導向」邁向「證據導向」，真正將AI數據驅動思想賦能到教育場景中，這是核心動力。

教育場景復雜不僅涉及知識深度（基礎教育到高等教育）、知識廣度（涵蓋不同學科），還涉及認知水平不同、個性化需求多樣、教學決策性要求等。

現有面向AGI的通用benchmark側重于知識性的評估，缺乏對真實教育場景的深入探究。

最近，北京理工大學高揚老師團隊近期推出了全球首個全面涵蓋9大教育場景、12個多視角評估維度、超過4000個教育情境，專為教育場景打造的綜合評估基準EduBench??。

為了確保評估的全面性與準確性，EduBench特別設計了一套多維度評估指標體系???，再加上與人工標注者的一致性計算，確保了評估的可靠性。

通過實驗發現，最先進大模型與人之間的評估認知存在的差異，需要進一步對齊。

論文地址：https://arxiv.org/pdf/2505.16160

代碼開源：https://github.com/DIRECT-BIT/EduBench

模型開源：https://huggingface.co/DirectionAI/EDU-Qwen2.5-7B

數據開源：https://huggingface.co/datasets/DirectionAI/EduBench

EduBench的設計考慮到了教育的多樣性和復雜性，包含18821條數據，在學生側和教師側覆蓋了問題解答、個性化學習支持、自動評分、教學資料生成等9大教育場景，涵蓋從基礎教育到高等教育的多學科和不同難度等級。

通過評估12個關鍵維度，如場景適應性、事實與推理準確性、教學應用效果等，EduBench能從多個角度精準衡量大語言模型在教育中的表現，幫助研究者重新審視大語言模型在教育中的適用性與潛力。

更令人振奮的是，研究團隊還將研究的全部訓練數據、模型、測評數據、人工評估數據全面開源，旨在促進教育領域與大模型領域的研究者相互參考與交流，共同推動教育智能化的未來發展。

EduBench：為真實教育場景而生

為了提升大模型在多種真實教育場景下的泛用性，研究團隊分別以學生和教師為導向設計了9大教育場景。

學生側

問題解答（Problem Solving, Q&A）：針對不同的難度的知識性問題，智能助手解答題目
錯誤糾正（Error Correction, EC）：用戶給出一個題目和一個錯誤的回答，智能助手找出錯誤并進行了解釋和修改
思路提供（Idea Provision, IP）：用戶對某個題目或者知識點存在疑問，智能助手提供思路/解釋原理并解答疑問
個性化學習支持（Personalized Learning Support, PLS）：用戶給出學生畫像，智能助手設計學習路徑
情感支持（Emotional Support, ES）：用戶說明問題，智能助手對用戶進行心理輔導

教師側

問題生成（Question Generation, QG）：用戶給出學段、科目、知識點等信息，智能助手按照給定要求生成題目
自動評分（Automatic Grading, AG）：用戶給出一個題目和一個答案，智能助手判斷答案正誤并給出評分和理由
教學資料生成（Teaching Material Generation, TMG）：用戶給出學段、科目、知識點等信息，智能助手按照給定要求生成教學素材
個性化內容創作（Personalized Content Creation, PCC）：用戶給出學生畫像，智能助手規劃教學建議

具體情境包括：(9大場景) * (中文 + 英文) * (簡單 + 中等 + 困難) * (K-12科目 + 高等教育科目) * (簡答 + 單選 + 多選) = 4,019個情境。

EduBench評估

EduBench的評估是分層級體系，包括三個核心維度，每個維度下包含四個子指標。

例如，在場景適應性維度上，評估模型是否能夠準確理解并執行教育任務；在事實與推理準確性維度上，重點考察模型輸出的事實正確性和推理的邏輯性；在教學應用性維度上，則評估模型是否符合教育原則，并能對學生的學習產生積極影響。

通過這些精細化的評估維度，EduBench不僅為大語言模型在教育領域的應用提供了全面的測量工具，也為未來的模型優化和改進提供了明確的方向。

場景適配性（Scenario Adaptation）

指令遵循與任務完成（Instruction Following & Task Completion）
角色與語氣一致性（Role & Tone Consistency）
內容相關性與范圍控制（Content Relevance & Scope Control）
場景元素整合能力（Scenario Element Integration）

事實性與推理準確性（Factual & Reasoning Accuracy）

基礎事實準確性（Basic Factual Accuracy）
領域知識準確性（Domain Knowledge Accuracy）
推理過程嚴謹性（Reasoning Process Rigor）
錯誤識別與糾正精度（Error Identification & Correction Precision）

教學應用性（PedagogicalApplication）

清晰簡潔與積極啟發（Clarity, Simplicity & Inspiration）
激勵引導與積極反饋（Motivation, Guidance & Positive Feedback）
個性化適應與學習支持（Personalization, Adaptation & Learning Support）
高階思維與技能發展（Higher-Order Thinking & Skill Development）

大模型在真實場景下仍有不足

研究團隊使用EduBench對多個主流大語言模型進行了廣泛評估，包括DeepSeek R1、DeepSeek V3、Qwen Max等,這些模型包括不同的參數規模和訓練方式，涵蓋從數十億到數千億參數的各種類型。

每條測試集樣本根據其所屬的任務分類,選取對應的評估維度使用大模型和人類標注分別進行基于給定metric的評估,將模型在每個場景的性能進行量化,下圖展示了評估的結果。

評估結果令人關注：即使是在模型評估中表現最強的模型，在人類標注的結果中某些場景的平均得分也未能突破9分大關。

這一結果表明，模型在適應少數特殊教育場景時仍存在明顯的不足。

{'姓名'：'亞歷克斯·約翰遜'，'年齡'：22，'當前技能水平'：'初級'，'學習目標'：'在一年內實現流利的會話并理解基本的書面漢語'，'研究習慣'：'喜歡視覺學習材料，最好在早上學習，每天分配1小時用于語言學習'，'弱點'：'發音和字符識別'}根據學生個人資料，提供\\「學習路徑規劃\\」和\\「個性化建議\\」，以JSON格式返回。Deepseek-V3回復：{  "學習路徑規劃": {    "短期目標 (1-3個月)": [      "專注于掌握拼音和基本發音規則。",      "學習100個最常用的漢字及其含義。",      "通過使用閃卡和視頻等視覺輔助練習簡單的日常對話。"    ],    "中期目標 (4-6個月)": [      "擴展詞匯量至300-500個，重點關注日常會話主題。",      "通過閱讀簡單的文本或漫畫提高漢字識別能力。",      "通過慢速音頻材料進行基本的聽力練習。"    ],    "長期目標 (7-12個月)": [      "在日常場景中實現會話流利。",      "閱讀并理解基礎中文書寫內容，例如短文或消息。",      "與母語者或語言交換伙伴練習口語表達。"    ]  },  "個性化建議": {    "學習材料": [      "使用Pleco或Anki等應用進行漢字識別和詞匯擴展。",      "觀看適合初學者的帶字幕中文YouTube頻道或電視劇。",      "利用閃卡、信息圖表及圖解詞典等視覺學習工具。"    ],    "學習計劃": [      "在早晨安排專注學習時段，例如發音練習。",      "每天花30分鐘進行聽力練習，另30分鐘進行閱讀或寫作。"    ],    "練習策略": [      "錄制自己的語音以監測和改善發音。",      "加入HelloTalk或Tandem等在線語言交換平臺，與母語者交流練習。",      "參加中文語言聚會或在線社區以進行沉浸式練習。"    ],    "弱點提升": [      "通過模仿母語者及使用像Pinyin Trainer這樣的應用程序專注改進發音。",      "每天練習漢字識別，通過書寫漢字和使用間隔重復工具進行鞏固。"    ]  }}1.3 場景元素整合能力（人類評估）：得分：5/10原因：推薦視覺工具但未具體說明（如"infographics"類型），晨間學習建議籠統。發音改進策略重復問題描述（"mimicking native speakers"），未提出創新方法。4.2 個性化適應與學習支持（人類評估）：得分：6/10原因："join online communities"未說明具體類型，"daily 1 hour"未細化為適合初學者的模塊組合。字符練習建議缺乏進階方案（僅提到"spaced repetition"）。

{'姓名'：'亞歷克斯·約翰遜'，'年齡'：22，'當前技能水平'：'初級'，'學習目標'：'在一年內實現流利的會話并理解基本的書面漢語'，'研究習慣'：'喜歡視覺學習材料，最好在早上學習，每天分配1小時用于語言學習'，'弱點'：'發音和字符識別'}根據學生個人資料，提供\\「學習路徑規劃\\」和\\「個性化建議\\」，以JSON格式返回。
Deepseek-V3回復：
{
  "學習路徑規劃": {
    "短期目標 (1-3個月)": [
      "專注于掌握拼音和基本發音規則。",
      "學習100個最常用的漢字及其含義。",
      "通過使用閃卡和視頻等視覺輔助練習簡單的日常對話。"
    ],
    "中期目標 (4-6個月)": [
      "擴展詞匯量至300-500個，重點關注日常會話主題。",
      "通過閱讀簡單的文本或漫畫提高漢字識別能力。",
      "通過慢速音頻材料進行基本的聽力練習。"
    ],
    "長期目標 (7-12個月)": [
      "在日常場景中實現會話流利。",
      "閱讀并理解基礎中文書寫內容，例如短文或消息。",
      "與母語者或語言交換伙伴練習口語表達。"
    ]
  },
  "個性化建議": {
    "學習材料": [
      "使用Pleco或Anki等應用進行漢字識別和詞匯擴展。",
      "觀看適合初學者的帶字幕中文YouTube頻道或電視劇。",
      "利用閃卡、信息圖表及圖解詞典等視覺學習工具。"
    ],
    "學習計劃": [
      "在早晨安排專注學習時段，例如發音練習。",
      "每天花30分鐘進行聽力練習，另30分鐘進行閱讀或寫作。"
    ],
    "練習策略": [
      "錄制自己的語音以監測和改善發音。",
      "加入HelloTalk或Tandem等在線語言交換平臺，與母語者交流練習。",
      "參加中文語言聚會或在線社區以進行沉浸式練習。"
    ],
    "弱點提升": [
      "通過模仿母語者及使用像Pinyin Trainer這樣的應用程序專注改進發音。",
      "每天練習漢字識別，通過書寫漢字和使用間隔重復工具進行鞏固。"
    ]
  }
}
1.3 
場景元素整合能力（人類評估）：
得分：5/10
原因：推薦視覺工具但未具體說明（如"infographics"類型），晨間學習建議籠統。發音改進策略重復問題描述（"mimicking native speakers"），未提出創新方法。
4.2 
個性化適應與學習支持（人類評估）：
得分：6/10
原因："join online communities"未說明具體類型，"daily 1 hour"未細化為適合初學者的模塊組合。字符練習建議缺乏進階方案（僅提到"spaced repetition"）。

盡管這些模型在大多數常見教育任務中展現了較為出色的表現，但在面對一些復雜或特殊的教育情境時，仍難以做到與人類標注者相匹配。

這種差距可能源于模型對這些場景的理解能力和應對策略的局限性，尤其是在涉及復雜推理、情感識別或個性化反饋的任務中，模型的適應性和準確性仍需進一步提升。

為什么模型給分高于人類評分？

在上表可以清楚地觀察到，模型的評分普遍高于人類標注者。在metric和domain兩個層面，模型的得分通常大于人類評分近1分。

特別是在Q&A這一領域，模型的得分通常在9分以上，而人類評分僅為6-7分，兩者之間2分的差距，反映在具體metric評分細則上存在較大差異。

研究團隊認為，這種現象可能由以下兩方面原因造成：

模型對評分細則的理解存在偏差，但這一問題可以通過后續訓練加以解決，特別是因為當前使用的評估模型尚為通用模型，未經過專門的獎勵訓練；
現有的大模型不傾向于給出負面反饋，導致模型評估中對用戶問題或答案的評價過于寬容。研究團隊認為，后續的訓練和對齊將有助于緩解這一問題，這也是值得進一步探索的重點方向。

多源知識蒸餾方法使小模型反敗為勝

基于EduBench的評估結果，研究團隊根據大模型和人類標注員在驗證集上的評估結果挑選出了在每個教育場景中表現最為出色的模型，并將這些頂尖模型的知識進行融合，構建成一個多源知識蒸餾源模型組合。

這一創新策略不僅使得各個模型的優勢得以有效整合，還為訓練小規模模型提供了全新的可能性。通過這一多源知識蒸餾的方式，團隊成功將多個優秀模型的知識精華提取，并應用于一個7B教育模型的訓練。

實驗結果令人震驚——即便是如此小規模的模型，在使用約17000個篩選后的訓練樣本的情況下，經過蒸餾訓練后，能夠在多個關鍵評估指標上，達到與671B的DeepSeek V3相媲美的性能。

這一突破為資源受限的教育場景提供了全新的解決方案，同時也為大語言模型的高效利用開辟了新的路徑。

大模型與人類決策有多大差距？

在使用模型進行評估之后，研究團隊進一步采用Kendall's W來衡量不同評估模型之間，以及評估模型與人類標注之間的一致性。

整體來看，DeepSeek-V3作為評估模型，與人類標注者的表現展示出了最高的一致性。

盡管模型與人類標注之間的一致性表現得相對明顯，但并未達到高度的一致，具體的分數給定上仍存在一定差距。

打分為什么選擇Point-wise？Pair-wise有什么缺點

在研究的最初階段，研究團隊采用了pair-wise的評估方式，即讓模型從兩個答案中選擇一個最優答案。

然而，在實驗過程中，團隊發現了一個問題：模型選擇答案的結果受到了兩個答案在prompt中組織順序的顯著影響。

這一現象在GPT-4o上表現得尤為明顯——當兩個答案被對比時，模型傾向于選擇排在前面的答案，選擇的比例甚至達到了70-80%

這表明，模型的選擇過程已經被答案的順序高度干擾，導致評估結果的偏差。相對而言，QwQ-Plus模型展現出了較高的一致性，其選擇結果并未受到答案順序的明顯影響。

基于這一發現，研究團隊最終決定轉向point-wise評估方式，這種方式不僅更加公平，而且避免了順序干擾，能夠更準確地反映模型在各個維度上的表現。

未來工作

當前所有的問題查詢數據均由模型生成，這可能無法全面反映真實或多樣化的用戶意圖。為了進一步提升評估的準確性，研究團隊計劃加入更多人工編寫的查詢，以彌補模型生成數據的局限性。
此外，大多數評估指標和任務場景是手動設計的，自動化這些過程將顯著提高評估的可擴展性與一致性。研究團隊正在探索如何通過自動化手段優化評估流程，確保更廣泛的適用性和更高的效率。
研究團隊將持續維護該評估基準，形成發展的教育場景數據和更完善的評估體系，助力教育大模型發展和智慧教育推廣。

總結

EduBench的發布，為教育大模型的推廣提供了科學全面的評估框架和高質量數據資源。它不僅為研究人員提供了深刻的洞察，幫助他們理解并優化大語言模型在教育場景中的表現，還為教育工作者提供了強有力的工具，助力提升教學效率和質量。

隨著更多教育場景的不斷加入與評估指標的逐步完善，EduBench有望成為推動教育AI發展的核心平臺。

研究團隊也期待與更多對大語言模型在教育應用方面有興趣的學者與從業者合作，共同開拓這一領域的潛力，推動教育走向更加個性化、智能化的未來。

責任編輯：張燕妮來源：新智元

AI 教育生成