精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

有趣的實(shí)驗(yàn),大型語言模型作為導(dǎo)師與人類導(dǎo)師的盲測(cè)比較

發(fā)布于 2025-7-4 00:20
瀏覽
0收藏

引言:人工智能輔導(dǎo)的新紀(jì)元

隨著大型語言模型(LLMs)技術(shù)的飛速發(fā)展,其應(yīng)用邊界正以前所未有的速度擴(kuò)展,其中教育領(lǐng)域,特別是個(gè)人化輔導(dǎo),展現(xiàn)出巨大的潛力。利用LLMs作為后端,構(gòu)建各種智能輔導(dǎo)系統(tǒng)(Intelligent Tutoring Systems, ITSs)和學(xué)習(xí)助手已成為研究和應(yīng)用的熱點(diǎn)。從可汗學(xué)院的Khanmigo到各類編程學(xué)習(xí)輔助工具,AI正逐步滲透到學(xué)習(xí)的各個(gè)環(huán)節(jié)。學(xué)生群體中,使用如ChatGPT等通用工具進(jìn)行學(xué)習(xí)輔dǎo的現(xiàn)象也日益普遍,這標(biāo)志著一種由學(xué)習(xí)者自發(fā)驅(qū)動(dòng)的教育技術(shù)變革正在發(fā)生。

然而,盡管LLM在教育場(chǎng)景中迅速普及,我們對(duì)其教學(xué)效果,尤其是與人類導(dǎo)師相比的優(yōu)劣,仍缺乏清晰、實(shí)證的認(rèn)知。傳統(tǒng)的教育互動(dòng)是一種多模態(tài)的復(fù)雜體驗(yàn),遠(yuǎn)超文本交流的范疇。人類導(dǎo)師在情感洞察、肢體語言、聲音語調(diào)和情境感知上擁有無可比擬的天然優(yōu)勢(shì)。他們能從學(xué)生緊蹙的眉頭中讀出困惑,能用一個(gè)鼓勵(lì)的眼神重燃學(xué)生的信心,這種物理存在本身就提供了一種情感上的支持。那么,當(dāng)剝離掉所有這些非文本因素,在一個(gè)純粹的、匿名的文本交流環(huán)境中,LLM導(dǎo)師的表現(xiàn)究竟如何?

一個(gè)優(yōu)秀的導(dǎo)師,無論其形態(tài)如何,都需要具備一系列核心教學(xué)品質(zhì)。這包括引導(dǎo)學(xué)生深度參與(Engagement),而非被動(dòng)接收;與學(xué)生建立情感連接并表示理解的共情(Empathy);通過精妙的引導(dǎo)為學(xué)生搭建認(rèn)知腳手架(Scaffolding),助其獨(dú)立攀登知識(shí)高峰;以及保持對(duì)話高效、目標(biāo)明確的簡(jiǎn)潔性(Conciseness)。這些品質(zhì)在文本環(huán)境中顯得尤為重要,因?yàn)檎`解的可能性更高,而建立信任和動(dòng)力的渠道更少。LLM能否在這些關(guān)鍵方面與人類導(dǎo)師媲美,甚至在某些方面超越我們固有的認(rèn)知?

為了回答這一核心問題,瑞士蘇黎世理工和博科尼大學(xué)的研究人員在論文《Educators’ Perceptions of Large Language Models as Tutors: Comparing Human and AI Tutors in a Blind Text-only Setting》中設(shè)計(jì)了一個(gè)嚴(yán)謹(jǐn)?shù)拿y(cè)實(shí)驗(yàn),邀請(qǐng)具有教學(xué)經(jīng)驗(yàn)的教育工作者,在對(duì)輔導(dǎo)者身份(人類或AI)完全不知情的情況下,直接比較和評(píng)估LLM導(dǎo)師與人類導(dǎo)師在小學(xué)數(shù)學(xué)應(yīng)用題輔導(dǎo)對(duì)話中的表現(xiàn)。研究的核心貢獻(xiàn)在于:首先,創(chuàng)建了一個(gè)新穎、可復(fù)現(xiàn)的實(shí)驗(yàn)框架,用于在盲選配對(duì)的設(shè)置中,讓人類標(biāo)注者對(duì)輔導(dǎo)對(duì)話片段進(jìn)行細(xì)致的比較;其次,利用該框架,讓專業(yè)的教師群體在四個(gè)核心教學(xué)潛在因素上,對(duì)兩種形態(tài)的導(dǎo)師進(jìn)行直接的優(yōu)劣評(píng)判;最后,該研究慷慨地公開了包含210組標(biāo)注對(duì)話的數(shù)據(jù)集,為未來學(xué)界更深入地探索LLM與人類教育判斷的對(duì)齊問題提供了寶貴的資源。

研究結(jié)果出人意料,卻又在情理之中,深刻地挑戰(zhàn)了我們對(duì)“人性化教學(xué)”的傳統(tǒng)假設(shè)。在所有四個(gè)評(píng)估維度上,擁有教學(xué)經(jīng)驗(yàn)的標(biāo)注者普遍認(rèn)為L(zhǎng)LM導(dǎo)師的表現(xiàn)優(yōu)于人類導(dǎo)師。研究結(jié)果中最具顛覆性的一點(diǎn)是,在傳統(tǒng)上被認(rèn)為是人類核心優(yōu)勢(shì)與情感壁壘的‘共情’維度上,LLM的表現(xiàn)不僅沒有落后,反而展現(xiàn)出最為顯著的優(yōu)勢(shì)——高達(dá)80%的教育工作者更頻繁地偏愛LLM導(dǎo)師。這一發(fā)現(xiàn)并非簡(jiǎn)單地宣告AI的勝利,而是為L(zhǎng)LM作為導(dǎo)師描繪了一幅復(fù)雜而積極的圖景,預(yù)示著這些模型未來有望在教育領(lǐng)域有效分擔(dān)人類教師的負(fù)擔(dān),將他們從重復(fù)性的認(rèn)知?jiǎng)趧?dòng)中解放出來,從而引發(fā)教育模式的深刻變革。

研究框架與方法論構(gòu)建

為了公正、客觀地比較人類與LLM導(dǎo)師,研究者需要一個(gè)能夠控制變量、消除偏見的實(shí)驗(yàn)設(shè)計(jì)。該研究的方法論構(gòu)建極為精妙,從數(shù)據(jù)集的對(duì)偶選擇、評(píng)估指標(biāo)的嚴(yán)謹(jǐn)定義到雙盲實(shí)驗(yàn)的流程設(shè)計(jì),每一步都體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)思維,旨在隔離出純粹的教學(xué)對(duì)話質(zhì)量進(jìn)行比較。

數(shù)據(jù)集的對(duì)偶選擇:MathDial與MWPTutor

比較研究的關(guān)鍵前提是獲得可比的、平行的學(xué)生-導(dǎo)師互動(dòng)數(shù)據(jù)。在理想的對(duì)照實(shí)驗(yàn)中,所有變量都應(yīng)被控制,只留下一個(gè)自變量。讓同一位人類學(xué)生與人類導(dǎo)師和LLM導(dǎo)師分別進(jìn)行完全相同的對(duì)話,這在現(xiàn)實(shí)中是不可能實(shí)現(xiàn)的,因?yàn)閷W(xué)生的記憶和狀態(tài)會(huì)發(fā)生改變。因此,研究者巧妙地選擇了學(xué)生角色由AI模擬的數(shù)據(jù)集,從而實(shí)現(xiàn)了實(shí)驗(yàn)環(huán)境的高度一致性,確保了比較的公平性。

人類導(dǎo)師對(duì)話來源:MathDial數(shù)據(jù)集

MathDial是一個(gè)包含約3000個(gè)師生對(duì)話的公開數(shù)據(jù)集,專注于修正學(xué)生在數(shù)學(xué)應(yīng)用題(MWPs)中的各種典型錯(cuò)誤。這些數(shù)學(xué)題源自公認(rèn)的GSM8K基準(zhǔn)測(cè)試集,而學(xué)生的錯(cuò)誤概念則由強(qiáng)大的InstructGPT模型生成,模擬了真實(shí)學(xué)生可能出現(xiàn)的邏輯斷裂或計(jì)算失誤。該數(shù)據(jù)集的“導(dǎo)師”是在知名的眾包平臺(tái)Proflific上招募的、經(jīng)過篩選聲稱具有教學(xué)經(jīng)驗(yàn)的標(biāo)注者。他們被要求與一個(gè)扮演“持有特定錯(cuò)誤觀念的學(xué)生”的InstructGPT實(shí)例進(jìn)行純文本對(duì)話。核心指令是引導(dǎo)學(xué)生自行發(fā)現(xiàn)并修正錯(cuò)誤,明確要求“避免直接給出答案”。這意味著他們需要運(yùn)用探究式提問、分解問題等教學(xué)技巧。除了這一核心約束,這些人類導(dǎo)師可以像輔導(dǎo)真實(shí)學(xué)生一樣自由發(fā)揮。這種設(shè)置不僅使得研究者可以低成本地復(fù)現(xiàn)相似的對(duì)話場(chǎng)景,也為我們提供了一個(gè)觀察人類教師在無情感負(fù)擔(dān)、任務(wù)驅(qū)動(dòng)環(huán)境下教學(xué)行為的獨(dú)特窗口。

LLM導(dǎo)師對(duì)話來源:MWPTutor系統(tǒng)

對(duì)于LLM導(dǎo)師,研究者展現(xiàn)了高度的審慎,沒有直接使用一個(gè)通用的、未經(jīng)約束的大模型(如GPT-4o)。初步的探索性實(shí)驗(yàn)發(fā)現(xiàn),即便是最先進(jìn)的通用模型,在輔導(dǎo)中也可能給出事實(shí)性錯(cuò)誤的反饋,例如,將學(xué)生的錯(cuò)誤答案判斷為正確,或在推導(dǎo)過程中引入新的邏輯謬誤。一個(gè)導(dǎo)師如果連知識(shí)的準(zhǔn)確性都無法保證,那么對(duì)其同理心、參與度等“軟技能”的評(píng)估就失去了根基和意義,因?yàn)殄e(cuò)誤的知識(shí)傳遞本身就是最大的“不負(fù)責(zé)任”。

因此,研究者選用了MWPTutor的對(duì)話數(shù)據(jù)。MWPTutor是一個(gè)專門為數(shù)學(xué)應(yīng)用題輔導(dǎo)設(shè)計(jì)的、基于LLM的智能輔導(dǎo)系統(tǒng)。其核心優(yōu)勢(shì)在于通過在GPT模型之上施加一系列精心設(shè)計(jì)的“護(hù)欄”(guardrails)來確保教學(xué)內(nèi)容的正確性。這些護(hù)欄就像一個(gè)內(nèi)置的“事實(shí)核查與教學(xué)法監(jiān)督”層,它使用一個(gè)有限狀態(tài)轉(zhuǎn)換器(Finite State Transducer)來結(jié)構(gòu)化地引導(dǎo)LLM生成符合預(yù)設(shè)教學(xué)策略和知識(shí)約束的最佳教師話語。同時(shí),為了確保可比性,MWPTutor也與MathDial使用了完全相同的InstructGPT學(xué)生模型。在具體選擇上,研究者挑選了MWPTutor在其原論文中報(bào)告的表現(xiàn)最優(yōu)的版本(MWPTutor-live)。

為了進(jìn)行嚴(yán)格的直接比較,研究者選取了210個(gè)數(shù)學(xué)應(yīng)用題,為每個(gè)問題精心匹配了一組來自MathDial的人類導(dǎo)師對(duì)話和一組來自MWPTutor的LLM導(dǎo)師對(duì)話。對(duì)于MathDial,如果一個(gè)問題有多組對(duì)話記錄,則選擇時(shí)間戳最早的一組,以減少潛在的模仿效應(yīng)。對(duì)于MWPTutor,測(cè)試集問題直接使用其已發(fā)布的數(shù)據(jù),其余訓(xùn)練集問題則使用其公開的代碼重新生成對(duì)話,確保了數(shù)據(jù)生成過程的透明度和可復(fù)現(xiàn)性。

核心評(píng)估指標(biāo)的定義與理論依據(jù)

輔導(dǎo)是一項(xiàng)復(fù)雜的、多維度的任務(wù),將其質(zhì)量完全量化幾乎是不可能的。研究者需要一套既能從純文本中被專業(yè)人士判斷,又具有一定的綜合性和主觀性以便于進(jìn)行優(yōu)劣比較,同時(shí)數(shù)量可控以避免標(biāo)注者疲勞的評(píng)估指標(biāo)。受多項(xiàng)先前教育學(xué)和人機(jī)交互研究的啟發(fā),最終確定了四個(gè)相輔相成、覆蓋關(guān)鍵教學(xué)環(huán)節(jié)的核心維度:

1. 參與度(Engagement)

  • 定義:“學(xué)生在學(xué)習(xí)中表現(xiàn)出的投入或感興趣的程度”。一個(gè)高參與度的導(dǎo)師應(yīng)該能敏銳地理解學(xué)生在何處掙扎并作出精準(zhǔn)回應(yīng)。如果學(xué)生提出了一種解題思路,無論其對(duì)錯(cuò),導(dǎo)師都應(yīng)該首先確認(rèn)并處理這個(gè)思路,要么順著它引導(dǎo)、要么清晰地解釋為何該思路行不通,而不是生硬地打斷、強(qiáng)行推銷自己的“標(biāo)準(zhǔn)答案”或完全忽略學(xué)生的提問。它衡量的是導(dǎo)師是否“在聽”并且“在乎”學(xué)生的想法。
  • 理論價(jià)值:學(xué)生的高度參與度是主動(dòng)學(xué)習(xí)的先決條件,與更深層次的理解和更持久的記憶呈顯著正相關(guān)。這一效應(yīng)在近期的LLM導(dǎo)師研究中也得到了反復(fù)驗(yàn)證。缺乏參與感的互動(dòng)只會(huì)淪為單向的知識(shí)灌輸。

2. 共情(Empathy)

  • 定義:導(dǎo)師理解學(xué)生在學(xué)習(xí)過程中所面臨的困難、挫敗和不確定性,并以一種能夠維持其學(xué)習(xí)動(dòng)機(jī)和自信心的方式作出反應(yīng)的能力。這在文本中具體表現(xiàn)為:使用“我們”而非“你”來共同指代解題者,營(yíng)造合作氛圍;將失敗歸因于問題的客觀難度(“這個(gè)問題確實(shí)有點(diǎn)繞”)而非學(xué)生的能力不足(“你沒理解對(duì)”);以及對(duì)學(xué)生的每一個(gè)正確步驟,無論多么微小,都給予及時(shí)的、真誠的積極強(qiáng)化(“做得好!”“這個(gè)思路很棒!”)。
  • 理論價(jià)值:共情是建立師生信任關(guān)系的基石,被大多數(shù)教育者視為教師最重要的品質(zhì)之一,并且與學(xué)生的積極學(xué)習(xí)成果、尤其是面對(duì)困難時(shí)的堅(jiān)韌性相關(guān)。值得注意的是,此處的“共情”主要指情感共情(Emotional Empathy),而認(rèn)知共情(Cognitive Empathy),即理解他人想法的能力,在一定程度上被“參與度”所覆蓋。

3. 腳手架(Scaffolding)

  • 定義:源自維果茨基“最近發(fā)展區(qū)”理論,指導(dǎo)師不直接揭示答案或解決方案,而是通過提供恰到好處的提示、問題、工具或分解步驟,控制問題解決過程中的復(fù)雜元素,從而使學(xué)生能夠依靠自己的力量達(dá)成解決方案。其核心在于“授人以漁”,幫助學(xué)生不僅理解當(dāng)前問題的解法,更能內(nèi)化背后的概念和思維方式。好的腳手架表現(xiàn)為導(dǎo)師只提供溫和的、必要的推動(dòng),讓學(xué)生完成大部分有意義的認(rèn)知工作。
  • 理論價(jià)值:“腳手架”是現(xiàn)代建構(gòu)主義教育學(xué)中的一個(gè)核心概念,被證明能有效促進(jìn)學(xué)生的深度學(xué)習(xí)、元認(rèn)知能力和獨(dú)立解決問題的能力。在MathDial和MWPTutor的設(shè)計(jì)理念中,這都是一個(gè)首要的、非妥協(xié)的目標(biāo)。

4. 簡(jiǎn)潔性(Conciseness)

  • 定義:優(yōu)秀的導(dǎo)師應(yīng)該總是努力推動(dòng)問題取得有意義的進(jìn)展,避免讓學(xué)生重復(fù)已經(jīng)正確完成的步驟或進(jìn)行冗余、無效的操作。對(duì)話的簡(jiǎn)潔性關(guān)乎學(xué)習(xí)效率和學(xué)生的認(rèn)知負(fù)荷。它不是指話語的絕對(duì)長(zhǎng)度,而是指信息傳遞的效率和進(jìn)展的清晰度。
  • 理論價(jià)值:雖然在傳統(tǒng)教育理論中不常被單獨(dú)強(qiáng)調(diào),但在純文本的單一模態(tài)互動(dòng)中,其重要性被急劇放大。根據(jù)認(rèn)知負(fù)荷理論,冗長(zhǎng)、繞圈子和停滯不前的對(duì)話會(huì)顯著增加學(xué)習(xí)者的外在認(rèn)知負(fù)荷(extraneous cognitive load),從而擠占用于學(xué)習(xí)本身的內(nèi)在認(rèn)知負(fù)荷資源,最終損害學(xué)習(xí)成果。它還可能導(dǎo)致挫敗感、厭倦,并可能超出學(xué)生的最佳注意力跨度。

盲測(cè)實(shí)驗(yàn)的設(shè)計(jì)與執(zhí)行

為了確保評(píng)估的公正性、消除任何潛在的偏見,研究采用了一個(gè)極其精密的雙盲實(shí)驗(yàn)流程。

  • 對(duì)話截?cái)嗯c權(quán)衡:考慮到讓標(biāo)注者閱讀并比較完整的長(zhǎng)對(duì)話會(huì)極大地增加其認(rèn)知負(fù)荷和評(píng)估時(shí)間,且對(duì)話的整體基調(diào)和導(dǎo)師風(fēng)格通常在前幾輪互動(dòng)中就已奠定,研究者決定將所有對(duì)話統(tǒng)一截?cái)酁榍?輪(turns)。這個(gè)長(zhǎng)度的選擇并非隨意,它大致對(duì)應(yīng)了心理學(xué)上著名的米勒定律所提出的人類短期工作記憶容量的下限(7±2個(gè)項(xiàng)目),確保了標(biāo)注者可以在不超載的情況下處理信息。研究者承認(rèn)這是一種權(quán)衡,可能會(huì)錯(cuò)過對(duì)話后期的發(fā)展,但這是在有限資源下保證大規(guī)模、高質(zhì)量評(píng)估的必要之舉。
  • 雙盲調(diào)查平臺(tái)與流程:實(shí)驗(yàn)在專業(yè)的在線調(diào)查平臺(tái)FillOut上進(jìn)行,確保了流程的標(biāo)準(zhǔn)化和數(shù)據(jù)的可靠收集。210組對(duì)話被隨機(jī)分成7個(gè)批次,每批30組,以控制單次標(biāo)注時(shí)長(zhǎng)在45-60分鐘的合理范圍內(nèi)。標(biāo)注者首先會(huì)接受一個(gè)詳細(xì)的培訓(xùn),學(xué)習(xí)任務(wù)的總體描述和四個(gè)評(píng)估指標(biāo)的具體定義及正反案例。然后,對(duì)每一組對(duì)話,他們會(huì)看到一個(gè)介紹當(dāng)前數(shù)學(xué)題的獨(dú)立頁面,隨后是四個(gè)分別針對(duì)“簡(jiǎn)潔性”、“參與度”、“共情”和“腳手架”的評(píng)估頁面。每個(gè)評(píng)估頁面都會(huì)并排展示兩個(gè)被完全匿名的對(duì)話片段(僅標(biāo)注為“左”和“右”,其左右位置在不同標(biāo)注者和不同問題間完全隨機(jī)化,以消除任何可能的位置偏見),并要求標(biāo)注者在“左邊更好”、“右邊更好”或“兩者相當(dāng)”三個(gè)選項(xiàng)中做出選擇。
  • 專業(yè)的參與者招募:研究共招募了35名Proflific平臺(tái)的標(biāo)注者。篩選條件與原始的MathDial數(shù)據(jù)集完全一致,即要求標(biāo)注者自我報(bào)告為流利使用英語并擁有一定的教學(xué)經(jīng)驗(yàn)。為了進(jìn)一步確保人口統(tǒng)計(jì)學(xué)的多樣性和結(jié)果的普適性,研究者還特意平衡并招募了特定性別(14名男性,21名女性)和年齡段(從20歲到74歲,中位數(shù)為34歲)的群體。
  • LLM作為基準(zhǔn)評(píng)估者:作為一種有趣的參照和對(duì)齊度量的探索,研究者還讓三個(gè)當(dāng)時(shí)最先進(jìn)的大型語言模型(GPT-4o, Qwen-72B, Llama-3.1-405B)作為“AI標(biāo)注者”,執(zhí)行了與人類完全相同的評(píng)估任務(wù)。每個(gè)模型對(duì)每組對(duì)話評(píng)估兩次,并在第二次評(píng)估時(shí)交換兩個(gè)對(duì)話的左右順序,以檢測(cè)和減少LLM自身可能存在的位置偏見。

數(shù)據(jù)呈現(xiàn)的意外事實(shí):LLM在關(guān)鍵教學(xué)維度上的表現(xiàn)

通過對(duì)收集到的35份人類標(biāo)注和3份LLM標(biāo)注數(shù)據(jù)進(jìn)行嚴(yán)謹(jǐn)?shù)牧炕治觯芯拷沂玖薒LM導(dǎo)師與人類導(dǎo)師在四個(gè)核心教學(xué)維度上的顯著差異,并進(jìn)一步通過細(xì)粒度的剖析,探討了這些差異背后發(fā)人深省的可能原因。

量化評(píng)分體系的建立

為了便于進(jìn)行統(tǒng)計(jì)分析和可視化比較,研究者將標(biāo)注者的定性選擇轉(zhuǎn)化為定量的數(shù)值“得分”。對(duì)于每一組對(duì)話和每一個(gè)評(píng)估指標(biāo),“MWPTutor(LLM導(dǎo)師)更好”被記為+1分,“MathDial(人類導(dǎo)師)更好”被記為-1分,而“兩者相當(dāng)”則記為0分。由于每組對(duì)話有5名人類標(biāo)注者進(jìn)行評(píng)估,因此任何一組對(duì)話在某個(gè)指標(biāo)上的人類評(píng)分總分范圍是從-5(所有5人都認(rèn)為人類導(dǎo)師更好)到+5(所有5人都認(rèn)為L(zhǎng)LM導(dǎo)師更好)。同理,由于有3個(gè)LLM進(jìn)行評(píng)估,LLM評(píng)分的總分范圍是從-3到+3分。這個(gè)得分體系清晰地量化了對(duì)MWPTutor的偏好強(qiáng)度。

LLM的自我評(píng)價(jià):不出所料的壓倒性優(yōu)勢(shì)

首先審視LLM評(píng)估者的結(jié)果(圖1)。數(shù)據(jù)呈現(xiàn)出一邊倒的態(tài)勢(shì):三個(gè)LLM在所有四個(gè)指標(biāo)上都以壓倒性的優(yōu)勢(shì)偏愛由同類生成的MWPTutor(LLM導(dǎo)師)的對(duì)話。這種結(jié)果雖然引人注目,但需要用批判性的眼光來解讀。它很可能源于LLM對(duì)同類(即由算法和模型生成的文本)的內(nèi)在偏好或“內(nèi)群體偏見”。LLM生成的文本通常在風(fēng)格、結(jié)構(gòu)和用詞上具有某些共性,這使得其他LLM在評(píng)估時(shí)可能會(huì)因其“可預(yù)測(cè)性”和“一致性”而給予更高的評(píng)價(jià)。因此,這一結(jié)果更多地是作為后續(xù)與人類判斷進(jìn)行對(duì)比的基線,而非獨(dú)立的結(jié)論。

有趣的實(shí)驗(yàn),大型語言模型作為導(dǎo)師與人類導(dǎo)師的盲測(cè)比較-AI.x社區(qū)

[圖1: 各項(xiàng)指標(biāo)下LLM評(píng)分的對(duì)話組比例分布]

人類教育者的評(píng)判:趨勢(shì)一致但更顯細(xì)致與復(fù)雜

當(dāng)轉(zhuǎn)向人類標(biāo)注者的結(jié)果時(shí)(圖2),畫面變得更加微妙,也更具說服力。雖然不像LLM的評(píng)判那樣極端,但總體趨勢(shì)驚人地一致且清晰:在所有四個(gè)評(píng)估指標(biāo)上,MWPTutor的表現(xiàn)在教育者眼中均系統(tǒng)性地優(yōu)于人類導(dǎo)師(MathDial)

有趣的實(shí)驗(yàn),大型語言模型作為導(dǎo)師與人類導(dǎo)師的盲測(cè)比較-AI.x社區(qū)

[圖2: 各項(xiàng)指標(biāo)下人類評(píng)分的對(duì)話組比例分布]

從詳細(xì)的統(tǒng)計(jì)數(shù)據(jù)來看(表1),這種優(yōu)勢(shì)并非偶然。在“簡(jiǎn)潔性”、“共情”和“腳手架”這三個(gè)指標(biāo)上,LLM導(dǎo)師的優(yōu)勢(shì)是高度統(tǒng)計(jì)顯著的(p < 0.001),這意味著這種差異極不可能是由隨機(jī)因素造成的。“參與度”指標(biāo)雖然也整體傾向于MWPTutor,但其差異尚未達(dá)到統(tǒng)計(jì)學(xué)上的顯著水平,這暗示了在該維度上兩者表現(xiàn)更為接近或更具爭(zhēng)議性。

有趣的實(shí)驗(yàn),大型語言模型作為導(dǎo)師與人類導(dǎo)師的盲測(cè)比較-AI.x社區(qū)圖片

一個(gè)同樣值得注意的現(xiàn)象是,代表標(biāo)注者之間一致性程度的Fleiss' Kappa系數(shù)普遍不高。這再次印證了評(píng)估教學(xué)質(zhì)量這一任務(wù)本身的高度主觀性和復(fù)雜性。即便是經(jīng)驗(yàn)豐富的教育者,對(duì)于“什么是更好的教學(xué)互動(dòng)”也可能持有不同甚至沖突的觀點(diǎn)。這恰恰凸顯了這項(xiàng)研究采用多人標(biāo)注和統(tǒng)計(jì)分析的必要性。

各項(xiàng)指標(biāo)的深入剖析

1. 簡(jiǎn)潔性(Conciseness)

  • 驚人的反差與悖論:從t-score來看,MWPTutor在簡(jiǎn)潔性上的優(yōu)勢(shì)是所有指標(biāo)中最顯著的。這非常令人驚訝,甚至可以說是一個(gè)悖論。因?yàn)榕c被明確告知要引導(dǎo)學(xué)生、可能因此拉長(zhǎng)對(duì)話的MathDial人類標(biāo)注者不同,MWPTutor背后的LLM并沒有被任何明確的指令要求它要保持對(duì)話簡(jiǎn)短。事實(shí)上,通過對(duì)原始數(shù)據(jù)的分析發(fā)現(xiàn),在全部210組對(duì)話中,有多達(dá)135組中MWPTutor的對(duì)話輪數(shù)比MathDial更多。
  • “感知的簡(jiǎn)潔”遠(yuǎn)重于“物理的長(zhǎng)度”:這一悖論引出了一個(gè)深刻的洞見。數(shù)據(jù)顯示,當(dāng)MWPTutor的對(duì)話物理上更短時(shí),它有高達(dá)74%的概率被選為更簡(jiǎn)潔;然而,當(dāng)MathDial的對(duì)話物理上更短時(shí),它卻只有40%的概率被選為更簡(jiǎn)潔。這有力地證明了,標(biāo)注者所感知的“簡(jiǎn)潔性”并非單純由對(duì)話的絕對(duì)長(zhǎng)度或輪數(shù)決定,而更多地與一種主觀的“在對(duì)話中取得有效進(jìn)展的感覺”有關(guān)。MWPTutor可能更擅長(zhǎng)構(gòu)建一種邏輯清晰、步步為營(yíng)的話語框架,使得它的每一句話都被視為一個(gè)有效的步驟,從而讓標(biāo)注者覺得它在高效地推動(dòng)問題解決,即使其實(shí)際上更為“話癆”。

2. 共情(Empathy)

  • LLM出乎意料的最大優(yōu)勢(shì):人類共情的表達(dá)在很大程度上依賴于聲音、表情等非語言線索,因此僅從冰冷的文本片段中進(jìn)行判斷必然會(huì)存在噪聲和不確定性,這一點(diǎn)也體現(xiàn)在共情得分相對(duì)較高的標(biāo)準(zhǔn)差上。盡管如此,結(jié)果卻清晰地顯示,標(biāo)注者普遍認(rèn)為MWPTutor比人類同伴更具共情心。
  • 與情感分析的高度關(guān)聯(lián):為了驗(yàn)證這一主觀判斷,研究者引入了客觀的情感分析工具。結(jié)果發(fā)現(xiàn),更高的共情得分與導(dǎo)師話語中更強(qiáng)的“喜悅”(Joy)情緒(R=0.36)和更弱的“憤怒”(Anger)情緒(R=?0.32)存在顯著的相關(guān)性。這與我們對(duì)共情的直觀理解——即積極、鼓勵(lì)、避免指責(zé)——完全相符。更有趣的是,讓GPT-4對(duì)所有對(duì)話進(jìn)行情感定性分析,其結(jié)論也證實(shí),與MathDial相比,MWPTutor的話語中表現(xiàn)出顯著更多的喜悅和更少的憤怒。這表明LLM在“表演”共情方面,至少在文本上,是系統(tǒng)性且有效的。

3. 參與度(Engagement)

  • 唯一不顯著的指標(biāo)及其背后機(jī)制:這是唯一一個(gè)LLM的優(yōu)勢(shì)不具備統(tǒng)計(jì)顯著性的指標(biāo),這使其成為一個(gè)特別有價(jià)值的分析對(duì)象。研究者沒有止步于表面數(shù)據(jù),而是深入分析了MWPTutor系統(tǒng)的內(nèi)部工作機(jī)制,從而發(fā)現(xiàn)了一個(gè)關(guān)鍵的解釋因素。MWPTutor有兩種截然不同的對(duì)話開啟方式:當(dāng)學(xué)生的錯(cuò)誤方案與系統(tǒng)預(yù)存的正確解法路徑部分匹配時(shí),它會(huì)從學(xué)生正確的那一步開始,進(jìn)行引導(dǎo)和修正(研究者稱之為Continue場(chǎng)景);然而,當(dāng)學(xué)生的方案與任何已知路徑完全不匹配時(shí),它會(huì)判定學(xué)生的思路可能已完全跑偏,于是選擇忽略學(xué)生的方案,從一個(gè)全新的、更基礎(chǔ)的起點(diǎn)開始提問(Fresh場(chǎng)景)。
  • “被忽略”的沉重代價(jià):數(shù)據(jù)顯示,在Continue場(chǎng)景下(占對(duì)話總數(shù)的45.5%),MWPTutor的參與度平均分高達(dá)1.42,顯著優(yōu)于人類導(dǎo)師。這說明當(dāng)LLM能夠“接住”學(xué)生的思路時(shí),其表現(xiàn)非常出色。然而,在Fresh場(chǎng)景下(占54.5%),其平均分驟降至-0.84,表現(xiàn)明顯劣于人類導(dǎo)師。研究者給出了一個(gè)極具說服力的推斷:由于標(biāo)注者看不到學(xué)生最初提交的、可能完全錯(cuò)誤的解答過程,當(dāng)他們看到導(dǎo)師完全無視學(xué)生(雖然看不見但可以想象存在的)想法,直接另起爐灶時(shí),會(huì)將其直接感知為“未能與學(xué)生的思路進(jìn)行有效互動(dòng)”,即一種低參與度的表現(xiàn),從而給出了懲罰性的低分。這深刻地揭示了“被看見”和“被回應(yīng)”在教育互動(dòng)中的至高重要性,以及上下文信息對(duì)評(píng)價(jià)的決定性影響。

4. 腳手架(Scaffolding)

  • 教學(xué)意圖與感知效果的巨大鴻溝:在MathDial的原始數(shù)據(jù)中,人類導(dǎo)師明確地為他們自己的每一句話標(biāo)注了教學(xué)意圖,其中“聚焦”(focus)和“探究”(probing)這兩種典型的腳手架行為,合計(jì)占了所有教師話語的62%。這清晰地表明,這些人類導(dǎo)師確實(shí)在主觀上努力地嘗試提供腳手架式教學(xué)。
  • “腳手架”越多,感知效果越差?:然而,分析中出現(xiàn)了一個(gè)最令人費(fèi)解、也最發(fā)人深省的發(fā)現(xiàn)。當(dāng)研究者根據(jù)MathDial對(duì)話片段中包含的被其作者標(biāo)記為“腳手架”的話語數(shù)量,對(duì)210組數(shù)據(jù)進(jìn)行分組時(shí),結(jié)果顯示:腳手架話語越多的對(duì)話,其在“腳手架”這一評(píng)估指標(biāo)上的最終得分反而越低(即,標(biāo)注者越認(rèn)為其腳手架效果差)。這個(gè)發(fā)現(xiàn)揭示了教學(xué)意圖與教學(xué)效果之間可能存在的巨大鴻溝。一種可能的解釋是,盡管人類導(dǎo)師有提供腳手架的意圖,但他們的實(shí)際執(zhí)行可能并不理想。過多的、無效的、或時(shí)機(jī)不當(dāng)?shù)摹耙龑?dǎo)”,反而可能被經(jīng)驗(yàn)豐富的同行標(biāo)注者感知為拖沓、低效、問題含糊不清,甚至被認(rèn)為缺乏對(duì)學(xué)生真正需求的洞察,從而損害了整體的教學(xué)體驗(yàn)。對(duì)這四個(gè)核心維度的深入剖析,揭示了兩種導(dǎo)師在具體教學(xué)行為上的表現(xiàn)差異。然而,一個(gè)更深層次的問題隨之浮現(xiàn):評(píng)估者(無論是人類還是LLM)本身是如何做出這些判斷的?他們?cè)u(píng)判‘好’與‘壞’的標(biāo)準(zhǔn)是否存在系統(tǒng)性差異?這正是下一部分將要探討的核心。

人類與LLM評(píng)判標(biāo)準(zhǔn)的系統(tǒng)性錯(cuò)位

通過計(jì)算并可視化人類與LLM兩種評(píng)估者之間,以及各項(xiàng)指標(biāo)之間的相關(guān)性矩陣(圖3),研究發(fā)現(xiàn)了另一個(gè)具有深遠(yuǎn)意義的現(xiàn)象:人類與LLM的評(píng)判標(biāo)準(zhǔn)存在著系統(tǒng)性的、顯著的差異。

有趣的實(shí)驗(yàn),大型語言模型作為導(dǎo)師與人類導(dǎo)師的盲測(cè)比較-AI.x社區(qū)圖片

[圖3: 各項(xiàng)指標(biāo)在人類和LLM評(píng)分下的相關(guān)性矩陣]

  • 對(duì)角線外的微弱信號(hào)揭示的認(rèn)知鴻溝:在相關(guān)性矩陣中,代表“人類對(duì)某個(gè)指標(biāo)的評(píng)分”與“LLM對(duì)同一指標(biāo)的評(píng)分”之間相關(guān)性的那些方塊(例如,人類評(píng)的共情 vs LLM評(píng)的共情),其顏色都非常淺,表明相關(guān)性很低。這意味著,盡管LLM能夠模仿人類的語言來進(jìn)行評(píng)價(jià)任務(wù),但它們判斷“好”與“壞”的內(nèi)部標(biāo)準(zhǔn),與人類教育專家的標(biāo)準(zhǔn)并不完全一致。LLM可能更看重某些表面的、形式化的特征(如特定關(guān)鍵詞的使用、句子結(jié)構(gòu)的復(fù)雜度等),而人類專家則更依賴于對(duì)深層教學(xué)動(dòng)態(tài)和潛在學(xué)生心理狀態(tài)的整體感知和直覺。
  • 指標(biāo)之間不可避免的糾纏:無論是人類評(píng)分內(nèi)部還是LLM評(píng)分內(nèi)部,不同指標(biāo)之間都存在著或強(qiáng)或弱的正相關(guān)性。例如,在人類評(píng)分中,“共情”和“腳手架”的得分之間有較高的正相關(guān)。這說明,在現(xiàn)實(shí)的教學(xué)感知中,這些教學(xué)品質(zhì)并非是完全獨(dú)立、可以被清晰切割的。一個(gè)被認(rèn)為富有共情心的導(dǎo)師,往往其腳手架行為也被認(rèn)為是更有效的,反之亦然。這些品質(zhì)在實(shí)踐中是相互交織、互為表里的,共同構(gòu)成了一個(gè)整體的、高質(zhì)量的教學(xué)形象。

討論:對(duì)教育未來的深刻啟示

這項(xiàng)研究的結(jié)果并非旨在簡(jiǎn)單地宣告“AI教師優(yōu)于人類教師”這一聳人聽聞的結(jié)論,而是通過一個(gè)嚴(yán)謹(jǐn)?shù)谋容^,為我們深入理解人工智能在教育這一高度人性化領(lǐng)域中的獨(dú)特角色、潛在優(yōu)勢(shì)和未來可能性,提供了極其寶貴的視角和實(shí)證依據(jù)。

為何人類導(dǎo)師在盲測(cè)中表現(xiàn)稍遜?

研究結(jié)果引發(fā)了一個(gè)深刻且值得所有教育工作者反思的問題:為什么在這個(gè)純粹的、匿名的文本環(huán)境中,經(jīng)驗(yàn)豐富的人類教師在簡(jiǎn)潔性、共情和腳手架這些被認(rèn)為是他們核心優(yōu)勢(shì)的領(lǐng)域,似乎整體上不及一個(gè)精心設(shè)計(jì)的LLM?研究者提出了幾個(gè)相互關(guān)聯(lián)的、極具說服力的解釋。

  1. 教學(xué)活動(dòng)中巨大的認(rèn)知成本與情感疲勞:首要的、也是最根本的解釋,可能源于真實(shí)教學(xué)活動(dòng)背后巨大的認(rèn)知成本與情感疲勞。表現(xiàn)出持續(xù)的、高質(zhì)量的共情,耐心地為每一個(gè)學(xué)生搭建個(gè)性化的腳手架,時(shí)刻保持積極的互動(dòng)和鼓勵(lì),這些都是極其消耗認(rèn)知和情感資源的行為。心理學(xué)上的“決策疲勞”概念在此同樣適用:每一次與學(xué)生的互動(dòng)都包含著數(shù)十個(gè)微小的教學(xué)決策。一個(gè)人類教師在其職業(yè)生涯中需要面對(duì)成百上千的學(xué)生,日復(fù)一日地重復(fù)相似的教學(xué)循環(huán),很可能會(huì)不可避免地產(chǎn)生“同情心疲勞”(compassion fatigue)或其他形式的職業(yè)倦怠。當(dāng)他們第無數(shù)次看到學(xué)生犯同一個(gè)基礎(chǔ)錯(cuò)誤時(shí),直接給出正確答案的沖動(dòng)可能遠(yuǎn)大于再次調(diào)動(dòng)全部心力去用創(chuàng)新的方式進(jìn)行引導(dǎo)。而一個(gè)LLM,作為一個(gè)算法系統(tǒng),沒有生物學(xué)的認(rèn)知限制,它不會(huì)感到疲憊、厭煩或沮喪,因此可以不知疲倦地、以100%的一致性“表現(xiàn)出”無限的耐心和程序化的共情。此外,MathDial的標(biāo)注者明確知道他們面對(duì)的是一個(gè)AI學(xué)生,這也可能極大地降低了他們投入真實(shí)情感和精力的內(nèi)在動(dòng)機(jī)。
  2. 感知簡(jiǎn)潔性的微妙之處與話語策略差異:人類導(dǎo)師的對(duì)話節(jié)奏可能更符合真實(shí)的人際交流,傾向于“慢熱”,在建立初步關(guān)系后,于對(duì)話的后期加速進(jìn)展。然而,在被截?cái)喑汕拔遢喌膶?duì)話片段中,這種自然的慢啟動(dòng)很可能被缺乏上下文的標(biāo)注者感知為拖沓和低效。相比之下,LLM,特別是像MWPTutor這樣經(jīng)過結(jié)構(gòu)化引導(dǎo)的模型,可能天生就更擅長(zhǎng)生成邏輯鏈條清晰、目標(biāo)導(dǎo)向明確、看似步步為營(yíng)的文本。即便其總字?jǐn)?shù)更多,但由于其結(jié)構(gòu)上的清晰性,更容易創(chuàng)造出一種強(qiáng)烈的“進(jìn)展感”,從而在“感知的簡(jiǎn)潔性”上獲得高分。
  3. 純文本交流媒介的天然局限性:這是對(duì)人類導(dǎo)師“非戰(zhàn)之罪”的辯護(hù)。人類教師在現(xiàn)實(shí)課堂中,會(huì)無意識(shí)地、大量地使用非語言工具來傳遞復(fù)雜的教學(xué)信息:通過聲音的抑揚(yáng)頓挫來強(qiáng)調(diào)重點(diǎn),通過適時(shí)的停頓來給予學(xué)生思考空間,通過面部表情和身體姿態(tài)來傳遞共情和鼓勵(lì)。所有這些豐富的、多模態(tài)的信號(hào),在純文本環(huán)境中被完全過濾掉了。人類教師在某種意義上是被“束縛了手腳”。而LLM,其整個(gè)“生命”都建立在對(duì)海量文本的學(xué)習(xí)之上,它們是這個(gè)特定媒介無可爭(zhēng)議的主宰者。它們通過精確的詞匯選擇、句法結(jié)構(gòu)和情感詞匯的部署,來彌補(bǔ)非語言信息的缺失,這恰恰是它們的“主場(chǎng)”。

對(duì)未來教育利益相關(guān)者的兩大啟示

這項(xiàng)研究的發(fā)現(xiàn),對(duì)未來的教育者和學(xué)習(xí)科學(xué)家都具有深遠(yuǎn)的、可操作的指導(dǎo)意義。

對(duì)于教育者:AI作為得力助手與賦能工具,而非競(jìng)爭(zhēng)替代者

研究結(jié)果最重要、最積極的解讀,絕不應(yīng)是對(duì)人類教師能力的否定或威脅。恰恰相反,它揭示了一個(gè)巨大的、解放性的機(jī)遇:基于優(yōu)勢(shì)互補(bǔ)的授權(quán)與分工。教師的職責(zé)遠(yuǎn)不止于知識(shí)的傳授,更重要的是擔(dān)任學(xué)生的思想導(dǎo)師、品格榜樣和心靈守護(hù)者,這些高級(jí)角色需要深厚的社會(huì)文化理解、復(fù)雜的人際智慧和真實(shí)的情感連接,是當(dāng)前乃至可預(yù)見的未來AI都遠(yuǎn)不能及的。研究清晰地表明,LLM有巨大的潛力接管那些規(guī)范化的、重復(fù)性高的、認(rèn)知負(fù)荷大的教學(xué)任務(wù),例如:基礎(chǔ)概念的反復(fù)練習(xí)與鞏固、常見程序性錯(cuò)誤的識(shí)別與糾正、標(biāo)準(zhǔn)化作業(yè)的初步批改與反饋、以及回答海量的“常見問題”。這將極大地解放人類教師,讓他們能夠?qū)氋F的時(shí)間和精力,從“知識(shí)的搬運(yùn)工”角色中轉(zhuǎn)移出來,投入到那些真正需要人類智慧和關(guān)懷的、更高價(jià)值的活動(dòng)上,例如:組織項(xiàng)目式學(xué)習(xí)、引導(dǎo)蘇格拉底式的深度研討、提供一對(duì)一的生涯規(guī)劃與心理輔導(dǎo)等。這不僅不會(huì)削弱教師的價(jià)值,反而會(huì)極大地提升教師職業(yè)的專業(yè)性和幸福感,最終實(shí)現(xiàn)教學(xué)整體質(zhì)量的飛躍。

對(duì)于學(xué)習(xí)科學(xué)家:道阻且長(zhǎng),行則將至,前路充滿機(jī)遇

這項(xiàng)工作與其他前沿研究一同表明,我們正以前所未有的速度,朝著高效、個(gè)性化的計(jì)算機(jī)輔助教育理想國(guó)度快速邁進(jìn)。LLM已經(jīng)能夠模仿,甚至在某些受限的方面系統(tǒng)性地超越人類在特定教學(xué)任務(wù)中的表現(xiàn),展現(xiàn)出曾被認(rèn)為是人類獨(dú)有的、難以捉摸的品質(zhì)。然而,這絕不意味著任務(wù)已經(jīng)完成,恰恰相反,它打開了更多、更復(fù)雜的研究課題。當(dāng)前的成功在很大程度上局限于結(jié)構(gòu)化知識(shí)領(lǐng)域(如數(shù)學(xué))和純文本的交互模態(tài)。要真正復(fù)制甚至增強(qiáng)教育者的完整角色,未來的研究必須在以下幾個(gè)方向取得突破:首先是多模態(tài)交互,將視覺、語音、甚至虛擬化身(embodiment)融合進(jìn)來,創(chuàng)造更豐富、更自然的學(xué)習(xí)體驗(yàn)。其次是長(zhǎng)時(shí)程的學(xué)生建模,AI需要能夠跟蹤一個(gè)學(xué)生長(zhǎng)達(dá)數(shù)周、數(shù)月甚至數(shù)年的學(xué)習(xí)軌跡、認(rèn)知變化和興趣遷移,而不僅僅是處理一次孤立的對(duì)話。再次,也是最困難的,是如何利用AI培養(yǎng)學(xué)生的高階思維能力,如創(chuàng)造力、批判性思維、協(xié)作能力和解決開放式問題的能力,而不僅僅是程序性的解題技巧。最后,如何設(shè)計(jì)出更好的評(píng)估范式,讓LLM的自我評(píng)判能力與人類的核心價(jià)值觀和長(zhǎng)遠(yuǎn)教育理念更完美地對(duì)齊,是另一個(gè)亟待解決的關(guān)鍵倫理與技術(shù)難題。只有這樣,AI才能真正安全、可靠地成為未來教育生態(tài)中有機(jī)、有益的一部分。

結(jié)論與展望

總而言之,這項(xiàng)研究通過一個(gè)設(shè)計(jì)嚴(yán)謹(jǐn)、執(zhí)行周密的盲測(cè)實(shí)驗(yàn),提供了一個(gè)強(qiáng)有力的、反直覺的證據(jù):在受限但公平的純文本輔導(dǎo)環(huán)境中,一個(gè)經(jīng)過良好設(shè)計(jì)和約束的LLM導(dǎo)師,在經(jīng)驗(yàn)豐富的教育者眼中,其所表現(xiàn)出的簡(jiǎn)潔性、參與度、共情心和腳手架能力,不僅能夠與人類導(dǎo)師相媲美,甚至在多個(gè)關(guān)鍵維度上系統(tǒng)性地表現(xiàn)更優(yōu)。同時(shí),研究也敏銳地揭示了LLM的自我評(píng)價(jià)標(biāo)準(zhǔn)與人類專家之間存在的顯著差距,這為未來如何訓(xùn)練和校準(zhǔn)更可信、更符合人類價(jià)值觀的AI評(píng)估系統(tǒng),指明了至關(guān)重要的研究方向。

當(dāng)然,我們必須清醒地認(rèn)識(shí)到研究本身存在的局限性。例如,它僅限于純文本環(huán)境和單一的數(shù)學(xué)應(yīng)用題領(lǐng)域;招募的標(biāo)注者其“教學(xué)經(jīng)驗(yàn)”的深度和類型未經(jīng)嚴(yán)格的標(biāo)準(zhǔn)化驗(yàn)證;并且,由于實(shí)驗(yàn)設(shè)計(jì)的限制,我們?nèi)狈?duì)標(biāo)注者做出具體選擇背后深層原因的定性分析。這些局限性提示我們,在將這些令人鼓舞的發(fā)現(xiàn)推廣到更復(fù)雜、更高風(fēng)險(xiǎn)的真實(shí)教育場(chǎng)景時(shí),必須保持科學(xué)的審慎和批判性思維。

盡管如此,這項(xiàng)研究所描繪的未來圖景是清晰而令人振奮的。它并非一個(gè)人類被AI取代的“反烏托邦”,而更像是一個(gè)人機(jī)協(xié)同的“賽博格(Cyborg)”或“半人馬(Centaur)”式的教育新范式。在這個(gè)范式中,人類教師和AI導(dǎo)師將形成一個(gè)強(qiáng)大的共生體,各自發(fā)揮其不可替代的獨(dú)特優(yōu)勢(shì)。例如,AI導(dǎo)師可以在課后自動(dòng)為每位學(xué)生生成個(gè)性化的練習(xí)題,并提供7x24小時(shí)的即時(shí)答疑;而人類教師則可以利用AI分析出的學(xué)生共性難點(diǎn),在課堂上設(shè)計(jì)更有針對(duì)性的項(xiàng)目式學(xué)習(xí)活動(dòng),并專注于引導(dǎo)學(xué)生進(jìn)行批判性思維和創(chuàng)造性探索,以及提供最溫暖的人文關(guān)懷。通過這種深度的融合與協(xié)作,我們有理由相信,未來的教育將能夠?yàn)槊恳晃粚W(xué)習(xí)者,創(chuàng)造一個(gè)更高效、更公平、也更人性化的成長(zhǎng)體驗(yàn)。

參考論文: https://arxiv.org/abs/2506.08702v1

本文轉(zhuǎn)載自?????上堵吟?????,作者:一路到底的孟子敬

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产精品欧美久久久久天天影视| 非洲一级黄色片| 国产www视频在线观看| 国产99久久久国产精品免费看| 久久精品精品电影网| 九九久久久久久| 678在线观看视频| 国产日本一区二区| 亚洲最大福利视频网| 国产一级一片免费播放| 香蕉久久夜色精品国产使用方法| 日本韩国欧美一区二区三区| 中文字幕av日韩精品| 亚洲黄色片视频| 另类亚洲自拍| 欧美日韩成人在线观看| 无码熟妇人妻av| 日本精品一区二区三区在线观看视频| 亚洲va中文字幕| 日本成人性视频| 牛牛澡牛牛爽一区二区| 国产精品夜夜爽| 国产精品美女主播| 国产精品免费av一区二区| 日韩精品不卡一区二区| 精品国产露脸精彩对白| 色综合手机在线| а√在线天堂官网| 国产精品久久三| 久久久免费看| 亚洲国产精品欧美久久| 精品影院一区二区久久久| 欧美一级片免费在线| 性色av无码久久一区二区三区| 国产麻豆一区二区三区精品视频| 精品国产一区二区亚洲人成毛片| 亚洲视频一二三四| 日韩天堂在线| 第一福利永久视频精品| 欧美大黑帍在线播放| 免费av在线网址| 国产欧美日韩在线| 欧美精品一区二区三区在线四季| 懂色av成人一区二区三区| 韩国一区二区在线观看| 国产欧美精品在线| 中文字幕av资源| 老司机久久99久久精品播放免费| 国内精品久久久久久久久| 日本天堂中文字幕| 亚洲最新av| 日韩中文字幕精品| 夫妇交换中文字幕| 精品一区在线| 亚洲欧美成人网| 中文字幕在线观看网址| 欧美激情极品| 日韩国产精品一区| 精品人妻一区二区三区日产| 最新国产精品精品视频| 欧美成人精品福利| 无码人妻精品一区二区三| 51精品国产| 亚洲第五色综合网| 国产精品久久久久久亚洲av| 粉嫩的18在线观看极品精品| 亚洲成人av在线| 中文字幕无码人妻少妇免费| 另类在线视频| 国产丝袜视频一区| japanese中文字幕| 日韩aaaa| 久久中文字幕视频| 久久久久无码国产精品| 日韩视频二区| 国产999在线观看| 中文字幕乱码人妻无码久久| 久久91精品国产91久久小草| 亚洲一区二区在线播放| 黄色片一区二区三区| 99这里只有久久精品视频| 欧美极品一区| 日本天堂在线观看| 亚洲综合一区在线| 黄色一级视频片| 97人人做人人爽香蕉精品| 在线91免费看| 国产美女视频免费观看下载软件| 国产亚洲一卡2卡3卡4卡新区 | 99热这里精品| 成人一区二区三区中文字幕| 欧美国产综合视频| 美女免费久久| 欧美小视频在线| 一级做a免费视频| 久久九九热re6这里有精品| 亚洲图片欧美午夜| 久久久精品99| 日韩av中文在线观看| 亚洲最大成人免费视频| 欧美日韩影视| 亚洲精选视频免费看| 不卡影院一区二区| 欧美日本三级| 一区二区三区回区在观看免费视频| 男女性高潮免费网站| 丝瓜av网站精品一区二区| 91成人免费看| jizz视频在线观看| 精品久久久久久中文字幕大豆网| 中文字幕av不卡在线| 久久久久高潮毛片免费全部播放| 中文日韩在线观看| 中文字幕在线观看视频网站| 久久精品国产77777蜜臀| 精品在线观看一区二区| av在线看片| 91久久奴性调教| 午夜男人的天堂| 91精品综合| 国产精品久久久久久久久久久久久久| 亚洲精品字幕在线| 亚洲视频免费在线| 无限资源日本好片| 亚洲高清极品| 国外成人在线直播| 99在线观看精品视频| 国产精品天美传媒| 国产a视频免费观看| 国产成人精品亚洲线观看| www.日韩av.com| 性高潮视频在线观看| 久久先锋影音av鲁色资源| 激情小视频网站| 涩爱av色老久久精品偷偷鲁 | 在线观看视频一区二区欧美日韩| 稀缺小u女呦精品呦| 欧美欧美全黄| 3d动漫啪啪精品一区二区免费 | 欧美黑人巨大xxx极品| 国产普通话bbwbbwbbw| 国产精品网站在线观看| 久久久精品三级| 综合综合综合综合综合网| 久久久久久伊人| 亚洲精品中文字幕成人片| 亚洲综合一区二区精品导航| 青娱乐精品在线| 亚洲理论电影网| 91在线观看免费| 国产在线观看a视频| 欧美精品欧美精品系列| 三级在线观看免费大全| 蜜桃在线一区二区三区| 一本色道久久99精品综合| 精品九九久久| 久久亚洲影音av资源网| 99在线观看免费| 亚洲主播在线播放| 国产毛片毛片毛片毛片毛片毛片| 亚洲三级色网| 久久涩涩网站| 成人va天堂| 日韩在线小视频| 国产美女明星三级做爰| 一区二区三区中文字幕电影| 免费在线观看日韩av| 精品91在线| 久久本道综合色狠狠五月| 欧美极度另类| 日韩一区二区三区xxxx| 国产a级免费视频| 亚洲成a人片在线观看中文| 中文字幕丰满孑伦无码专区| 美女被久久久| 一区二区三区欧美在线| 看亚洲a级一级毛片| 韩国日本不卡在线| 国产精品天堂| 欧美福利视频导航| 国产黄色片视频| 久久精品亚洲麻豆av一区二区| 欧美婷婷精品激情| 欧美精品午夜| 欧美精品一区二区三区在线看午夜| 精品123区| 色综合久久88| 黄色影院在线播放| 欧美一区二区网站| 日本视频在线观看免费| 国产精品精品国产色婷婷| 日本久久久久久久久久| 日日嗨av一区二区三区四区| 国产免费一区二区三区四在线播放 | 人妻一区二区三区| 欧美最猛性xxxxx直播| 妺妺窝人体色www聚色窝仙踪| 久久综合九色综合欧美就去吻| www.夜夜爽| 亚洲久久视频| 性欧美18一19内谢| 精品一区三区| 91影院未满十八岁禁止入内| 午夜无码国产理论在线| 欧美国产精品va在线观看| 国内三级在线观看| 日韩免费电影一区| 又骚又黄的视频| 精品久久久久久电影| 午夜剧场免费在线观看| 91麻豆免费在线观看| 91精品人妻一区二区三区蜜桃2| 石原莉奈在线亚洲二区| www.av91| 91成人免费| 日韩啊v在线| 欧美黑白配在线| 成人激情av| 在线高清欧美| 国产精品爽爽爽爽爽爽在线观看| 国产99在线| 欧美情侣性视频| 暖暖日本在线观看| 在线看片第一页欧美| 日韩a级作爱片一二三区免费观看| 欧美一区二区日韩| 一炮成瘾1v1高h| 欧美性大战久久| 台湾佬中文在线| 午夜精品一区二区三区免费视频 | 手机亚洲手机国产手机日韩| 欧美日韩高清在线一区| 老汉色老汉首页av亚洲| 99视频在线播放| 日韩午夜电影免费看| 国产精品高潮呻吟久久av野狼| 午夜影院一区| 国产91精品青草社区| a级大胆欧美人体大胆666| 欧美成人精品在线视频| 国产精品久久麻豆| 久久久精品在线| 日本电影在线观看网站| 中文字幕精品av| 成人全视频高清免费观看| 亚洲一级免费视频| 丁香婷婷在线| 亚洲色图狂野欧美| 国产视频精品久久| 在线观看日韩www视频免费| 国产三级在线观看| 在线电影av不卡网址| 国产精品久久一区二区三区不卡| 亚洲人成在线观| 国产黄色免费在线观看| 中文字幕不卡在线视频极品| 成人在线观看网站| 日韩中文字幕在线视频| 日本福利在线| 欧美第一页在线| 91吃瓜在线观看| 日本伊人精品一区二区三区介绍| 欧美人与性动交xxⅹxx| 国产精品盗摄久久久| 欧美成人免费全部网站| 成人av番号网| 18国产精品| 久久久综合亚洲91久久98| 日韩av免费大片| 男女激烈动态图| 99热免费精品在线观看| 无码人妻丰满熟妇区五十路百度| 日日夜夜精品视频免费| 日本三级黄色网址| 国产精品亚洲午夜一区二区三区 | 色婷婷av一区二区三区在线观看| 亚洲成人影院麻豆| 久久777国产线看观看精品| 精精国产xxxx视频在线野外| 国产极品精品在线观看| 色综合久久久| 国产欧美日韩一区二区三区| 久操国产精品| 日韩不卡一二区| 亚洲一区中文| 精品久久久99| 91在线你懂得| 日韩一卡二卡在线观看| 一区二区成人在线| 无码人妻精品一区二区| 91精品欧美一区二区三区综合在 | 成人久久久精品乱码一区二区三区| 国产精品久久无码| 欧美高清在线一区| 国产一级特黄a高潮片| 欧美三级视频在线观看| 亚洲精品97久久中文字幕无码| 亚洲欧美精品一区二区| а√中文在线8| 日韩av电影国产| 日韩视频一二区| 亚洲成人午夜在线| 亚洲国产一区二区三区高清 | 精品日本视频| 国产传媒一区| 手机亚洲手机国产手机日韩| 草草久久久无码国产专区| 精品系列免费在线观看| 成人网站免费观看| 亚洲蜜臀av乱码久久精品| av毛片在线免费观看| 精品国内片67194| 色网站在线看| 欧洲成人性视频| a看欧美黄色女同性恋| 一级特黄录像免费播放全99| 国产免费成人| www.四虎在线| 亚洲欧美日韩在线| 日韩久久久久久久久久| 日韩精品视频在线免费观看| 尤物yw193can在线观看| 国产噜噜噜噜久久久久久久久| 亚洲免费观看高清完整版在线观| 日本免费成人网| 国产又粗又猛又爽又黄91精品| 日韩精品影片| 欧美撒尿777hd撒尿| 刘亦菲毛片一区二区三区| 久久激情视频久久| 中韩乱幕日产无线码一区| 久久国产精品-国产精品| 日本孕妇大胆孕交无码| 国产成人精品免费久久久久| 国产精品宾馆| 久久这里只有精品18| 国产精品456露脸| 老熟妇高潮一区二区三区| 欧美伊人久久久久久久久影院 | 日韩高清三级| 老色鬼久久亚洲一区二区| 波多野结衣av在线观看| 日韩欧美在线国产| 暖暖视频在线免费观看| 日韩美女写真福利在线观看| 国产成人一区| 国产精品人人妻人人爽人人牛| 91免费视频观看| 国产精品免费精品一区| 亚洲视频在线观看免费| 性欧美18一19sex性欧美| 欧美成人综合一区| 老司机午夜精品视频| 蜜桃av乱码一区二区三区| 欧美亚洲一区二区在线| 91涩漫在线观看| 国产在线日韩在线| 91精品啪在线观看国产18| 久久人人爽人人片| 亚洲一区二区三区激情| 日韩专区第一页| 2024亚洲男人天堂| 精品国产精品久久一区免费式| 少妇一级淫免费放| 亚洲男人的天堂在线aⅴ视频| www.天堂av.com| 午夜精品理论片| 亚洲系列另类av| 亚洲人辣妹窥探嘘嘘| 亚洲免费色视频| 蜜臀久久久久久999| 日产日韩在线亚洲欧美| 日韩精品四区| 永久看看免费大片| 午夜影院在线观看欧美| 牛牛热在线视频| 91久久在线观看| 91久久久久| 亚洲一级黄色录像| 日韩一区二区免费在线电影| 国产理论在线| 亚洲精品欧美精品| 丰满岳乱妇一区二区三区| 亚洲黄色免费观看| 久久精品久久久久| 精品国产导航| 久久撸在线视频| 亚洲第一搞黄网站| av电影在线观看一区二区三区| 99久久国产免费免费| 亚洲免费网站| 亚洲综合网在线| 亚洲精品自在久久| 不卡精品视频| 成人黄色片视频| 一区二区三区在线视频免费观看| 亚洲色欧美另类| 亚洲综合大片69999| 老色鬼久久亚洲一区二区| 特级片在线观看|