Code2Video：代碼驅動、智能體協同、精準可控的教學視頻生成

2025-10-11 09:12:46

本文提出教育視頻生成的新范式——以可執行代碼為核心媒介，結合三智能體協同框架，實現高質量、可控、可解釋的教學視頻生成，為未來自動化教育內容創作與多模態智能系統的發展提供了堅實基礎。

本研究由新加坡國立大學 ShowLab 團隊主導完成。共一作者 Yanzhe Chen 陳彥哲（博士生）與 Kevin Qinghong Lin 林慶泓（博士生）均來自 ShowLab@NUS，分別聚焦于多模態理解以及智能體（Agent）研究。項目負責人為新加坡國立大學校長青年助理教授 Mike Zheng Shou 壽政。

隨著視頻生成模型的發展，基于像素空間（Pixel-based）的文生視頻方法（如 Sora2、Veo3 等擴散模型）在自然場景生成上表現出色，但在教育場景中仍存在以下不足：

文本模糊、公式失真、動畫邏輯不連貫；
缺乏對知識點的精準把控和結構化呈現；
難以復現、難以編輯，無法滿足教學需求。

圖 1： Pixel-based Video Generation對比我們的Code-driven Video Generataion

視頻 1： 擴散模型與 Code2Video 生成視頻對比

相比之下，教育視頻強調的是清晰的知識傳遞、邏輯的演進、可控的時序與空間結構。為此，本文提出了 Code2Video——一種基于代碼驅動的視頻生成新范式。

截屏2025-10-04 12.30.56.png

標題：Code2Video: A Code-centric Paradigm for Educational Video Generation
作者：Yanzhe Chen*, Kevin Qinghong Lin*, Mike Zheng Shou
單位：新加坡國立大學 ShowLab
項目主頁：https://showlab.github.io/Code2Video/
論文鏈接：https://arxiv.org/abs/2510.01174
開源代碼：https://github.com/showlab/Code2Video
開源數據：https://huggingface.co/datasets/YanzheChen/MMMC

Code2Video 核心設計

Code2Video 的目標是：以可執行代碼（Manim）作為統一媒介，將抽象的知識點轉化為結構化、可復現的教學視頻。以代碼為媒介不僅保證了視頻生成的可控性與可解釋性，還保證了在教育視頻中至關重要的邏輯流暢與視覺一致性。

圖 2： Code2Video 方法示意圖

基于此，本文提出了三智能體（Tri-Agent）協同框架：

規劃者（Planner）——從知識點出發，生成邏輯大綱與教學分鏡，并通過外部數據庫擴展參考圖像和可視化素材，實現「宏觀規劃 + 細節支撐」。
程序員（Coder）——將教學分鏡轉化為可執行的 Manim 代碼，支持并行生成，提出代碼局部優化機制（ScopeRefine），通過類似編輯器的斷點 debug 設計，大幅降低錯誤率和 Token 消耗。
鑒賞家（Critic）——利用多模態模型（VLM）反饋與視覺錨點提示（Visual Anchor Prompt）對生成的教學視頻進行修正，避免元素遮擋、位置錯亂，保證畫面層次清晰、講解可讀。

為解決自動生成中常見的元素遮擋、位置錯亂等空間布局問題，文本提出視覺錨點提示（Visual Anchor Prompt），為關鍵視覺元素（如公式、圖表、文本框）在畫面中的相對位置和層次提供了結構化的指導。在生成代碼時，自動維護錨點提示表，記錄放置對象以及對應錨點坐標；在檢查到視頻中布局不當時，Critic 會查表并生成具體的新錨點、以及可執行的反饋（如 move to B2）給 Coder 進行迭代修正。

圖 3： 視覺錨點提示（Visual Anchor Prompt）示意圖

這種多方位的流水線協作設計，使得 Code2Video 能在以下方面發揮優勢：

時間維度：保證講解的時序合理與邏輯連貫；
空間維度：確保視覺元素的排布規范、層次分明；
交互維度：通過 Critic 的反饋閉環，實現自適應的優化與迭代。

Code2Video 將復雜的知識點轉化為邏輯清晰、視覺精美、可擴展的教學視頻，兼顧了視頻質量與生成效率。

評測基準 MMMC

為系統化評測，本文構建了 MMMC (Massive Multi-discipline Multimodal Coding) 評測集：

來源：3Blue1Brown 官方課程（https://www.3blue1brown.com/#lessons），作為教育視頻設計的參考標準（upper bound）；
覆蓋：13 個學科領域（如拓撲學、幾何學、概率論、神經網絡等），共計 117 個長視頻；
切分：經作者提供的時間戳切分，得到 339 個子片段，共 456 個單元，平均長度約 3.35 分鐘；
映射：使用 LLM 進一步抽取知識點，建立“知識點 → 視頻單元”的映射。

圖 4： MMMC 數據集可視化

實驗與評估

本文從三個維度對 Code2Video 進行系統性評測：

美學維度（Aesthetics, AES）：采用 VLM-as-a-Judge 的評測原則，對布局、吸引力、邏輯流、風格一致性、內容準確性五個維度進行評分；
效率維度（Efficiency, EFF）：統計平均代碼生成時長和 Token 消耗，驗證方法的可擴展性與部署可行性；
知識傳遞維度（TeachQuiz）：如何定量地衡量一個教學視頻真正的「教學質量」？傳統的視頻生成指標（如美學評分）并不足以評估視頻的核心目標——知識的有效傳遞。為此，本文提出了 TeachQuiz，一個旨在直接評測教學效果的全新范式。其核心挑戰在于，作為評測者 VLM 模型通常對評測的知識點擁有「先驗知識」，這使得衡量「學習增量」變得困難。為解決此問題，我們引入了一種「選擇性遺忘（Unlearning 機制）+ 看視頻再學習」的評測方法：

知識遺忘：首先通過特定方法引導 VLM「遺忘」掉目標知識點，制造出一個「知識缺口」；
視頻再學習：其次，VLM 會觀看生成的教學視頻以「重新學習」目標知識點；
效果評估：最后，VLM 在觀看視頻后回答相關問題的表現，量化了該視頻實際傳遞的知識量。

圖 5： TeachQuiz 評測指標流程示意圖

實驗結論

像素方法不佳：基于像素空間的文生視頻方法在 AES 與 TeachQuiz 上均得分偏低，尤其在邏輯流與文字清晰度方面存在明顯不足；
代碼范式有效：直接使用 Code LLM 生成 Manim 代碼并渲染視頻的新范式，相比基于像素空間的視頻生成方法在 TeachQuiz 指標上平均提升約 30%；
性能穩健提升：本文所提出的 Code2Video 方法在美學和 TeachQuiz 指標上取得約 40% 的穩定增益；
專業差距仍存：在長教學視頻中，專業人員制作的視頻仍在敘事深度和細節把控上具備明顯優勢。

截屏2025-10-04 12.40.24.png

表 1： Code2Video 與各類方法對比結果

圖 6： 可視化對比示例

視頻 2： Code2Video 生成視頻示例

視頻 3： 預設不同模板生成效果示例

消融實驗

本文進一步對 Code2Video 的關鍵組件進行了消融分析，以考察各模塊對視頻質量與生成效率的貢獻。

在視頻質量方面：

Planner 核心作用：移除 Planner 模塊后，美學（AES）與知識傳遞指標（TeachQuiz）均驟降約 40 分，這表明高層次的講解規劃與時序建模是教學視頻生成的基礎。
敏感性差異：與美學分數相比，TeachQuiz 指標更能揭示教學視頻的「知識傳遞能力」，即便視頻在視覺表現上尚可接受，卻無法支持學生對知識點有效學習。
模塊互補性：外部數據庫有助于保證概念可視化的正確性；視覺錨點能夠保證元素布局穩定；Critic 模塊對初步生成的視頻提供進一步的迭代修正。

在效率分析方面：

并行執行：若移除并行設計，單個視頻的平均生成時長由 15.4 分鐘提升至 86.6 分鐘；
局部優化：相較于重新生成或全局調試，代碼局部優化（ScopeRefine）能夠以更低的代價完成錯誤修復，避免不必要的重復開銷。

截屏2025-10-04 12.39.23.png

表 2： 關于視頻質量（左表）及生成效率（右表）的消融分析

人類實驗

本文開展了五組人類受試者實驗（每組包含 6 名中學生 + 2 名本科生），每位受試者僅觀看一種視頻類型并完成 20 個知識點 × 5 道 TeachQuiz 測試題。結果顯示：

一致性：受試者評分趨勢與 VLM 評分一致，但分數區分度更大；
敏感性：對遮擋與布局錯誤極其敏感，即便短暫錯誤也會顯著拉低評分；
注意力限制：專業制作的教學視頻存在因時長過長，受試者常跳過片段，導致 TeachQuiz 得分降低的情況；而 Code2Video 生成的短視頻更契合受試者注意力范圍；
相關性：美學得分與 TeachQuiz 得分高度相關，這表明好的教學視頻能吸引受試者積極參與，從而獲得更優的學習成果。

截屏2025-10-04 12.39.59.png

表 3： 受試者實驗結果對比

結語

責任編輯：張燕妮來源：機器之心

AI 代碼視頻生成