標準化3D生成質量榜單來了!首創層次化評價體系,告別“誰的demo更吸睛”主觀評估
作為AI視頻之后最被看好的AIGC應用領域之一,對比2024年,2025年AI 3D生成的質量已經進化成了這樣:

△圖源:Meshy
隨著模型能力的不斷進化,在評估層面,新的挑戰也在出現:
傳統3D生成評測往往停留在對象級的粗糙評估,主要關注“整體質量”,缺少對局部結構和材質的系統化分析。
為了解決這個問題,上海人工智能實驗室聯合復旦大學、清華大學、香港中文大學等高校發布了Hi3DEval——一套面向3D內容生成的全新層次化自動評測體系。

團隊通過設計對象級、部件級與材質主題三層評測協議,實現從整體形態到局部結構再到材質真實性的多粒度分析,全方位揭示模型的生成能力。
在此基礎上,首期3D生成榜單已在HuggingFace同步發布,涵蓋30個主流與前沿模型,覆蓋Text?to?3D與Image?to?3D兩大核心任務。

研究團隊表示,該榜單可以直觀呈現各模型的總和表現,希望以此為學術界與產業界提供可追蹤、可復現的對標基準,推動3D生成技術向更高質量與更高透明度發展。
三層評測協議:從整體到細節,全面解析3D生成質量
Hi3DEval基于三層評測協議的層次化評測體系,旨在提供更細粒度的質量剖析,還能揭示具體的優缺點,為模型改進與優化提供明確方向。
對象級(object-level)
對象級評估關注生成物體的宏觀表現,涵蓋“幾何合理性”、“幾何精細度”、“紋理質量”、“幾何-紋理一致性”、“Prompt-3D一致性”五個維度。
“幾何合理性”側重的結構完整性、保真性,不存在多頭、塌陷、浮空等違背物理規律。
“幾何精細度”則側重表面精細度,包括邊緣銳利度、細小部件的完整性等。
“紋理質量”考察紋理貼圖的清晰度、細節保真度以及美學水平。
“幾何-紋理一致性”檢查紋理與幾何結構的對齊程度,例如花紋是否遵循物體表面輪廓。
“Prompt-3D一致性”則評估生成 3D 資產與輸入文本或圖像提示的匹配度,包括類別、屬性和身份特征等,確保結果符合用戶需求。

部件級(part-level)
現有的大多數3D生成評測體系都停留在對象級評估,只能給出整體質量的籠統評分,難以揭示模型在局部結構上的優劣。
Hi3DEval引入部件級評測,將關注點精確落在諸如椅子腿、扶手、背板等細分部位,能夠直觀定位缺陷發生的區域。
這種粒度更細的評測不僅有助于診斷生成過程中的局部幾何問題,還能在模型優化時提供有針對性的改進信號。評測維度包括局部幾何合理性(保證局部結構符合現實物理與設計邏輯)和局部幾何精細度(衡量細節刻畫的清晰度與豐富程度)。

材質主題(material-subject)
傳統的材質評估仍停留在圖片質量和主觀審美層面,常用的指標如FID、KID、美學評分等。
為了彌補這塊的空缺,Hi3DEval設計材質主題的評估協議,聚焦表面視覺與物理屬性,借助物體在不同光照條件下的反射信息,從“細節與復雜性”、“色彩與飽和度”、“一致性與偽影”、“材質合理性”四個維度進行全方位評估。
其中前兩個維度聚焦表面視覺,“細節與復雜度”關注材質紋理的視覺豐富度和美學協調度,“色彩與飽和度”則評估材質顏色的分布是否自然以及飽和度是否合理。后兩個維度則聚焦物理屬性,“一致性與偽影”檢查材質紋理在不同光照或視角下的一致性,避免接縫、錯位、異常陰影等視覺偽影, “材質合理性”評估反射率、粗糙度等物理特性是否符合現實材料表現。

首期評測榜單:直觀呈現模型實力,推動行業對標
Hi3DEval在HuggingFace平臺發布了首期3D生成榜單,涵蓋30余款Text-to-3D與Image-to-3D模型。
榜單在統一的評測設置下對所有模型進行測評,包括相同的輸入提示、渲染視角、光照條件及輸出格式。這種標準化流程不僅消除了實驗環境差異帶來的偏差,還保障了榜單的評分結果的公正性和可參考性。
榜單結果不僅直觀呈現總分排名,還提供各個維度的單項得分,幫助研究者、開發者快速定位模型優勢與短板。同時,它也為學術界與工業界提供了可追蹤的對標參考,推動 3D 生成技術向高質量、透明化發展。

完整榜單可點擊文末鏈接查看。
自動化評測管線:混合3D表征,增強3D感知能力
過往多數評測方法依賴靜態渲染圖像,難以暴露動態不一致(如跨視角形變、細節抖動等)和真實幾何缺陷(如多頭問題、局部塌陷等),評測結論與模型在真實三維使用場景中的可用性存在偏差。
為了緩解2D表征的局限性,Hi3DEval使用多視角環繞視頻 + 原生網格(mesh)構建了基于混合3D表征的自動化評測管線。
視頻表征能直觀揭示跨視角/時序的結構穩定性與紋理漂移,能夠區分“靜幀好看、轉動即崩”的模型,使其非常適合用于對象級和材質主題的評估。而對于部件級評測,由于視頻表征經常出現對部件主體的遮擋進而影響評估質量,所以選用了原生3D表征支持幾何相關維度的自動化評測。
通過統一的模型設置與對比實驗,Hi3DEval在人類偏好一致性上的表現優越,超越了現有主流自動評測指標,為3D內容生成領域提供了更可靠、更全面的評測工具。


在生成3D技術高速迭代的當下,雖然不同模型在功能和表現形式上的差距正在逐漸縮小,但在內容精細度、真實感、結構一致性等質量維度上,差異依舊顯著。
過去,由于缺乏一套科學、統一且可擴展的評價體系,行業討論往往停留在“誰的demo更吸睛”這種主觀印象層面,難以全面衡量方法的真正水平。
Hi3DEval這樣的基準推出,旨在打破這一局限——不僅提供了面向未來的、系統化的3D內容質量評價標準,也為學術界和產業界帶來了更透明、更公平的對比依據。
論文地址:
https://arxiv.org/abs/2508.05609
項目主頁:
https://zyh482.github.io/Hi3DEval/
評測榜單:
https://huggingface.co/spaces/3DTopia/3DGen-Leaderboard



























