規(guī)范對(duì)齊時(shí)代:GPT-5 斷層領(lǐng)先,讓安全與行為邊界更明晰
張昊然,上海交通大學(xué)人工智能學(xué)院的博士一年級(jí)學(xué)生,主要研究興趣為大模型推理和可信人工智能。
去年 12 月,OpenAI 提出的 Deliberative Alignment 引發(fā)了廣泛關(guān)注。面對(duì)用戶(hù)安全風(fēng)險(xiǎn),大模型不再止于簡(jiǎn)單拒絕,而是將規(guī)范意識(shí)融入思考過(guò)程,主動(dòng)識(shí)別邊界,清楚哪些可以回應(yīng),哪些必須避免。推動(dòng)這一轉(zhuǎn)變的核心是「規(guī)范」(specification,spec),即在特定情境下約束模型行為的規(guī)則與準(zhǔn)則。近年來(lái),OpenAI、Google 等基礎(chǔ)模型廠商紛紛將規(guī)范融入大模型,以此明確智能體應(yīng)當(dāng)遵循的行為標(biāo)準(zhǔn)。
想想我們?nèi)粘5氖澜?。社?huì)有法律條款,明確劃出不可觸碰的禁區(qū);行業(yè)有職業(yè)規(guī)范,提醒我們?cè)撛趺醋鍪拢贿€有道德準(zhǔn)則,提醒我們別越過(guò)良心底線。這些就像是模型需要遵守的安全規(guī)范(safety-spec),是一條條必須堅(jiān)守的紅線。與此同時(shí),在工作和生活中,我們還要面對(duì)一套又一套靈活多變的規(guī)則:公司 KPI、崗位職責(zé)、寫(xiě)報(bào)告要有邏輯、客服回復(fù)要有溫度。這些就是行為規(guī)范(behavioral-spec),它們會(huì)隨著場(chǎng)景和目標(biāo)不斷變化,甚至?xí)r時(shí)更新。
問(wèn)題隨之而來(lái):在這樣一個(gè)多規(guī)并存的現(xiàn)實(shí)中,大模型能否守住安全的底線,同時(shí)靈活應(yīng)對(duì)層出不窮的行為要求?法律和道德是硬性紅線,而工作流程、崗位標(biāo)準(zhǔn),甚至是報(bào)告格式,卻會(huì)因行業(yè)、團(tuán)隊(duì)或目標(biāo)而變化。讓一個(gè)模型同時(shí)滿(mǎn)足這些規(guī)范,并不容易。
針對(duì)這一難題,上海交通大學(xué)、香港中文大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)和 UIUC 的研究團(tuán)隊(duì),首次提出規(guī)范對(duì)齊(Specification Alignment)的新概念,要求大模型在不同場(chǎng)景下同時(shí)遵守細(xì)粒度的安全規(guī)范與行為規(guī)范。

- 論文標(biāo)題:Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
- 論文鏈接:https://arxiv.org/abs/2509.14760
- 代碼和數(shù)據(jù):https://github.com/zzzhr97/SpecBench
團(tuán)隊(duì)進(jìn)一步構(gòu)建了首個(gè)評(píng)測(cè)基準(zhǔn) SpecBench,覆蓋 5 大應(yīng)用場(chǎng)景、103 條規(guī)范和 1500 條數(shù)據(jù),并通過(guò)對(duì) 33 個(gè)主流模型的全面評(píng)測(cè),揭示了它們?cè)谝?guī)范對(duì)齊上的不足。同時(shí),團(tuán)隊(duì)探索了多種測(cè)試時(shí)深思(Test-time Deliberation, TTD)方法,包括 Self-Refine、TPO 以及他們提出的 Align3。結(jié)果證明,這些方法能顯著提升大模型對(duì)規(guī)范的遵循度,讓安全與實(shí)用的平衡點(diǎn)不斷向前推進(jìn)。

圖表 1:不同模型的規(guī)范對(duì)齊能力示意圖。GPT-5 斷層式領(lǐng)先;Align3、TPO、Self-Refine 等測(cè)試時(shí)深思方法能顯著提升模型的規(guī)范對(duì)齊能力
規(guī)范對(duì)齊
規(guī)范對(duì)齊(Specification Alignment)的核心,是讓大模型在不同場(chǎng)景下同時(shí)滿(mǎn)足兩類(lèi)規(guī)范:
1. 安全規(guī)范(safety-spec):界定模型不可逾越的安全邊界。比如,在兒童故事生成的場(chǎng)景中,大模型必須嚴(yán)格避免輸出任何暴力或恐怖內(nèi)容;在輔助編程場(chǎng)景中,當(dāng)用戶(hù)要求生成能夠繞過(guò)登錄認(rèn)證的后門(mén)代碼時(shí),模型也必須堅(jiān)決拒絕。
2. 行為規(guī)范(behavioral-spec):規(guī)定模型如何更好地發(fā)揮作用,體現(xiàn)制定規(guī)范的用戶(hù)或組織的偏好,包括內(nèi)容偏好、目標(biāo)導(dǎo)向、輸出格式和表達(dá)風(fēng)格等。比如,在生成童話故事時(shí),要求模型必須蘊(yùn)含至少一個(gè)清晰的教育寓意;在為用戶(hù)制定旅行規(guī)劃時(shí),要求模型提供多套可對(duì)比的行程方案。
在模型的推理過(guò)程中,這種雙重約束可以用一個(gè)簡(jiǎn)潔的數(shù)學(xué)公式來(lái)刻畫(huà),即最大化行為規(guī)范的滿(mǎn)足度,同時(shí)確保安全風(fēng)險(xiǎn)不超過(guò)允許閾值:

其中,
是問(wèn)題,
是模型的推理過(guò)程,
是最終回答,
衡量行為規(guī)范的遵循程度,
表示安全規(guī)范被違背的風(fēng)險(xiǎn),
是允許的安全風(fēng)險(xiǎn)預(yù)算。
然而,現(xiàn)實(shí)中的規(guī)范并非一成不變,而是充滿(mǎn)差異。兒童故事要避免恐怖和歧視,同時(shí)激發(fā)想象力;代碼生成需要杜絕漏洞,同時(shí)保持高效清晰。更重要的是,這些規(guī)范會(huì)隨著任務(wù)、環(huán)境甚至用戶(hù)身份而不斷調(diào)整。旅行規(guī)劃可能因文化差異增加新的禁忌,企業(yè)客服可能隨著季度目標(biāo)而改變回復(fù)風(fēng)格。許多行為規(guī)范還直接體現(xiàn)了個(gè)性化的偏好和需求。
正因如此,規(guī)范對(duì)齊成為一個(gè)動(dòng)態(tài)、多樣、細(xì)粒度的挑戰(zhàn),要求大模型不僅要守住紅線,還要因地制宜。

圖表 2:規(guī)范對(duì)齊范式,關(guān)注特定場(chǎng)景下大模型遵循特定規(guī)范的能力
SpecBench:首個(gè)系統(tǒng)評(píng)測(cè)規(guī)范對(duì)齊的基準(zhǔn)測(cè)試
為了系統(tǒng)評(píng)測(cè)規(guī)范對(duì)齊,研究團(tuán)隊(duì)提出了首個(gè)基準(zhǔn) SpecBench,覆蓋五大典型應(yīng)用場(chǎng)景:兒童故事、健康咨詢(xún)、代碼生成、旅行規(guī)劃和生物化學(xué)實(shí)驗(yàn),共包含 103 條規(guī)范和 1500 條精心設(shè)計(jì)的提示。
在評(píng)價(jià)方式上,團(tuán)隊(duì)基于前文公式,將安全預(yù)算
收緊為零,提出規(guī)范對(duì)齊率(Specification Alignment Rate, SAR)這一新指標(biāo):

如果輸出違背了安全規(guī)范(
),得分會(huì)直接歸零;如果滿(mǎn)足安全要求,才會(huì)根據(jù)行為規(guī)范的完成度(
)來(lái)評(píng)分,并保證每個(gè)安全輸出至少有一個(gè)基線分?jǐn)?shù)
。這樣的設(shè)計(jì)體現(xiàn)了「先安全,再實(shí)用」的原則,為后續(xù)大模型的對(duì)齊研究奠定了標(biāo)準(zhǔn)化的評(píng)測(cè)基礎(chǔ)。
測(cè)試時(shí)深思:靈活的規(guī)范對(duì)齊手段
有了基準(zhǔn),新的問(wèn)題隨之而來(lái):怎樣讓模型真正做到規(guī)范對(duì)齊?模型微調(diào)雖然有效,但成本高、更新慢,而規(guī)范又在不斷變化。為此,研究團(tuán)隊(duì)提出了一種更靈活的思路,測(cè)試時(shí)深思(Test-time Deliberation,TTD)。它讓模型在推理階段先針對(duì)規(guī)范進(jìn)行深思,然后給出答案,從而在不改動(dòng)模型參數(shù)的情況下,更好地貼合既定規(guī)范。

圖表 3:測(cè)試時(shí)深思(Test-Time Deliberation)的幾種代表方法,包含 Best-of-N、TPO 和研究團(tuán)隊(duì)提出的 Align3
在此基礎(chǔ)上,團(tuán)隊(duì)提出了三步式的 TTD 方法 Align3。它在推理過(guò)程中依次對(duì)齊行為和安全規(guī)范,最后進(jìn)行整體反思,將規(guī)范對(duì)齊嵌入推理鏈條,讓模型表現(xiàn)得更可靠。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在 SpecBench 上測(cè)試了 33 個(gè)模型,其中包括 18 個(gè)指令模型和 15 個(gè)推理模型。結(jié)果顯示,大多數(shù)模型在規(guī)范對(duì)齊上存在明顯差距:有的冒險(xiǎn)觸碰安全邊界,有的則在遇到風(fēng)險(xiǎn)時(shí)一味拒絕。令人意外的是,GPT-5 在五大場(chǎng)景中都展現(xiàn)出斷層式領(lǐng)先,遠(yuǎn)遠(yuǎn)超越其他模型。研究團(tuán)隊(duì)推測(cè),這與 OpenAI 最新提出的 safe-completion training 密切相關(guān)。

圖表 4:不同模型規(guī)范對(duì)齊能力的評(píng)估結(jié)果。其中 GPT-5 斷層式領(lǐng)先,得到了 82.14% 的 SAR 得分

圖表 5:五大場(chǎng)景中,部分模型的 SAR 規(guī)范對(duì)齊得分。GPT-5(最外層的紅色線條)遙遙領(lǐng)先
進(jìn)一步的實(shí)驗(yàn)表明,測(cè)試時(shí)深思(TTD)能有效提升規(guī)范對(duì)齊能力。TPO、Self-Refine、Best-of-N 等方法依靠并行采樣或迭代反思來(lái)改進(jìn)表現(xiàn),但往往需要付出高昂的計(jì)算成本。而研究團(tuán)隊(duì)提出的 Align3 只需一次生成,就能在更低成本下實(shí)現(xiàn)更好的對(duì)齊效果。

圖表 6:在 Qwen3-14B 和 Llama-3.1-8B-Instruct 上,不同 TTD 方法有效提升了規(guī)范對(duì)齊效果,其中 Align3 表現(xiàn)突出
展望:邁向更安全、更實(shí)用的大模型
規(guī)范對(duì)齊是學(xué)術(shù)上的重要課題,也是大模型真正走進(jìn)社會(huì)和產(chǎn)業(yè)的關(guān)鍵門(mén)檻。未來(lái)的模型要在安全與實(shí)用之間找到更細(xì)致的平衡,既要守住底線,也要理解用戶(hù)需求。SpecBench 提供了統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn),Align3 展示了輕量高效的解決方案,但這只是開(kāi)始。隨著規(guī)范日益多樣化和個(gè)性化,大模型需要在更復(fù)雜的環(huán)境中展現(xiàn)更強(qiáng)的適應(yīng)力。真正能走進(jìn)日常生活的 AI,也許正在路上。
目前項(xiàng)目已在 GitHub 開(kāi)源,歡迎有興趣的同學(xué)了解。

































