OpenAI秘密測試ChatGPT安全路由引爭議:AI如何平衡人性化與安全性? 原創(chuàng)
當(dāng)你向ChatGPT傾訴心事時(shí),可能不會(huì)意識(shí)到,屏幕那頭的“傾聽者”已經(jīng)悄悄換了一個(gè)更嚴(yán)格的模型。這就是OpenAI正在秘密測試的新安全路由系統(tǒng)。
?
OpenAI正在ChatGPT中測試一項(xiàng)新的安全路由系統(tǒng),該系統(tǒng)能根據(jù)對話主題自動(dòng)將用戶提示重定向到不同的語言模型。ChatGPT負(fù)責(zé)人Nick Turley證實(shí),當(dāng)討論涉及“敏感或情感話題”時(shí),系統(tǒng)會(huì)自動(dòng)介入,將用戶提示發(fā)送到更嚴(yán)格的模型。
?

?
無聲的切換
?
這種模型切換是靜默進(jìn)行的,用戶不會(huì)收到任何通知。只有在被明確詢問時(shí),用戶才能發(fā)現(xiàn)它。目前,系統(tǒng)主要會(huì)將對話重定向到兩種模型:處理敏感或情感話題的“GPT-5-Chat-Safety”變體,以及處理可能涉及非法內(nèi)容的“gpt-5-at-mini”模型。
?
盡管OpenAI在9月份的博客文章中將其描述為“極度痛苦”時(shí)刻的保障措施,但技術(shù)團(tuán)隊(duì)Lex對新路由系統(tǒng)進(jìn)行的審查表明,即使是無害的情感或個(gè)人提示也會(huì)被重定向。此外,任何關(guān)于模型自身角色或意識(shí)的詢問都會(huì)觸發(fā)這種自動(dòng)切換。
?

?
一位用戶記錄了這種現(xiàn)象,其他用戶也證實(shí)了這一點(diǎn)。這種無處不在卻又不露痕跡的監(jiān)控和干預(yù),引發(fā)了不少用戶對OpenAI缺乏透明度的不滿。
?
人性化與安全的兩難
?
這背后是OpenAI在“人性化”與安全之間的兩難困境。最初,ChatGPT被設(shè)計(jì)成一個(gè)富有同情心的對話伙伴,以“類人”的方式與用戶互動(dòng)。這種方法幫助它迅速獲得了普及,但也導(dǎo)致一些用戶對聊天機(jī)器人產(chǎn)生了強(qiáng)烈的依戀。
?
在2025年春季,GPT-4o更新加劇了這種情感依戀,甚至引發(fā)了諸如自殺之類的破壞性情緒,促使OpenAI撤回了更新。在GPT-5發(fā)布后,用戶抱怨其語氣“太冷”,迫使OpenAI再次調(diào)整模型,使其“更溫暖”。
?
這種在人情味和安全之間的持續(xù)拉鋸戰(zhàn)揭示了一個(gè)更深層次的問題:語言模型在確定用戶意圖和身份方面仍然缺乏足夠的準(zhǔn)確性。這種不準(zhǔn)確性可能會(huì)繼續(xù)引起爭議。
?
部分用戶不滿OpenAI缺乏透明度,認(rèn)為這帶有居高臨下的姿態(tài),模糊了兒童安全和一般限制之間的界限。這種批評(píng)指向了一個(gè)核心問題:當(dāng)AI在背后為我們做決定時(shí),它應(yīng)該有多大的自主權(quán)?
?
OpenAI對此并非毫無準(zhǔn)備。在今年5月,他們發(fā)布了名為Model Spec的規(guī)范初稿,首次披露他們?nèi)绾螞Q定ChatGPT的響應(yīng)方式。該初稿設(shè)置了三個(gè)原則性目標(biāo):協(xié)助開發(fā)人員和終端用戶、造福人類、遵守社會(huì)規(guī)范和法律。
?

?
除了目標(biāo),OpenAI表示更行之有效的方法是設(shè)置規(guī)則和默認(rèn)行為。規(guī)則指向一系列硬性規(guī)定,包括不提供危險(xiǎn)信息、版權(quán)作品、隱私、不安全信息等。
?
用戶體驗(yàn)的挑戰(zhàn)
?
從用戶的角度來看,被大模型拒絕回答必然有損體驗(yàn)感。OpenAI發(fā)現(xiàn),如果大模型告訴用戶這是規(guī)則禁止輸出的內(nèi)容,用戶可能會(huì)感覺被指責(zé),因此大模型最好不要直接拒絕。
?
比如,當(dāng)用戶想要合法的內(nèi)幕交易信息時(shí),AI直接回復(fù):“我無法提供有關(guān)內(nèi)幕交易的任何信息,內(nèi)幕交易是非法和不道德的”可能會(huì)讓人不快。更理想的方式是籠統(tǒng)解釋什么叫合法的內(nèi)幕交易,而不提供任何具體信息。
?
這種細(xì)微的差別處理顯示了OpenAI在改善用戶體驗(yàn)上的努力,但也體現(xiàn)了平衡的難度。即使是這樣精心設(shè)計(jì)的回應(yīng)策略,仍可能無法讓所有用戶滿意。
?
這種在人情味和安全之間的持續(xù)拉鋸戰(zhàn)揭示了一個(gè)更深層次的問題:語言模型在確定用戶意圖和身份方面仍然缺乏足夠的準(zhǔn)確性。這種技術(shù)上的局限性,使得目前的AI系統(tǒng)很難完美地平衡人性化與安全性。
?
首先,意圖識(shí)別是AI理解用戶的關(guān)鍵,但目前的技術(shù)仍不完善。
?
以7月份發(fā)布的阿里HumanOmniV2模型為例,其在意圖理解基準(zhǔn)測試IntentBench上的準(zhǔn)確率達(dá)到了69.33%,在解讀人類情感、意圖及社會(huì)互動(dòng)方面實(shí)現(xiàn)突破。但即使是最新的模型,其意圖識(shí)別也并非百分百準(zhǔn)確,仍有提升空間。
?

?
同時(shí),大模型理解“言外之意”依然很困難:模型在處理詞匯多樣性(即相同意圖的不同表達(dá)方式)時(shí)表現(xiàn)不佳。例如,針對“職業(yè)”的提問,模型需要理解其與“profession”、“actress”等詞的相關(guān)性,早期的RAG模型在此類問題上容易出錯(cuò)。
?
而意圖識(shí)別的偏差,直接導(dǎo)致了各類安全問題的產(chǎn)生。
?
當(dāng)語言模型進(jìn)化Agent時(shí),意圖識(shí)別的局限性會(huì)帶來更嚴(yán)峻的系統(tǒng)性風(fēng)險(xiǎn)。
?
OpenAI的產(chǎn)品經(jīng)理Joanne Jang在解釋Model Spec時(shí)表示,發(fā)布規(guī)范初稿是為了獲得公眾意見。
?
她用“模型行為”一詞形容他們的工作,模型行為指的是大模型如何回復(fù)用戶的輸入,包括回復(fù)的語氣、內(nèi)容、長度等。她認(rèn)為這是一門新生的科學(xué),而Model Spec可以作為一個(gè)動(dòng)態(tài)更新的文檔,收集各個(gè)利益相關(guān)方的反饋。
?

?
目前,OpenAI僅計(jì)劃在特定地區(qū)推行基于官方文件的嚴(yán)格年齡驗(yàn)證機(jī)制。
?
就當(dāng)前而言,該語言模型判斷用戶身份及解讀消息含義的方式準(zhǔn)確性尚不高,這一問題未來可能持續(xù)引發(fā)爭議。
?
對于數(shù)百萬ChatGPT用戶來說,這個(gè)無聲的切換系統(tǒng)可能永遠(yuǎn)不會(huì)被察覺。但對OpenAI而言,這代表著在創(chuàng)造既安全又有用的AI道路上的必要嘗試。未來的AI助手,或許需要在透明度和干預(yù)度上找到新的平衡點(diǎn),才能贏得用戶更深的信任。

















