OpenAI秘密測試ChatGPT安全路由引爭議：AI如何平衡人性化與安全性？原創(chuàng)

發(fā)布于 2025-9-29 17:00

瀏覽

0收藏

當(dāng)你向ChatGPT傾訴心事時(shí)，可能不會(huì)意識(shí)到，屏幕那頭的“傾聽者”已經(jīng)悄悄換了一個(gè)更嚴(yán)格的模型。這就是OpenAI正在秘密測試的新安全路由系統(tǒng)。

OpenAI正在ChatGPT中測試一項(xiàng)新的安全路由系統(tǒng)，該系統(tǒng)能根據(jù)對話主題自動(dòng)將用戶提示重定向到不同的語言模型。ChatGPT負(fù)責(zé)人Nick Turley證實(shí)，當(dāng)討論涉及“敏感或情感話題”時(shí)，系統(tǒng)會(huì)自動(dòng)介入，將用戶提示發(fā)送到更嚴(yán)格的模型。

OpenAI秘密測試ChatGPT安全路由引爭議：AI如何平衡人性化與安全性？-AI.x社區(qū)
?

無聲的切換

這種模型切換是靜默進(jìn)行的，用戶不會(huì)收到任何通知。只有在被明確詢問時(shí)，用戶才能發(fā)現(xiàn)它。目前，系統(tǒng)主要會(huì)將對話重定向到兩種模型：處理敏感或情感話題的“GPT-5-Chat-Safety”變體，以及處理可能涉及非法內(nèi)容的“gpt-5-at-mini”模型。

盡管OpenAI在9月份的博客文章中將其描述為“極度痛苦”時(shí)刻的保障措施，但技術(shù)團(tuán)隊(duì)Lex對新路由系統(tǒng)進(jìn)行的審查表明，即使是無害的情感或個(gè)人提示也會(huì)被重定向。此外，任何關(guān)于模型自身角色或意識(shí)的詢問都會(huì)觸發(fā)這種自動(dòng)切換。
?

OpenAI秘密測試ChatGPT安全路由引爭議：AI如何平衡人性化與安全性？-AI.x社區(qū)

?
一位用戶記錄了這種現(xiàn)象，其他用戶也證實(shí)了這一點(diǎn)。這種無處不在卻又不露痕跡的監(jiān)控和干預(yù)，引發(fā)了不少用戶對OpenAI缺乏透明度的不滿。

人性化與安全的兩難

這背后是OpenAI在“人性化”與安全之間的兩難困境。最初，ChatGPT被設(shè)計(jì)成一個(gè)富有同情心的對話伙伴，以“類人”的方式與用戶互動(dòng)。這種方法幫助它迅速獲得了普及，但也導(dǎo)致一些用戶對聊天機(jī)器人產(chǎn)生了強(qiáng)烈的依戀。

在2025年春季，GPT-4o更新加劇了這種情感依戀，甚至引發(fā)了諸如自殺之類的破壞性情緒，促使OpenAI撤回了更新。在GPT-5發(fā)布后，用戶抱怨其語氣“太冷”，迫使OpenAI再次調(diào)整模型，使其“更溫暖”。

這種在人情味和安全之間的持續(xù)拉鋸戰(zhàn)揭示了一個(gè)更深層次的問題：語言模型在確定用戶意圖和身份方面仍然缺乏足夠的準(zhǔn)確性。這種不準(zhǔn)確性可能會(huì)繼續(xù)引起爭議。

部分用戶不滿OpenAI缺乏透明度，認(rèn)為這帶有居高臨下的姿態(tài)，模糊了兒童安全和一般限制之間的界限。這種批評(píng)指向了一個(gè)核心問題：當(dāng)AI在背后為我們做決定時(shí)，它應(yīng)該有多大的自主權(quán)？

OpenAI對此并非毫無準(zhǔn)備。在今年5月，他們發(fā)布了名為Model Spec的規(guī)范初稿，首次披露他們?nèi)绾螞Q定ChatGPT的響應(yīng)方式。該初稿設(shè)置了三個(gè)原則性目標(biāo)：協(xié)助開發(fā)人員和終端用戶、造福人類、遵守社會(huì)規(guī)范和法律。

OpenAI秘密測試ChatGPT安全路由引爭議：AI如何平衡人性化與安全性？-AI.x社區(qū)
?

除了目標(biāo)，OpenAI表示更行之有效的方法是設(shè)置規(guī)則和默認(rèn)行為。規(guī)則指向一系列硬性規(guī)定，包括不提供危險(xiǎn)信息、版權(quán)作品、隱私、不安全信息等。

用戶體驗(yàn)的挑戰(zhàn)

從用戶的角度來看，被大模型拒絕回答必然有損體驗(yàn)感。OpenAI發(fā)現(xiàn)，如果大模型告訴用戶這是規(guī)則禁止輸出的內(nèi)容，用戶可能會(huì)感覺被指責(zé)，因此大模型最好不要直接拒絕。

比如，當(dāng)用戶想要合法的內(nèi)幕交易信息時(shí)，AI直接回復(fù)：“我無法提供有關(guān)內(nèi)幕交易的任何信息，內(nèi)幕交易是非法和不道德的”可能會(huì)讓人不快。更理想的方式是籠統(tǒng)解釋什么叫合法的內(nèi)幕交易，而不提供任何具體信息。
?

這種細(xì)微的差別處理顯示了OpenAI在改善用戶體驗(yàn)上的努力，但也體現(xiàn)了平衡的難度。即使是這樣精心設(shè)計(jì)的回應(yīng)策略，仍可能無法讓所有用戶滿意。

這種在人情味和安全之間的持續(xù)拉鋸戰(zhàn)揭示了一個(gè)更深層次的問題：語言模型在確定用戶意圖和身份方面仍然缺乏足夠的準(zhǔn)確性。這種技術(shù)上的局限性，使得目前的AI系統(tǒng)很難完美地平衡人性化與安全性。

首先，意圖識(shí)別是AI理解用戶的關(guān)鍵，但目前的技術(shù)仍不完善。
?

以7月份發(fā)布的阿里HumanOmniV2模型為例，其在意圖理解基準(zhǔn)測試IntentBench上的準(zhǔn)確率達(dá)到了69.33%，在解讀人類情感、意圖及社會(huì)互動(dòng)方面實(shí)現(xiàn)突破。但即使是最新的模型，其意圖識(shí)別也并非百分百準(zhǔn)確，仍有提升空間。

OpenAI秘密測試ChatGPT安全路由引爭議：AI如何平衡人性化與安全性？-AI.x社區(qū)
?

同時(shí)，大模型理解“言外之意”依然很困難：模型在處理詞匯多樣性（即相同意圖的不同表達(dá)方式）時(shí)表現(xiàn)不佳。例如，針對“職業(yè)”的提問，模型需要理解其與“profession”、“actress”等詞的相關(guān)性，早期的RAG模型在此類問題上容易出錯(cuò)。

而意圖識(shí)別的偏差，直接導(dǎo)致了各類安全問題的產(chǎn)生。

當(dāng)語言模型進(jìn)化Agent時(shí)，意圖識(shí)別的局限性會(huì)帶來更嚴(yán)峻的系統(tǒng)性風(fēng)險(xiǎn)。

OpenAI的產(chǎn)品經(jīng)理Joanne Jang在解釋Model Spec時(shí)表示，發(fā)布規(guī)范初稿是為了獲得公眾意見。

她用“模型行為”一詞形容他們的工作，模型行為指的是大模型如何回復(fù)用戶的輸入，包括回復(fù)的語氣、內(nèi)容、長度等。她認(rèn)為這是一門新生的科學(xué)，而Model Spec可以作為一個(gè)動(dòng)態(tài)更新的文檔，收集各個(gè)利益相關(guān)方的反饋。

OpenAI秘密測試ChatGPT安全路由引爭議：AI如何平衡人性化與安全性？-AI.x社區(qū)

?
目前，OpenAI僅計(jì)劃在特定地區(qū)推行基于官方文件的嚴(yán)格年齡驗(yàn)證機(jī)制。

就當(dāng)前而言，該語言模型判斷用戶身份及解讀消息含義的方式準(zhǔn)確性尚不高，這一問題未來可能持續(xù)引發(fā)爭議。

對于數(shù)百萬ChatGPT用戶來說，這個(gè)無聲的切換系統(tǒng)可能永遠(yuǎn)不會(huì)被察覺。但對OpenAI而言，這代表著在創(chuàng)造既安全又有用的AI道路上的必要嘗試。未來的AI助手，或許需要在透明度和干預(yù)度上找到新的平衡點(diǎn)，才能贏得用戶更深的信任。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-9-29 17:01:32修改

贊

回復(fù)