GPT-5要停？OpenAI凌晨發(fā)文回應(yīng)：保障AI安全，我們沒(méi)有「偷工減料」

作者：新智元 2023-04-06 13:59:50

人工智能系統(tǒng)正在成為（人類）日常生活的一部分。關(guān)鍵問(wèn)題是要確保這些機(jī)器與人類的意圖和價(jià)值觀保持一致。——Mira Murati，OpenAI CTO

近些天，對(duì) OpenAI 來(lái)說(shuō)，可謂是一個(gè)「多事之秋」。

由于 ChatGPT 及 GPT-4 可能引發(fā)的安全問(wèn)題，OpenAI 受到了來(lái)自外界的一些指責(zé)和阻撓：

馬斯克等上千人聯(lián)名呼吁「所有人工智能實(shí)驗(yàn)室應(yīng)立即暫停訓(xùn)練比 GPT-4 更強(qiáng)大的大模型，這一時(shí)間至少為 6 個(gè)月」；
意大利禁用 ChatGPT，OpenAl「必須在 20 天內(nèi)通過(guò)其在歐洲的代表向他們通報(bào)公司執(zhí)行這一要求而采取的措施」；
ChatGPT 大面積封號(hào)；
ChatGPT Plus 停售；
......

這些事件表明，盡管 AI 已經(jīng)證明有能力為人類社會(huì)帶來(lái)諸多好處，但技術(shù)總是一把雙刃劍，也會(huì)為人類社會(huì)帶來(lái)帶來(lái)真正的風(fēng)險(xiǎn)，AI 也不例外。

4 月 6 日，OpenAI 官方發(fā)布了一篇名為「Our approach to AI safety」的博客文章，探討了如何「安全地構(gòu)建、部署和使用人工智能系統(tǒng)」的方法。

OpenAI 致力于保持強(qiáng)大的人工智能安全和（人類社會(huì)的）廣泛受益。我們的人工智能工具為今天的人們提供了許多好處。

來(lái)自世界各地的用戶告訴我們，ChatGPT 有助于提高他們的生產(chǎn)力，增強(qiáng)他們的創(chuàng)造力，并提供量身定制的學(xué)習(xí)體驗(yàn)。

我們也認(rèn)識(shí)到，像任何技術(shù)一樣，這些工具也有真正的風(fēng)險(xiǎn)——所以，我們努力確保在各個(gè)層面上將安全納入我們的系統(tǒng)。

1. 建立越來(lái)越安全的人工智能系統(tǒng)?

在發(fā)布任何新系統(tǒng)之前，我們都會(huì)進(jìn)行嚴(yán)格的測(cè)試，讓外部專家參與反饋，努力利用人類反饋的強(qiáng)化學(xué)習(xí)等技術(shù)改善模型的行為，并建立廣泛的安全和監(jiān)測(cè)系統(tǒng)。

例如，在我們最新的模型 GPT-4 完成訓(xùn)練后，我們所有員工花了 6 個(gè)多月的時(shí)間使其在公開(kāi)發(fā)布前更加安全和一致。

我們認(rèn)為，強(qiáng)大的人工智能系統(tǒng)應(yīng)該接受嚴(yán)格的安全評(píng)估。需要有監(jiān)管來(lái)確保這種做法被采納，我們積極與政府接觸，探討這種監(jiān)管可能采取的最佳形式。

2. 從真實(shí)世界的使用中學(xué)習(xí)，以改進(jìn)保障措施

我們努力在部署前預(yù)防可預(yù)見(jiàn)的風(fēng)險(xiǎn)，然而，我們?cè)趯?shí)驗(yàn)室中能學(xué)到的東西是有限的。?盡管進(jìn)行了廣泛的研究和測(cè)試，我們無(wú)法預(yù)測(cè)人們使用我們技術(shù)的所有有益方式，也無(wú)法預(yù)測(cè)人們?yōu)E用技術(shù)的所有方式。?這就是為什么我們相信，隨著時(shí)間的推移，從現(xiàn)實(shí)世界的使用中學(xué)習(xí)是創(chuàng)建和發(fā)布越來(lái)越安全的人工智能系統(tǒng)的一個(gè)關(guān)鍵組成部分。

在有大量的保障措施下，我們謹(jǐn)慎地逐步發(fā)布新的人工智能系統(tǒng)，將其推送給一個(gè)穩(wěn)步擴(kuò)大的人群，并根據(jù)我們學(xué)到的經(jīng)驗(yàn)不斷改進(jìn)。

我們通過(guò)我們自己的服務(wù)和 API 提供我們最有能力的模型，這樣開(kāi)發(fā)者就可以直接在他們的應(yīng)用程序中使用這種技術(shù)。這使我們能夠監(jiān)測(cè)濫用情況并采取行動(dòng)，并不斷建立緩解措施，以應(yīng)對(duì)人們?yōu)E用我們的系統(tǒng)的真實(shí)方式，而不僅僅是關(guān)于濫用可能是什么樣子的理論。

現(xiàn)實(shí)世界的使用也使我們制定了越來(lái)越細(xì)微的政策，以防止那些對(duì)人們構(gòu)成真正風(fēng)險(xiǎn)的行為，同時(shí)還允許我們的技術(shù)有許多有益的用途。

至關(guān)重要的是，我們相信社會(huì)必須有時(shí)間來(lái)更新和調(diào)整，以適應(yīng)能力越來(lái)越強(qiáng)的人工智能，而且每個(gè)受這種技術(shù)影響的人都應(yīng)該在人工智能的進(jìn)一步發(fā)展中擁有重要的發(fā)言權(quán)。迭代部署幫助我們將各種利益相關(guān)者帶入關(guān)于采用人工智能技術(shù)的對(duì)話中，比他們沒(méi)有親身經(jīng)歷過(guò)這些工具的情況下更有效。

3. 保護(hù)兒童

關(guān)于安全的一個(gè)關(guān)鍵工作是保護(hù)兒童。我們要求使用我們的人工智能工具的人必須是 18 歲或以上，或 13 歲或以上并得到父母的批準(zhǔn)，我們正在研究驗(yàn)證選項(xiàng)。

我們不允許我們的技術(shù)被用來(lái)產(chǎn)生仇恨、騷擾、暴力或成人內(nèi)容，以及其他（有害）類別。我們的最新模型 GPT-4 與 GPT-3.5 相比，對(duì)不允許的內(nèi)容請(qǐng)求的回應(yīng)率降低了 82%，我們已經(jīng)建立了一個(gè)強(qiáng)大的系統(tǒng)來(lái)監(jiān)控濫用。GPT-4 現(xiàn)在可供 ChatGPT Plus 用戶使用，我們希望隨著時(shí)間的推移，能讓更多人使用。

我們作出了很多努力，盡量減少我們的模型產(chǎn)生傷害兒童的內(nèi)容的可能性。例如，當(dāng)用戶試圖向我們的圖像工具上傳兒童安全虐待材料時(shí)，我們會(huì)阻止這一動(dòng)作，并向國(guó)家失蹤和受剝削兒童中心報(bào)告。

除了我們的默認(rèn)安全護(hù)欄外，我們還與非營(yíng)利性的可汗學(xué)院等開(kāi)發(fā)商合作--該學(xué)院建立了一個(gè)由人工智能驅(qū)動(dòng)的助手，既是學(xué)生的虛擬導(dǎo)師，也是教師的課堂助手--為他們的使用情況定制安全緩解措施。我們還在開(kāi)發(fā)一些功能，使開(kāi)發(fā)者能夠?yàn)槟Ｐ洼敵鲈O(shè)定更嚴(yán)格的標(biāo)準(zhǔn)，以更好地支持那些希望獲得這種功能的開(kāi)發(fā)者和用戶。

4. 尊重隱私

我們的大型語(yǔ)言模型是在一個(gè)廣泛的文本語(yǔ)料庫(kù)上訓(xùn)練出來(lái)的，其中包括公開(kāi)的、授權(quán)的內(nèi)容，以及由人類審查者產(chǎn)生的內(nèi)容。我們不使用數(shù)據(jù)來(lái)銷售我們的服務(wù)、廣告或建立人們的檔案，我們使用數(shù)據(jù)來(lái)使我們的模型對(duì)人們更有幫助。例如，ChatGPT 通過(guò)對(duì)人們與它的對(duì)話進(jìn)行進(jìn)一步的訓(xùn)練來(lái)提高能力。

雖然我們的一些訓(xùn)練數(shù)據(jù)包括公共互聯(lián)網(wǎng)上的個(gè)人信息，但我們希望我們的模型能夠了解這個(gè)世界，而不是私人。因此，我們努力在可行的情況下從訓(xùn)練數(shù)據(jù)集中刪除個(gè)人信息，對(duì)模型進(jìn)行微調(diào)，以拒絕對(duì)私人信息的請(qǐng)求，并對(duì)個(gè)人提出的從我們的系統(tǒng)中刪除其個(gè)人信息的請(qǐng)求作出回應(yīng)。這些步驟最大限度地減少了我們的模型可能產(chǎn)生包括私人信息的內(nèi)容的可能性。

5. 提高事實(shí)的準(zhǔn)確性

大型語(yǔ)言模型根據(jù)它們之前看到的模式，包括用戶提供的文本輸入，預(yù)測(cè)、產(chǎn)生接下來(lái)的一系列的詞。在某些情況下，下一個(gè)最有可能的詞可能在事實(shí)上并不準(zhǔn)確。

提高事實(shí)準(zhǔn)確性是 OpenAI 和許多其他人工智能開(kāi)發(fā)者的一個(gè)重要工作，我們正在取得進(jìn)展。通過(guò)利用用戶對(duì)被標(biāo)記為不正確的 ChatGPT 輸出的反饋?zhàn)鳛橹饕獢?shù)據(jù)來(lái)源。

我們認(rèn)識(shí)到，要進(jìn)一步減少出現(xiàn)幻覺(jué)的可能性，以及引導(dǎo)公眾了解這些人工智能工具目前的局限性，還有很多其他工作要做。

6. 持續(xù)的研究和參與?

我們認(rèn)為，解決人工智能安全問(wèn)題的實(shí)用方法是投入更多的時(shí)間和資源來(lái)研究有效的緩解措施和調(diào)整技術(shù)，并針對(duì)現(xiàn)實(shí)世界的濫用進(jìn)行測(cè)試。

重要的是，我們認(rèn)為，提高人工智能的安全性和能力應(yīng)該齊頭并進(jìn)。迄今為止，我們最好的安全工作來(lái)自與我們能力最強(qiáng)的模型之間的合作，因?yàn)樗鼈兏朴谧裱脩舻闹甘荆菀滓龑?dǎo)或「指導(dǎo)」。

隨著能力更強(qiáng)的模型的創(chuàng)建和部署，我們將越來(lái)越謹(jǐn)慎，隨著我們?nèi)斯ぶ悄芟到y(tǒng)的進(jìn)一步發(fā)展，我們將繼續(xù)加強(qiáng)安全防范措施。

雖然我們?yōu)榱烁玫亓私?GPT-4 的能力、好處和風(fēng)險(xiǎn)，等了 6 個(gè)多月才將其部署，但有時(shí)可能需要比這更長(zhǎng)的時(shí)間來(lái)提高人工智能系統(tǒng)的安全性。因此，政策制定者和人工智能供應(yīng)商將需要確保人工智能的發(fā)展和部署在全球范圍內(nèi)得到有效的管理，沒(méi)有人會(huì)為了盡快取得成功而「偷工減料」。這是一個(gè)艱巨的挑戰(zhàn)，需要技術(shù)和制度上的創(chuàng)新，但這也是我們渴望做出的貢獻(xiàn)。

解決安全問(wèn)題也需要廣泛的辯論、實(shí)驗(yàn)和參與，包括在人工智能系統(tǒng)行為的界限上。我們已經(jīng)并將繼續(xù)促進(jìn)利益相關(guān)者之間的合作和公開(kāi)對(duì)話，以創(chuàng)建一個(gè)安全的人工智能生態(tài)系統(tǒng)。

責(zé)任編輯：張燕妮來(lái)源：新智元

人工智能系統(tǒng)