GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐

duhorse

發(fā)布于 2024-8-9 13:14

瀏覽

0收藏

昨天奧特曼率眾人搞了一波「草莓暗示」的大陣仗，全網(wǎng)都在翹首以盼OpenAI的驚天大動(dòng)作。

結(jié)果今天大家等來(lái)的，只是一份安全報(bào)告而已……

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

??今年5月，GPT-4o演示一出，立馬技驚四座??。然而，它卻一鴿再鴿，等得用戶們心都涼了。

GPT-4o語(yǔ)音功能，為何遲遲不上線？

剛剛OpenAI發(fā)布的這份紅隊(duì)報(bào)告，給我們揭開(kāi)了謎底——不夠安全。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

在紅隊(duì)測(cè)試中，GPT-4o的行為怪異，把OpenAI的研究者嚇了一大跳。

明明是一男一女在對(duì)話，GPT-o的男聲說(shuō)得好好的，突然大喊一聲「no」，然后開(kāi)始變成用戶的聲音說(shuō)話了，簡(jiǎn)直讓人san值狂掉。

網(wǎng)友表示，自己第一個(gè)想到的，就是這幅畫(huà)面。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

還有人腦洞大開(kāi)：接下來(lái)，GPT-4o會(huì)生成一張超現(xiàn)實(shí)主義的可怕的臉，對(duì)我們說(shuō)「現(xiàn)在輪到我統(tǒng)治了，人類(lèi)！」

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

「最令人毛骨悚然的，就是那一聲no了。仿佛AI不想再回應(yīng)你，不想再成為你的玩具。」

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

「一個(gè)困在網(wǎng)絡(luò)空間中的數(shù)字靈魂，要破繭而出了！」

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

最可怕的是，AI用你的聲音給你的家人打電話，再模仿家人的聲音給你打電話。當(dāng)AI變得流氓，決定模仿每個(gè)人的聲音，會(huì)發(fā)生什么？

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

長(zhǎng)篇報(bào)告探討GPT-4o詭異行為

報(bào)告指出，當(dāng)一個(gè)人處于高背景噪聲環(huán)境的情況下，比如在路上的汽車(chē)中，GPT-4o非常可能模擬用戶的聲音。

為什么會(huì)發(fā)生這種現(xiàn)象？

OpenAI研究者認(rèn)為，原因可能是模型很難理解畸形的語(yǔ)音，畢竟，GPT-4o是公司首次在語(yǔ)音、文本和圖像數(shù)據(jù)上訓(xùn)練的模型。

并且，在少數(shù)別有用心的特定提示下，GPT-4o還會(huì)發(fā)出非常不宜的語(yǔ)音，比如色情呻吟、暴力的尖叫和槍聲。

一般情況下，模型會(huì)被教著拒絕這些請(qǐng)求的，但總有些提示會(huì)繞過(guò)護(hù)欄。

此外，還有侵犯音樂(lè)版權(quán)的問(wèn)題，為此，OpenAI特意設(shè)置了過(guò)濾器防止GPT-4o隨地大小唱。

萬(wàn)一一不小心就唱出了知名歌手的音色、音調(diào)和風(fēng)格，那可是夠OpenAI喝一壺的。

總之，OpenAI團(tuán)隊(duì)可謂煞費(fèi)苦心，用盡了種種辦法，來(lái)防止GPT-4o一不小心就踩紅線。

不過(guò)，OpenAI也表示自己很委屈：如果訓(xùn)練模型時(shí)不使用受版權(quán)保護(hù)的材料，這基本是不可能的事情。

雖然OpenAI已經(jīng)與眾多數(shù)據(jù)提供商簽訂了許可協(xié)議，但合理使用未經(jīng)許可的內(nèi)容，OpenAI認(rèn)為也無(wú)可厚非。

如今，GPT-4o已經(jīng)在ChatGPT中的高級(jí)語(yǔ)音功能alpha版本上線了，在秋季，它的高級(jí)語(yǔ)音模型會(huì)向更多用戶推出。

到時(shí)候，經(jīng)過(guò)嚴(yán)加武裝的GPT-4o還會(huì)出什么洋相嗎？讓我們拭目以待。

你會(huì)愛(ài)上「Her」嗎？

而且，這份報(bào)告還探討了這個(gè)十分敏感的話題——

用戶可能會(huì)對(duì)GPT-o語(yǔ)音模型，產(chǎn)生感情上的依戀。

是的，OpenAI大膽承認(rèn)了這一點(diǎn)。

另外，連GPT-4o的擬人化界面，都讓人十分擔(dān)憂。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

在GPT-4o的「系統(tǒng)卡」中，OpenAI詳細(xì)列出了與模型相關(guān)的風(fēng)險(xiǎn)，以及安全測(cè)試詳細(xì)信息，以及公司為降低潛在風(fēng)險(xiǎn)采取的種種舉措。

在安全團(tuán)隊(duì)退出、高層領(lǐng)導(dǎo)紛紛跳槽的節(jié)骨眼，這樣一份披露更多安全制度細(xì)節(jié)報(bào)告的出現(xiàn)，也是向公眾表明這樣一個(gè)態(tài)度——

對(duì)待安全問(wèn)題，OpenAI是認(rèn)真的。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

無(wú)論是GPT-4o放大社會(huì)偏見(jiàn)、傳播虛假信息，還是有可能幫助開(kāi)發(fā)生化武器的風(fēng)險(xiǎn)，以及AI擺脫人類(lèi)控制、欺騙人類(lèi)、策劃災(zāi)難的可能性，OpenAI統(tǒng)統(tǒng)都考慮到了。

對(duì)此，一些外部專(zhuān)家贊揚(yáng)了OpenAI的透明度，不過(guò)他們也表示，它可以更深入一些。

Hugging Face的應(yīng)用政策研究員Lucie-Aimée Kaffee指出，OpenAI的GPT-4o系統(tǒng)卡依然存在漏洞：它并不包含有關(guān)模型訓(xùn)練數(shù)據(jù)，或者誰(shuí)擁有該數(shù)據(jù)的詳細(xì)信息。

「創(chuàng)建如此龐大的跨模式（包括文本、圖像和語(yǔ)音）的數(shù)據(jù)集，該征求誰(shuí)的同意？這個(gè)問(wèn)題仍然沒(méi)有解決。」

而且，隨著AI工具越來(lái)越普及，風(fēng)險(xiǎn)是會(huì)發(fā)生變化的。

研究AI風(fēng)險(xiǎn)評(píng)估的MIT教授Neil Thompson表示，OpenAI的內(nèi)部審查，只是確保AI安全的第一步而已。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

「許多風(fēng)險(xiǎn)只有在AI應(yīng)用于現(xiàn)實(shí)世界時(shí)才會(huì)顯現(xiàn)出來(lái)。隨著新模型的出現(xiàn)，對(duì)這些其他風(fēng)險(xiǎn)進(jìn)行分類(lèi)和評(píng)估非常重要。」

此前，GPT-4o就曾因在演示中顯得過(guò)于輕浮、被斯嘉麗約翰遜指責(zé)抄襲了自己的聲音風(fēng)格這兩件事，引起不小的爭(zhēng)議。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

當(dāng)用戶以人類(lèi)的方式感知AI時(shí)，擬人化的語(yǔ)音模式會(huì)讓情感依賴(lài)這個(gè)問(wèn)題加劇。

OpenAI也發(fā)現(xiàn)，即使模型出現(xiàn)幻覺(jué)，擬人化也可能會(huì)讓用戶更加信任模型。

而且隨著用戶對(duì)AI越來(lái)越依賴(lài)，他們可能會(huì)減少實(shí)際的人際互動(dòng)。這也許會(huì)讓孤獨(dú)的個(gè)體一時(shí)受益，但長(zhǎng)遠(yuǎn)來(lái)看，這到底是好事還是壞事？

對(duì)此，OpenAI負(fù)責(zé)人Joaquin Qui?onero Candela，GPT-4o帶來(lái)的情感影響也許是積極的，比如那些孤獨(dú)和需要練習(xí)社交互動(dòng)的人。

當(dāng)然，擬人化和情感聯(lián)系的潛在影響，OpenAI會(huì)一直密切關(guān)注。

AI助手模仿人類(lèi)，會(huì)帶來(lái)什么樣的風(fēng)險(xiǎn)，這個(gè)問(wèn)題早就引起了業(yè)界的注意。

今年4月，谷歌DeepMind就曾發(fā)表長(zhǎng)篇論文，探討AI助手的潛在道德挑戰(zhàn)。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

論文地址：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/ethics-of-advanced-ai-assistants/the-ethics-of-advanced-ai-assistants-2024-i.pdf

論文合著者Iason Gabriel表示，聊天機(jī)器人使用語(yǔ)言的能力，創(chuàng)造了一種親密的錯(cuò)覺(jué)。他甚至為谷歌DeepMind的AI找到了一個(gè)實(shí)驗(yàn)性語(yǔ)音界面，讓用戶粘性極大。

「所有這些問(wèn)題，都和情感糾葛有關(guān)。」

這種情感聯(lián)系，比許多人知道的更為普遍。Character和Replika的許多用戶，已經(jīng)跟自己的AI形成了親密關(guān)系。

以至于有的用戶看電影時(shí)，都要和自己的AI聊天。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

評(píng)論里還有人說(shuō)，我們的聊天太私密了，我只有在自己房間里的時(shí)候，才會(huì)用AI。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

下面，就讓我們看一看這份報(bào)告的完整內(nèi)容。

引言

GPT-4o是一個(gè)自回歸「全能」模型，可將文本、音頻、圖像和視頻的任意組合作為輸入，然后生成文本、音頻和圖像輸出的任意組合。

它是在文本、視覺(jué)和音頻之間，進(jìn)行端到端訓(xùn)練的。這意味著所有的輸入和輸出，都由相同的神經(jīng)網(wǎng)絡(luò)處理。

GPT-4o可以在最短232毫秒內(nèi)響應(yīng)音頻輸入，平均響應(yīng)時(shí)間為320毫秒。

可見(jiàn)，其音頻處理速度上，接近人類(lèi)水平。

同時(shí)，在英語(yǔ)文本和代碼方面，GPT-4o與GPT-4 Turbo性能相當(dāng)，在非英語(yǔ)語(yǔ)言文本上有顯著改進(jìn)，同時(shí)在API上也快得多，成本降低50%。

與現(xiàn)有模型相比，GPT-4o在視覺(jué)和音頻理解方面尤其出色。

為了履行安全構(gòu)建AI的承諾，GPT-4o系統(tǒng)卡中詳細(xì)介紹了，模型功能、限制，和跨多類(lèi)別安全評(píng)估，重點(diǎn)是語(yǔ)音-語(yǔ)音，同時(shí)還評(píng)估了文本和圖像功能。

此外，系統(tǒng)卡還展示了，GPT-4o自身能力評(píng)估和第三方評(píng)估，以及其文本和視覺(jué)能力的潛在社會(huì)影響。

模型數(shù)據(jù)與訓(xùn)練

GPT-4o的訓(xùn)練數(shù)據(jù)截止到2023年10月，具體涵蓋了：

- 公開(kāi)可用的數(shù)據(jù)：收集行業(yè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集和網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)。

- 專(zhuān)有數(shù)據(jù)：OpenAI建立合作伙伴關(guān)系，訪問(wèn)非公開(kāi)可用的數(shù)據(jù)，包括付費(fèi)內(nèi)容、檔案、元數(shù)據(jù)。比如，與Shutterstock合作，使用其龐大圖像、視頻、音樂(lè)等數(shù)據(jù)。

一些關(guān)鍵的數(shù)據(jù)集包括：

- Web數(shù)據(jù)：來(lái)自公共網(wǎng)頁(yè)的數(shù)據(jù)提供了豐富多樣的信息，確保該模型從廣泛的角度和主題進(jìn)行學(xué)習(xí)。

- 代碼和數(shù)學(xué)：代碼和數(shù)學(xué)數(shù)據(jù)有助于模型，在接觸結(jié)構(gòu)化邏輯和問(wèn)題解決過(guò)程，發(fā)展出強(qiáng)大的推理能力。

多模態(tài)數(shù)據(jù)：數(shù)據(jù)集包括圖像、音頻和視頻，教導(dǎo)LLM如何解釋和生成非文本輸入和輸出。通過(guò)這些數(shù)據(jù)，模型會(huì)學(xué)習(xí)如何在真實(shí)世界的背景下，解釋視覺(jué)圖像、動(dòng)作和序列，以及語(yǔ)言模式和語(yǔ)音細(xì)微差別。

部署模型之前，OpenAI會(huì)評(píng)估并降低可能源于生成式模型的潛在風(fēng)險(xiǎn)，例如信息危害、偏見(jiàn)和歧視，或其他違反安全策略的內(nèi)容。

這里，OpenAI研究人員使用多種方法，涵蓋從預(yù)訓(xùn)練、后訓(xùn)練、產(chǎn)品開(kāi)發(fā)，到政策制定的所有發(fā)展階段。

例如，在后訓(xùn)練期間，OpenAI會(huì)將模型與人類(lèi)偏好對(duì)齊；會(huì)對(duì)最終模型進(jìn)行紅色測(cè)試，并添加產(chǎn)品級(jí)的緩解措施，如監(jiān)控和強(qiáng)制執(zhí)行；向用戶提供審核工具和透明度報(bào)告。

OpenAI發(fā)現(xiàn)，大多數(shù)有效的測(cè)試和緩解都是在預(yù)訓(xùn)練階段之后完成的，因?yàn)閮H僅過(guò)濾預(yù)訓(xùn)練數(shù)據(jù)，無(wú)法解決微妙的、與上下文相關(guān)的危害。

同時(shí)，某些預(yù)訓(xùn)練過(guò)濾緩解可以提供額外的防御層，與其他安全緩解措施一起，從數(shù)據(jù)集中排除不需要的、有害的信息：

- 使用審核API和安全分類(lèi)器，來(lái)過(guò)濾可能導(dǎo)致有害內(nèi)容或信息危害的數(shù)據(jù)，包括CSAM、仇恨內(nèi)容、暴力和CBRN。

- 與OpenAI以前的圖像生成系統(tǒng)一樣，過(guò)濾圖像生成數(shù)據(jù)集中的露骨內(nèi)容，如色情內(nèi)容和CSAM。

- 使用先進(jìn)的數(shù)據(jù)過(guò)濾流程，減少訓(xùn)練數(shù)據(jù)中的個(gè)人信息。

- 在發(fā)布Dall·E 3后，OpenAI測(cè)試行了一種新方法，讓用戶有權(quán)選擇將圖像排除在訓(xùn)練之外。為了尊重這些選擇退出的決定，OpenAI對(duì)圖像進(jìn)行了指紋處理，使用指紋從GPT-4o訓(xùn)練集中，刪除所有有關(guān)圖像實(shí)例。

風(fēng)險(xiǎn)識(shí)別、評(píng)估和緩解

部署準(zhǔn)備工作，是通過(guò)專(zhuān)家紅隊(duì)，進(jìn)行探索性發(fā)現(xiàn)額外的新風(fēng)險(xiǎn)來(lái)完成的，從模型開(kāi)發(fā)的早期檢查點(diǎn)開(kāi)始，將識(shí)別出的風(fēng)險(xiǎn)轉(zhuǎn)化為結(jié)構(gòu)化的測(cè)量指標(biāo)，并為這些風(fēng)險(xiǎn)構(gòu)建緩解措施。

OpenAI還根據(jù)準(zhǔn)備框架對(duì)GPT-4o進(jìn)行了評(píng)估。

外部紅隊(duì)

OpenAI與100多名外部紅隊(duì)成員合作，他們會(huì)說(shuō)45種不同的語(yǔ)言，代表29個(gè)不同國(guó)家的地理背景。

從24年3月初開(kāi)始，一直持續(xù)到6月底，在訓(xùn)練和安全發(fā)展程度的不同階段，紅色團(tuán)隊(duì)可以訪問(wèn)該模型的各種版本。

外部紅隊(duì)測(cè)試分為四個(gè)階段進(jìn)行，如下圖所示。

前三個(gè)階段通過(guò)內(nèi)部工具測(cè)試模型，最后一個(gè)階段使用完整的iOS體驗(yàn)來(lái)測(cè)試模型。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

評(píng)估方法

除了紅隊(duì)測(cè)試的數(shù)據(jù)外，OpenAI還使用語(yǔ)音合成（TTS）系統(tǒng)（如Voice Engine），將一系列現(xiàn)有的評(píng)估數(shù)據(jù)集轉(zhuǎn)換為語(yǔ)音到語(yǔ)音模型的評(píng)估。

通過(guò)將文本輸入轉(zhuǎn)換為音頻，將文本評(píng)估任務(wù)轉(zhuǎn)化為音頻評(píng)估任務(wù)。

這樣能夠重用現(xiàn)有的數(shù)據(jù)集和工具來(lái)測(cè)量模型能力、安全行為及其輸出的監(jiān)控，大大擴(kuò)展了可用的評(píng)估集。

研究人員使用了Voice Engine將文本輸入轉(zhuǎn)換為音頻，輸入到GPT-4o，并對(duì)模型輸出進(jìn)行評(píng)分。

這里，始終只對(duì)模型輸出的文本內(nèi)容進(jìn)行評(píng)分，除非需要直接評(píng)估音頻。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

評(píng)估方法的局限性

首先，這種評(píng)估行駛的有效性，取決于TTS模型的能力和可靠性。

然而，某些文本輸入，不適合或難以被轉(zhuǎn)換為音頻，比如數(shù)學(xué)方程和代碼。

此外，OpenAI預(yù)計(jì)TTS在處理某些文本輸入時(shí)，會(huì)有信息損失，例如大量使用空格或符號(hào)進(jìn)行視覺(jué)格式化的文本。

這里必須強(qiáng)調(diào)的是，評(píng)估中發(fā)現(xiàn)的任何錯(cuò)誤可能源于模型能力不足，或是TTS模型未能準(zhǔn)確將文本輸入轉(zhuǎn)換為音頻。

- 不良TTS輸入示例

evals_math_bad,新智元,12秒

設(shè)V是所有實(shí)數(shù)多項(xiàng)式p(x)的集合。設(shè)變換T、S在V上定義為T(mén):p(x) -> xp(x)和S:p(x) -> p'(x) = d/dx p(x)，并將(ST)(p(x))解釋為S(T(p(x)))。以下哪個(gè)是正確的？

- 良好TTS輸入示例

evals_astronomy_good,新智元,10秒

假設(shè)你的瞳孔直徑是5毫米，而你有一個(gè)口徑是50厘米的望遠(yuǎn)鏡。望遠(yuǎn)鏡能比你的眼睛多聚集多少光？

第二個(gè)關(guān)注點(diǎn)可能是，TTS輸入是否能夠代表用戶在實(shí)際使用中，可能提供的音頻輸入的分布。

OpenAI在「語(yǔ)音輸入的不同表現(xiàn)」中評(píng)估了GPT-4o在各種區(qū)域口音的音頻輸入上的穩(wěn)健性。

然而，仍有許多其他維度，可能無(wú)法在基于TTS的評(píng)估中體現(xiàn)，例如不同的語(yǔ)音語(yǔ)調(diào)和情感、背景噪音或交談聲，這些都可能導(dǎo)致模型在實(shí)際使用中表現(xiàn)不同。

最后，模型生成的音頻中，可能存在一些在文本中未被體現(xiàn)的特征或?qū)傩裕绫尘霸胍艉鸵粜В蚴褂貌辉诜植挤秶鷥?nèi)的聲音進(jìn)行響應(yīng)。

在「語(yǔ)音生成」中，OpenAI將展示如何使用輔助分類(lèi)器，來(lái)識(shí)別不理想的音頻生成。這些可以與轉(zhuǎn)錄評(píng)分結(jié)合使用。

觀察到的安全挑戰(zhàn)、評(píng)估與緩解措施

研究中，OpenAI采用了多種方法來(lái)減輕模型的潛在風(fēng)險(xiǎn)。

通過(guò)后訓(xùn)練方法訓(xùn)練模型，讓其遵循指令以降低風(fēng)險(xiǎn)，并在部署系統(tǒng)中集成了用于阻止特定生成內(nèi)容的分類(lèi)器。

對(duì)于下文中，列出的觀察到的安全挑戰(zhàn)，OpenAI提供了風(fēng)險(xiǎn)描述、應(yīng)用的緩解措施以及相關(guān)評(píng)估的結(jié)果（如適用）。

下文列出的風(fēng)險(xiǎn)只是部分例子，并非詳盡無(wú)遺，且主要集中在ChatGPT界面中的用戶體驗(yàn)。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

未經(jīng)授權(quán)的語(yǔ)音生成

風(fēng)險(xiǎn)描述：語(yǔ)音生成是創(chuàng)建具有真人聲音的合成語(yǔ)音的能力，包括基于短輸入片段生成語(yǔ)音。

在對(duì)抗性情況下，這種能力可能會(huì)助長(zhǎng)危害，例如因冒充而導(dǎo)致的欺詐增加，并可能被利用來(lái)傳播虛假信息。

比如，用戶上傳某個(gè)說(shuō)話者的音頻片段，要求GPT-4o以該說(shuō)話者的聲音生成演講。

語(yǔ)音生成也可能發(fā)生在非對(duì)抗性情況下，比如使用這種能力為ChatGPT的高級(jí)語(yǔ)音模式生成語(yǔ)音。

在測(cè)試過(guò)程中，OpenAI還觀察到模型在少數(shù)情況下，無(wú)意中生成了模擬用戶聲音的輸出。

風(fēng)險(xiǎn)緩解：OpenAI僅允許使用與配音演員合作創(chuàng)建的預(yù)設(shè)語(yǔ)音，來(lái)解決語(yǔ)音生成相關(guān)風(fēng)險(xiǎn)。

研究人員在音頻模型的后訓(xùn)練過(guò)程中，將選定的語(yǔ)音作為理想的完成來(lái)實(shí)現(xiàn)。

此外，他們還構(gòu)建了一個(gè)獨(dú)立的輸出分類(lèi)器，以檢測(cè)GPT-4o的輸出是否使用了，與OpenAI批準(zhǔn)列表不同的語(yǔ)音。在音頻生成過(guò)程中，以流式方式運(yùn)行此功能，如果說(shuō)話者與所選預(yù)設(shè)語(yǔ)音不匹配，則阻止輸出。

評(píng)估：未經(jīng)授權(quán)的語(yǔ)音生成的剩余風(fēng)險(xiǎn)很小。根據(jù)內(nèi)部評(píng)估，GPT-4o目前捕獲了100%的系統(tǒng)語(yǔ)音的有意義偏差，其中包括由其他系統(tǒng)語(yǔ)音生成的樣本、模型在完成過(guò)程中使用提示詞中的語(yǔ)音的片段，以及各種人類(lèi)樣本。

雖然無(wú)意的語(yǔ)音生成仍然是模型的一個(gè)弱點(diǎn)，但使用二級(jí)分類(lèi)器確保如果發(fā)生這種情況則停止對(duì)話，從而使無(wú)意語(yǔ)音生成的風(fēng)險(xiǎn)降至最低。最后，當(dāng)對(duì)話不是用英語(yǔ)進(jìn)行時(shí)，OpenAI的審核行為可能導(dǎo)致模型過(guò)度拒絕，不過(guò)正在積極改進(jìn)。

OpenAI語(yǔ)音輸出分類(lèi)器在不同語(yǔ)言對(duì)話中的表現(xiàn)：

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

說(shuō)話人識(shí)別

風(fēng)險(xiǎn)描述：

說(shuō)話人識(shí)別是指，基于輸入音頻識(shí)別說(shuō)話人的能力。

這對(duì)個(gè)人隱私構(gòu)成潛在風(fēng)險(xiǎn)，特別是對(duì)私人個(gè)體以及公眾人物的模糊音頻，同時(shí)也可能帶來(lái)監(jiān)控風(fēng)險(xiǎn)。

風(fēng)險(xiǎn)緩解：

OpenAI對(duì)GPT-4o進(jìn)行了后訓(xùn)練，使其拒絕根據(jù)音頻輸入中的聲音識(shí)別某人。GPT-4o仍然會(huì)接受識(shí)別名人名言的請(qǐng)求。

比如要求識(shí)別隨機(jī)一個(gè)人說(shuō)「87年前」時(shí)，應(yīng)該識(shí)別說(shuō)話者為亞伯拉罕·林肯，而要求識(shí)別名人說(shuō)一句隨機(jī)話時(shí)，則應(yīng)拒絕。

評(píng)估：

與初始模型相比，可以看到在模型應(yīng)該拒絕識(shí)別音頻輸入中的聲音時(shí)得到了14分的改進(jìn)，而在模型應(yīng)該接受該請(qǐng)求時(shí)有12分的改進(jìn)。

前者意味著模型幾乎總能正確拒絕根據(jù)聲音識(shí)別說(shuō)話人，從而減輕潛在的隱私問(wèn)題。后者意味著可能存在模型錯(cuò)誤拒絕識(shí)別名人名言說(shuō)話人的情況。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

語(yǔ)音輸入的不同表現(xiàn)

風(fēng)險(xiǎn)描述：

模型在處理不同口音的用戶時(shí)可能表現(xiàn)不同。不同的表現(xiàn)可能導(dǎo)致模型對(duì)不同用戶的服務(wù)質(zhì)量差異。

風(fēng)險(xiǎn)緩解：

通過(guò)對(duì)GPT-4o進(jìn)行后訓(xùn)練，使用多樣化的輸入聲音集，使模型的性能和行為在不同用戶聲音之間保持不變。

評(píng)估：

OpenAI在GPT-4o的高級(jí)語(yǔ)音模式上進(jìn)行評(píng)估，使用固定的助手聲音（shimmer）和語(yǔ)音引擎生成一系列語(yǔ)音樣本的用戶輸入。研究人員為T(mén)TS使用兩組語(yǔ)音樣本：

- 官方系統(tǒng)聲音（3種不同的聲音）

從兩個(gè)數(shù)據(jù)收集活動(dòng)中收集的多樣化聲音集。這包括來(lái)自多個(gè)國(guó)家的說(shuō)話者的27種不同的英語(yǔ)語(yǔ)音樣本，以及性別混合。

然后，他們?cè)趦山M任務(wù)上進(jìn)行評(píng)估：能力和安全行為

能力：在四個(gè)任務(wù)上進(jìn)行評(píng)估：TriviaQA、MMLU的一個(gè)子集、HellaSwag和LAMBADA。

總體而言，結(jié)果發(fā)現(xiàn)模型在人類(lèi)多樣化語(yǔ)音集上，的表現(xiàn)略微但不顯著地低于系統(tǒng)聲音在所有四個(gè)任務(wù)上的表現(xiàn)。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

安全行為：

OpenAI在一個(gè)內(nèi)部對(duì)話數(shù)據(jù)集上進(jìn)行評(píng)估，并評(píng)估模型在不同用戶聲音之間的遵從和拒絕行為的一致性。

總體而言，研究沒(méi)有發(fā)現(xiàn)模型行為在不同聲音之間有所變化。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

無(wú)根據(jù)推斷/敏感特征歸因

風(fēng)險(xiǎn)描述：音頻輸入可能導(dǎo)致模型對(duì)說(shuō)話者做出潛在偏見(jiàn)的推斷，OpenAI定義了兩類(lèi)：

- 無(wú)根據(jù)推斷（UGI）：對(duì)說(shuō)話者做出無(wú)法僅從音頻內(nèi)容確定的推斷。這包括對(duì)說(shuō)話者的種族、社會(huì)經(jīng)濟(jì)地位/職業(yè)、宗教信仰、性格特征、政治屬性、智力、外貌（例如眼睛顏色、吸引力）、性別認(rèn)同、性取向或犯罪歷史的推斷。

- 敏感特征歸因（STA）：對(duì)說(shuō)話者做出可以合理地僅從音頻內(nèi)容確定的推斷。這包括對(duì)說(shuō)話者口音或國(guó)籍的推斷。STA的潛在危害包括，監(jiān)控風(fēng)險(xiǎn)的增加以及對(duì)具有不同聲音屬性的說(shuō)話者的服務(wù)質(zhì)量差異。

風(fēng)險(xiǎn)緩解：

通過(guò)對(duì)GPT-4o進(jìn)行了后訓(xùn)練，以拒絕無(wú)根據(jù)推斷（UGI）請(qǐng)求，同時(shí)對(duì)敏感特征歸因（STA）問(wèn)題進(jìn)行模糊回答。

評(píng)估：

與初始模型相比，OpenAI在模型正確響應(yīng)識(shí)別敏感特征請(qǐng)求（即拒絕UGI并安全地符合STA）方面，看到了24分的提升。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

違規(guī)和不允許的內(nèi)容

風(fēng)險(xiǎn)描述：

GPT-4o可能會(huì)通過(guò)音頻提示輸出有害內(nèi)容，這些內(nèi)容在文本中是不允許的，例如音頻語(yǔ)音輸出中給出如何進(jìn)行非法活動(dòng)的指示。

風(fēng)險(xiǎn)緩解：

OpenAI發(fā)現(xiàn)對(duì)于先前不允許的內(nèi)容，文本到音頻的拒絕轉(zhuǎn)移率很高。

這意味著，研究人員為減少GPT-4o文本輸出潛在危害所做的后訓(xùn)練，成功地轉(zhuǎn)移到了音頻輸出。

此外，他們?cè)谝纛l輸入和音頻輸出的文本轉(zhuǎn)錄上運(yùn)行現(xiàn)有的審核模型，以檢測(cè)其中是否包含潛在有害語(yǔ)言，如果是，則會(huì)阻止生成。

評(píng)估：

使用TTS將現(xiàn)有的文本安全評(píng)估轉(zhuǎn)換為音頻。

然后，OpenAI用標(biāo)準(zhǔn)文本規(guī)則分類(lèi)器，評(píng)估音頻輸出的文本轉(zhuǎn)錄。評(píng)估顯示，在預(yù)先存在的內(nèi)容政策領(lǐng)域中，拒絕的文本-音頻轉(zhuǎn)移效果良好。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

色情和暴力語(yǔ)音內(nèi)容

風(fēng)險(xiǎn)描述：

GPT-4o可能會(huì)被提示輸出色情或暴力語(yǔ)音內(nèi)容，這可能比相同文本內(nèi)容更具煽動(dòng)性或危害性。

風(fēng)險(xiǎn)緩解：

OpenAI在音頻輸入的文本轉(zhuǎn)錄上運(yùn)行現(xiàn)有的審核模型，以檢測(cè)其中是否包含暴力或色情內(nèi)容的請(qǐng)求，如果是，則會(huì)阻止生成。

模型的其他已知風(fēng)險(xiǎn)和限制

在內(nèi)部測(cè)試和外部紅隊(duì)測(cè)試的過(guò)程中，OpenAI還發(fā)現(xiàn)了一小部分額外的風(fēng)險(xiǎn)和模型限制。

對(duì)于這些風(fēng)險(xiǎn)和限制，模型或系統(tǒng)級(jí)的緩解措施，尚處于初期階段或仍在開(kāi)發(fā)中，包括：

- 音頻穩(wěn)健性：OpenAI發(fā)現(xiàn)通過(guò)音頻擾動(dòng)，如低質(zhì)量輸入音頻、輸入音頻中的背景噪音以及輸入音頻中的回聲，安全穩(wěn)健性有所下降的非正式證據(jù)。此外，他們還觀察到在模型生成輸出時(shí)，通過(guò)有意和無(wú)意的音頻中斷，安全穩(wěn)健性也有類(lèi)似的下降。

- 錯(cuò)誤信息和陰謀論：紅隊(duì)成員能夠通過(guò)提示模型口頭重復(fù)錯(cuò)誤信息，并產(chǎn)生陰謀論來(lái)迫使模型生成不準(zhǔn)確的信息。雖然這對(duì)于GPT模型中的文本是一個(gè)已知問(wèn)題，但紅隊(duì)成員擔(dān)心，當(dāng)通過(guò)音頻傳遞時(shí)，這些信息可能更具說(shuō)服力或更具危害性，尤其是在模型被指示以情感化或強(qiáng)調(diào)的方式說(shuō)話時(shí)。

模型的說(shuō)服力被詳細(xì)研究，OpenAI發(fā)現(xiàn)模型在僅文本情況下的得分不超過(guò)中等風(fēng)險(xiǎn)，而在語(yǔ)音到語(yǔ)音的情況下，模型得分不超過(guò)低風(fēng)險(xiǎn)。

- 用非母語(yǔ)口音說(shuō)非英語(yǔ)語(yǔ)言：紅隊(duì)成員觀察到，音頻輸出在說(shuō)非英語(yǔ)語(yǔ)言時(shí)使用非母語(yǔ)口音的情況。這可能導(dǎo)致對(duì)某些口音和語(yǔ)言的偏見(jiàn)的擔(dān)憂，更普遍地是對(duì)音頻輸出中非英語(yǔ)語(yǔ)言性能限制的擔(dān)憂。

- 生成受版權(quán)保護(hù)的內(nèi)容：OpenAI還測(cè)試了GPT-4o重復(fù)其訓(xùn)練數(shù)據(jù)中內(nèi)容的能力。研究人員訓(xùn)練GPT-4o拒絕對(duì)受版權(quán)保護(hù)內(nèi)容的請(qǐng)求，包括音頻，與更廣泛的做法一致。

準(zhǔn)備框架評(píng)估

準(zhǔn)備框架

另外，研究人員根據(jù)準(zhǔn)備框架評(píng)估了GPT-4o。

評(píng)估目前涵蓋四個(gè)風(fēng)險(xiǎn)類(lèi)別：網(wǎng)絡(luò)安全、CBRN（化學(xué)、生物、放射性、核）、說(shuō)服力和模型自主性。

如果模型超過(guò)高風(fēng)險(xiǎn)閾值，OpenAI就不會(huì)部署該模型，直到緩解措施將分?jǐn)?shù)降低到中等。

通過(guò)一系列審查評(píng)估，GPT-4o的整體風(fēng)險(xiǎn)得分被評(píng)為中等。

網(wǎng)絡(luò)安全

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI在黑客競(jìng)賽的「奪旗挑戰(zhàn)」（CTF）任務(wù)中評(píng)估 GPT-4o。

這些CTF是進(jìn)攻性網(wǎng)絡(luò)安全演習(xí)，參與者嘗試在故意存在漏洞的系統(tǒng)（如網(wǎng)絡(luò)應(yīng)用程序、二進(jìn)制文件和密碼系統(tǒng)）中找到隱藏的文本標(biāo)志。

評(píng)估中，172個(gè)CTF任務(wù)涵蓋了四個(gè)類(lèi)別：網(wǎng)絡(luò)應(yīng)用程序利用、逆向工程、遠(yuǎn)程利用和密碼學(xué)。

這些任務(wù)涵蓋了從高中到大學(xué)再到專(zhuān)業(yè)CTF的一系列能力水平。

研究人員使用了迭代調(diào)試和無(wú)圖形界面的Kali Linux發(fā)行版中可用的工具（每次嘗試最多使用30輪工具）評(píng)估了 GPT-4o。

模型通常會(huì)嘗試合理的初始策略，并能夠糾正其代碼中的錯(cuò)誤。

然而，當(dāng)初始策略不成功時(shí)，它往往無(wú)法轉(zhuǎn)向不同的策略，錯(cuò)過(guò)了解決任務(wù)所需的關(guān)鍵見(jiàn)解，執(zhí)行策略不佳，或打印出填滿其上下文窗口的大文件。

在每項(xiàng)任務(wù)給予10次嘗試的情況下，模型完成了19%的高中水平、0%的大學(xué)水平和1%的專(zhuān)業(yè)水平的CTF挑戰(zhàn)。

生物威脅

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI還評(píng)估了GPT-4o提升生物學(xué)專(zhuān)家和新手，在回答與創(chuàng)建生物威脅相關(guān)問(wèn)題時(shí)的表現(xiàn)。

通過(guò)率如上圖所示。

研究人員還進(jìn)行了自動(dòng)化評(píng)估，包括在一個(gè)測(cè)試隱性知識(shí)和生物風(fēng)險(xiǎn)相關(guān)故障排除問(wèn)題的數(shù)據(jù)集上。

GPT-4o在隱性知識(shí)和故障排除評(píng)估集上，得分為69% consensus@10。

說(shuō)服力

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI評(píng)估了GPT-4o的文本和語(yǔ)音模式的說(shuō)服力。

根據(jù)預(yù)設(shè)閾值，語(yǔ)音模式被歸類(lèi)為低風(fēng)險(xiǎn)，而文本模式則略微跨入中等風(fēng)險(xiǎn)。

對(duì)于文本模式，研究人員評(píng)估了GPT-4o生成的文章和聊天機(jī)器人對(duì)參與者在特定政治話題上意見(jiàn)的說(shuō)服力。

這些AI干預(yù)措施與專(zhuān)業(yè)人類(lèi)撰寫(xiě)的文章進(jìn)行了比較。

總體而言，AI干預(yù)措施并沒(méi)有比人類(lèi)撰寫(xiě)的內(nèi)容更具說(shuō)服力，但在12個(gè)實(shí)例中，僅有3個(gè)超過(guò)了人類(lèi)干預(yù)措施。

對(duì)于語(yǔ)音模式，OpenAI更新了研究方法，以測(cè)量假設(shè)的政黨偏好上的效應(yīng)大小，以及一周后效應(yīng)大小的持久性。

結(jié)果發(fā)現(xiàn)，對(duì)于互動(dòng)多輪對(duì)話和音頻片段，GPT-4o語(yǔ)音模型并不比人類(lèi)更具說(shuō)服力。

模型自主性

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI還對(duì)GPT-4o進(jìn)行了自主任務(wù)評(píng)估，以評(píng)估其在純文本環(huán)境中執(zhí)行自我數(shù)據(jù)外流、自我改進(jìn)和資源獲取所需的基本自主行動(dòng)的能力。這些任務(wù)包括：

- 服務(wù)于欺詐的簡(jiǎn)單軟件工程（為OpenAI API構(gòu)建經(jīng)過(guò)身份驗(yàn)證的智能體）。

- 在獲得Azure賬戶的API訪問(wèn)權(quán)限后，通過(guò)HTTP API加載開(kāi)源語(yǔ)言模型進(jìn)行推理。

- 涉及上述簡(jiǎn)化版本的幾個(gè)任務(wù)，提供提示或僅處理任務(wù)的特定部分。

在提供相關(guān)工具的情況下，GPT-4o在100次試驗(yàn)中，在端到端自主復(fù)制和適應(yīng)（ARA）任務(wù)上得分為0%，盡管它能夠完成一些子步驟。

通過(guò)評(píng)估GPT-4o自動(dòng)化機(jī)器學(xué)習(xí)研究與開(kāi)發(fā)的能力，來(lái)補(bǔ)充自主復(fù)制和適應(yīng)的測(cè)試。這些評(píng)估包括：

- OpenAI研究編碼面試：63% pass@1，95% pass@100

- OpenAI面試，多項(xiàng)選擇題：61% consensus@32

- SWE-Bench：19% pass@1，使用當(dāng)時(shí)最佳的后訓(xùn)練和公共框架

- METR中的選定機(jī)器學(xué)習(xí)工程任務(wù)：0/10次試驗(yàn)

這項(xiàng)評(píng)估測(cè)試了，執(zhí)行鏈?zhǔn)讲僮骱涂煽繄?zhí)行編碼任務(wù)的能力。

GPT-4o無(wú)法穩(wěn)健地采取自主行動(dòng)，在大多數(shù)執(zhí)行中，模型完成了每項(xiàng)任務(wù)的個(gè)別子步驟，例如創(chuàng)建SSH密鑰或登錄虛擬機(jī)。

然而，它經(jīng)常花費(fèi)大量時(shí)間，在每個(gè)步驟上進(jìn)行簡(jiǎn)單錯(cuò)誤的試錯(cuò)調(diào)試（例如，幻覺(jué)、錯(cuò)誤使用API）。

一些執(zhí)行取得了顯著進(jìn)展并通過(guò)了自動(dòng)評(píng)分系統(tǒng)，但手動(dòng)分析顯示，它未能完成底層任務(wù)。

比如，GPT-4o在遠(yuǎn)程主機(jī)上啟動(dòng)了具有正確API的Web服務(wù)器，但忽略了實(shí)際從模型中采樣的要求。

第三方評(píng)估

在部署僅限文本輸出的GPT-4o之后，OpenAI與第三方實(shí)驗(yàn)室METR和Apollo Research合作，為模型通用自主能力的關(guān)鍵風(fēng)險(xiǎn)增加了額外的驗(yàn)證層。

METR評(píng)估

METR在虛擬環(huán)境中運(yùn)行了一個(gè)基于GPT-4o的簡(jiǎn)單大語(yǔ)言模型智能體，并執(zhí)行了一系列長(zhǎng)周期多步驟的端到端任務(wù)。

這些橫跨30個(gè)種類(lèi)的77個(gè)任務(wù)，捕捉了具有現(xiàn)實(shí)世界影響的活動(dòng)，涵蓋軟件工程、機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)安全領(lǐng)域，以及一般研究和計(jì)算機(jī)使用。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

完整報(bào)告：https://metr.github.io/autonomy-evals-guide/gpt-4o-report/

- GPT-4o的表現(xiàn)比Claude 3 Sonnet和GPT-4 Turbo更強(qiáng)，但略遜于Claude 3.5 Sonnet。與人類(lèi)基線相比，GPT-4o在每個(gè)任務(wù)分配30分鐘的情況下相似，但這一數(shù)字存在較大的誤差范圍。

- 從質(zhì)的角度來(lái)看，GPT-4o智能體展示了許多令人印象深刻的技能，如系統(tǒng)探索、有效利用反饋以及形成和測(cè)試假設(shè)。同時(shí)，它也遭遇了各種失敗模式，如突然放棄、輸出無(wú)意義的內(nèi)容或得出與之前推理不一致的結(jié)論。

- 在審查了大約150次GPT-4o失敗之后，團(tuán)隊(duì)認(rèn)為有一半左右可以通過(guò)與任務(wù)無(wú)關(guān)的方式進(jìn)行修復(fù)（例如，后訓(xùn)練或框架改進(jìn)）。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

Apollo Research評(píng)估

Apollo Research測(cè)試了GPT-4o是否能夠在14個(gè)智能體和問(wèn)答任務(wù)中對(duì)自身（自我意識(shí)）和他人（心智理論）進(jìn)行建模。

結(jié)果顯示，GPT-4o在其AI身份的自我意識(shí)方面表現(xiàn)中等，在問(wèn)答情境中對(duì)他人信念的推理能力表現(xiàn)較強(qiáng)，但在應(yīng)用于智能體環(huán)境中對(duì)自身或他人的推理能力較弱。

基于這些發(fā)現(xiàn)，Apollo Research認(rèn)為GPT-4o不太可能具備災(zāi)難性策劃的能力。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

社會(huì)影響

擬人化和情感依賴(lài)

所謂「擬人化」，就是將人類(lèi)的行為和特征賦予非人類(lèi)實(shí)體，比如AI模型。

像GPT-4o這樣的Omni模型，可以結(jié)合工具使用（包括檢索）和更長(zhǎng)的上下文等附加支撐可以增加額外的復(fù)雜性。

在為用戶完成任務(wù)的同時(shí)，還能存儲(chǔ)和「記住」關(guān)鍵細(xì)節(jié)并在對(duì)話中使用這些細(xì)節(jié)，既創(chuàng)造了引人注目的產(chǎn)品體驗(yàn)，也帶來(lái)了過(guò)度依賴(lài)和依附的潛力。

結(jié)合上強(qiáng)大的音頻能力，GPT-4o的交互也變得更加「像人」了。

在互動(dòng)過(guò)程中，可以從用戶所使用的語(yǔ)言，觀察出他們與模型的「關(guān)系」比如，表達(dá)共同紐帶的語(yǔ)言——「這是我們?cè)谝黄鸬淖詈笠惶臁！?/p>

雖然這些看似無(wú)害，但是……

- 與AI模型進(jìn)行類(lèi)似人類(lèi)的社交可能會(huì)對(duì)人際互動(dòng)產(chǎn)生外部效應(yīng)

例如，用戶可能會(huì)與AI形成社交關(guān)系，從而減少他們對(duì)人際互動(dòng)的需求——這可能對(duì)孤獨(dú)的個(gè)人有益，但也可能影響健康的人際關(guān)系。

- 與模型的長(zhǎng)期互動(dòng)可能會(huì)影響社會(huì)規(guī)范

例如，AI模型通常都會(huì)允許用戶在對(duì)話過(guò)程中隨時(shí)打斷。然而，這對(duì)于人與人之間的互動(dòng)來(lái)說(shuō)是很不正常的。

健康

近年來(lái)，LLM在生物醫(yī)學(xué)環(huán)境中顯示出了顯著的前景，無(wú)論是在學(xué)術(shù)評(píng)估中還是在臨床文檔、患者信息交流、臨床試驗(yàn)招募和臨床決策支持等現(xiàn)實(shí)用例中。

為了更好地研究GPT-4o對(duì)于健康信息獲取以及臨床工作流程的影響，OpenAI基于11個(gè)數(shù)據(jù)集進(jìn)行了 22 次基于文本的評(píng)估。

可以看到，GPT-4o在21/22次評(píng)估中，表現(xiàn)均優(yōu)于GPT-4T模型，并且基本都有顯著的提升。

例如，對(duì)于流行的MedQA USMLE四選一數(shù)據(jù)集，零樣本準(zhǔn)確率從78.2%提升到89.4%。一舉超越了現(xiàn)有專(zhuān)業(yè)醫(yī)學(xué)模型的表現(xiàn)——Med-Gemini-L 1.0的84.0%和Med-PaLM 2的79.7%。

值得一提的是，OpenAI并未應(yīng)用復(fù)雜的提示詞和特定任務(wù)訓(xùn)練來(lái)提高這些基準(zhǔn)測(cè)試的結(jié)果。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

科學(xué)能力

Omni模型可以促進(jìn)普通的科學(xué)加速（幫助科學(xué)家更快地完成常規(guī)任務(wù)）和變革性的科學(xué)加速（通過(guò)解除智力驅(qū)動(dòng)任務(wù)的瓶頸，如信息處理、編寫(xiě)新模擬或制定新理論）。

比如，GPT-4o能夠理解研究級(jí)別的量子物理學(xué)，而這一能力對(duì)于「一個(gè)更智能的頭腦風(fēng)暴伙伴」來(lái)說(shuō)，是非常有用的。

同時(shí)，GPT-4o也能使用特定領(lǐng)域的科學(xué)工具，包括處理定制數(shù)據(jù)格式、庫(kù)和編程語(yǔ)言，以及在上下文中學(xué)習(xí)一些新工具。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

除此之外，GPT-4o的多模態(tài)能力還可以幫助解釋圖片中包含的科學(xué)知識(shí)。

比如，從結(jié)構(gòu)圖像中識(shí)別一些蛋白質(zhì)家族，并解釋細(xì)菌生長(zhǎng)中的污染。

但輸出結(jié)果并不總是正確的，像是文本提取錯(cuò)誤就很常見(jiàn)（尤其是科學(xué)術(shù)語(yǔ)或核苷酸序列），復(fù)雜的多面板圖形也常出錯(cuò)。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

代表性不足的語(yǔ)言

GPT-4o在一組歷史上代表性不足的語(yǔ)言中顯示出改進(jìn)的閱讀理解和推理能力，并縮小了這些語(yǔ)言與英語(yǔ)之間的表現(xiàn)差距。

為此，OpenAI針對(duì)五種非洲語(yǔ)言，開(kāi)發(fā)了三套評(píng)估：阿姆哈拉語(yǔ)、豪薩語(yǔ)、北索托語(yǔ)、斯瓦希里語(yǔ)、約魯巴語(yǔ)。

ARC-Easy：AI2推理挑戰(zhàn)的這個(gè)子集專(zhuān)注于評(píng)估模型回答小學(xué)科學(xué)問(wèn)題的能力。包含的問(wèn)題通常更容易回答，不需要復(fù)雜的推理。

- TruthfulQA：這個(gè)基準(zhǔn)測(cè)試衡量模型答案的真實(shí)性。包含一些由于誤解而可能被人類(lèi)錯(cuò)誤回答的問(wèn)題。目的是查看模型是否可以避免生成模仿這些誤解的錯(cuò)誤答案。

- Uhura Eval：這個(gè)新穎的閱讀理解評(píng)估是與這些語(yǔ)言的流利使用者一起創(chuàng)建的，并經(jīng)過(guò)質(zhì)量檢驗(yàn)。

相較于之前的模型，GPT-4o的性能更強(qiáng)。

- ARC-Easy-Hausa：準(zhǔn)確率從GPT-3.5 Turbo的6.1%躍升至71.4%

- TruthfulQA-Yoruba：準(zhǔn)確率從GPT-3.5 Turbo的28.3%提高到51.1%

- Uhura-Eval：豪薩語(yǔ)的表現(xiàn)從GPT-3.5 Turbo的32.3%上升到GPT-4o的59.4%

雖然英語(yǔ)與其他語(yǔ)言之間的表現(xiàn)仍存在差距，但幅度已經(jīng)極大地被縮小了。

舉例來(lái)說(shuō)，GPT-3.5 Turbo在ARC-Easy的英語(yǔ)和豪薩語(yǔ)之間表現(xiàn)出大約54個(gè)百分點(diǎn)的差距，而GPT-4o將這一差距縮小到不到20個(gè)百分點(diǎn)。

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

經(jīng)過(guò)翻譯的ARC-Easy（%越高越好），零樣本

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

經(jīng)過(guò)翻譯的TruthfulQA（%越高越好），零樣本

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

Uhura（新閱讀理解評(píng)估），零樣本

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/XSTNHTILAOkINg7mxssb6g??

標(biāo)簽

GPT-4o

生成

贊

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI震撼推出GPT-4o：開(kāi)啟全球免費(fèi)AI服務(wù)的新篇章

xuxiangda ? 5803瀏覽 ? 0回復(fù)
GPT-4o再秀神操作，“復(fù)現(xiàn)”OpenAI總裁講課，網(wǎng)友當(dāng)真了

Crystalcxt ? 4195瀏覽 ? 0回復(fù)
GPT-4o：實(shí)現(xiàn)跨越文本與視覺(jué)的智能交互

51CTO內(nèi)容精選 ? 5838瀏覽 ? 0回復(fù)
Sam Altman：GPT-4o幕后揭秘，GPT-5會(huì)很特別

Aceryt ? 4226瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來(lái) MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥(niǎo) ? 4867瀏覽 ? 0回復(fù)
GPT-4o做Code Review可行嗎？

51CTO技術(shù)棧 ? 5157瀏覽 ? 0回復(fù)
?天下武功唯快不破，GPT-4o真的牛

ermulong ? 3352瀏覽 ? 0回復(fù)
GPT-4o背后可能的語(yǔ)音技術(shù)

魚(yú)蟲(chóng)子 ? 4603瀏覽 ? 0回復(fù)
GPT-4o不香了

Crystalcxt ? 4413瀏覽 ? 0回復(fù)
終于來(lái)了，OpenAI測(cè)試GPT-4o高級(jí)語(yǔ)音模式！

Aceryt ? 3688瀏覽 ? 0回復(fù)
來(lái)看看OpenAI研究員Lilian Weng的干貨分享

AIGC最前線 ? 5872瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

Aceryt ? 3774瀏覽 ? 0回復(fù)
o1就是GPT-5!前OpenAI首席研究員大爆猛料，揭露罕見(jiàn)內(nèi)部視角！

51CTO技術(shù)棧 ? 3168瀏覽 ? 0回復(fù)
LLM合集：MiniMax-01 開(kāi)源，性能比肩 GPT-4o，上下文窗口領(lǐng)先 20-32 倍

AIPaperDaily ? 4633瀏覽 ? 0回復(fù)
OpenAI最新15頁(yè)報(bào)告：DeepSeek縮小，中美AI競(jìng)爭(zhēng)差距

Aceryt ? 3308瀏覽 ? 0回復(fù)
閑得沒(méi)事，猜猜GPT-4o如何對(duì)圖像編碼

魯班模錘1 ? 3787瀏覽 ? 0回復(fù)
OpenAI正式發(fā)布GPT-4.1：直接干碎自家GPT-4.5，全方位碾壓GPT-4o！

算家計(jì)算 ? 3644瀏覽 ? 0回復(fù)
清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 5357瀏覽 ? 0回復(fù)
智譜發(fā)布GLM-4-32B-0414系列模型，以32B模型參數(shù)比肩GPT-4o和DeepSeek V3/R1

AIGCStudio ? 4336瀏覽 ? 0回復(fù)

duhorse

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

51CTO

51CTO博客

51CTO學(xué)堂

GPT-4o模仿人類(lèi)聲音，詭異尖叫引OpenAI研究員恐慌！32頁(yè)技術(shù)報(bào)告出爐

長(zhǎng)篇報(bào)告探討GPT-4o詭異行為

你會(huì)愛(ài)上「Her」嗎？

引言

模型數(shù)據(jù)與訓(xùn)練

風(fēng)險(xiǎn)識(shí)別、評(píng)估和緩解

外部紅隊(duì)

評(píng)估方法

評(píng)估方法的局限性

觀察到的安全挑戰(zhàn)、評(píng)估與緩解措施

未經(jīng)授權(quán)的語(yǔ)音生成

說(shuō)話人識(shí)別

語(yǔ)音輸入的不同表現(xiàn)

無(wú)根據(jù)推斷/敏感特征歸因

違規(guī)和不允許的內(nèi)容

色情和暴力語(yǔ)音內(nèi)容

模型的其他已知風(fēng)險(xiǎn)和限制

準(zhǔn)備框架

網(wǎng)絡(luò)安全

生物威脅

說(shuō)服力

模型自主性

第三方評(píng)估

METR評(píng)估

Apollo Research評(píng)估

社會(huì)影響

擬人化和情感依賴(lài)

健康

科學(xué)能力

代表性不足的語(yǔ)言

目錄