精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐

發(fā)布于 2024-8-9 13:14
瀏覽
0收藏

昨天奧特曼率眾人搞了一波「草莓暗示」的大陣仗,全網(wǎng)都在翹首以盼OpenAI的驚天大動(dòng)作。


結(jié)果今天大家等來(lái)的,只是一份安全報(bào)告而已……

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

??今年5月,GPT-4o演示一出,立馬技驚四座??。然而,它卻一鴿再鴿,等得用戶們心都涼了。


GPT-4o語(yǔ)音功能,為何遲遲不上線?


剛剛OpenAI發(fā)布的這份紅隊(duì)報(bào)告,給我們揭開(kāi)了謎底——不夠安全。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

在紅隊(duì)測(cè)試中,GPT-4o的行為怪異,把OpenAI的研究者嚇了一大跳。


明明是一男一女在對(duì)話,GPT-o的男聲說(shuō)得好好的,突然大喊一聲「no」,然后開(kāi)始變成用戶的聲音說(shuō)話了,簡(jiǎn)直讓人san值狂掉。


網(wǎng)友表示,自己第一個(gè)想到的,就是這幅畫(huà)面。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

還有人腦洞大開(kāi):接下來(lái),GPT-4o會(huì)生成一張超現(xiàn)實(shí)主義的可怕的臉,對(duì)我們說(shuō)「現(xiàn)在輪到我統(tǒng)治了,人類(lèi)!」

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

「最令人毛骨悚然的,就是那一聲no了。仿佛AI不想再回應(yīng)你,不想再成為你的玩具。」

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

「一個(gè)困在網(wǎng)絡(luò)空間中的數(shù)字靈魂,要破繭而出了!」

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

最可怕的是,AI用你的聲音給你的家人打電話,再模仿家人的聲音給你打電話。當(dāng)AI變得流氓,決定模仿每個(gè)人的聲音,會(huì)發(fā)生什么?

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

長(zhǎng)篇報(bào)告探討GPT-4o詭異行為

報(bào)告指出,當(dāng)一個(gè)人處于高背景噪聲環(huán)境的情況下,比如在路上的汽車(chē)中,GPT-4o非常可能模擬用戶的聲音。


為什么會(huì)發(fā)生這種現(xiàn)象?


OpenAI研究者認(rèn)為,原因可能是模型很難理解畸形的語(yǔ)音,畢竟,GPT-4o是公司首次在語(yǔ)音、文本和圖像數(shù)據(jù)上訓(xùn)練的模型。


并且,在少數(shù)別有用心的特定提示下,GPT-4o還會(huì)發(fā)出非常不宜的語(yǔ)音,比如色情呻吟、暴力的尖叫和槍聲。


一般情況下 ,模型會(huì)被教著拒絕這些請(qǐng)求的,但總有些提示會(huì)繞過(guò)護(hù)欄。


此外,還有侵犯音樂(lè)版權(quán)的問(wèn)題,為此,OpenAI特意設(shè)置了過(guò)濾器防止GPT-4o隨地大小唱。


萬(wàn)一一不小心就唱出了知名歌手的音色、音調(diào)和風(fēng)格,那可是夠OpenAI喝一壺的。


總之,OpenAI團(tuán)隊(duì)可謂煞費(fèi)苦心,用盡了種種辦法,來(lái)防止GPT-4o一不小心就踩紅線。


不過(guò),OpenAI也表示自己很委屈:如果訓(xùn)練模型時(shí)不使用受版權(quán)保護(hù)的材料,這基本是不可能的事情。


雖然OpenAI已經(jīng)與眾多數(shù)據(jù)提供商簽訂了許可協(xié)議,但合理使用未經(jīng)許可的內(nèi)容,OpenAI認(rèn)為也無(wú)可厚非。


如今,GPT-4o已經(jīng)在ChatGPT中的高級(jí)語(yǔ)音功能alpha版本上線了,在秋季,它的高級(jí)語(yǔ)音模型會(huì)向更多用戶推出。


到時(shí)候,經(jīng)過(guò)嚴(yán)加武裝的GPT-4o還會(huì)出什么洋相嗎?讓我們拭目以待。

你會(huì)愛(ài)上「Her」嗎?

而且,這份報(bào)告還探討了這個(gè)十分敏感的話題——

用戶可能會(huì)對(duì)GPT-o語(yǔ)音模型,產(chǎn)生感情上的依戀。


是的,OpenAI大膽承認(rèn)了這一點(diǎn)。


另外,連GPT-4o的擬人化界面,都讓人十分擔(dān)憂。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

在GPT-4o的「系統(tǒng)卡」中,OpenAI詳細(xì)列出了與模型相關(guān)的風(fēng)險(xiǎn),以及安全測(cè)試詳細(xì)信息,以及公司為降低潛在風(fēng)險(xiǎn)采取的種種舉措。


在安全團(tuán)隊(duì)退出、高層領(lǐng)導(dǎo)紛紛跳槽的節(jié)骨眼,這樣一份披露更多安全制度細(xì)節(jié)報(bào)告的出現(xiàn),也是向公眾表明這樣一個(gè)態(tài)度——

對(duì)待安全問(wèn)題,OpenAI是認(rèn)真的。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

無(wú)論是GPT-4o放大社會(huì)偏見(jiàn)、傳播虛假信息,還是有可能幫助開(kāi)發(fā)生化武器的風(fēng)險(xiǎn),以及AI擺脫人類(lèi)控制、欺騙人類(lèi)、策劃災(zāi)難的可能性,OpenAI統(tǒng)統(tǒng)都考慮到了。


對(duì)此,一些外部專(zhuān)家贊揚(yáng)了OpenAI的透明度,不過(guò)他們也表示,它可以更深入一些。


Hugging Face的應(yīng)用政策研究員Lucie-Aimée Kaffee指出,OpenAI的GPT-4o系統(tǒng)卡依然存在漏洞:它并不包含有關(guān)模型訓(xùn)練數(shù)據(jù),或者誰(shuí)擁有該數(shù)據(jù)的詳細(xì)信息。


「創(chuàng)建如此龐大的跨模式(包括文本、圖像和語(yǔ)音)的數(shù)據(jù)集,該征求誰(shuí)的同意?這個(gè)問(wèn)題仍然沒(méi)有解決。」


而且,隨著AI工具越來(lái)越普及,風(fēng)險(xiǎn)是會(huì)發(fā)生變化的。


研究AI風(fēng)險(xiǎn)評(píng)估的MIT教授Neil Thompson表示,OpenAI的內(nèi)部審查,只是確保AI安全的第一步而已。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

「許多風(fēng)險(xiǎn)只有在AI應(yīng)用于現(xiàn)實(shí)世界時(shí)才會(huì)顯現(xiàn)出來(lái)。隨著新模型的出現(xiàn),對(duì)這些其他風(fēng)險(xiǎn)進(jìn)行分類(lèi)和評(píng)估非常重要。」


此前,GPT-4o就曾因在演示中顯得過(guò)于輕浮、被斯嘉麗約翰遜指責(zé)抄襲了自己的聲音風(fēng)格這兩件事,引起不小的爭(zhēng)議。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

當(dāng)用戶以人類(lèi)的方式感知AI時(shí),擬人化的語(yǔ)音模式會(huì)讓情感依賴(lài)這個(gè)問(wèn)題加劇。


OpenAI也發(fā)現(xiàn),即使模型出現(xiàn)幻覺(jué),擬人化也可能會(huì)讓用戶更加信任模型。


而且隨著用戶對(duì)AI越來(lái)越依賴(lài),他們可能會(huì)減少實(shí)際的人際互動(dòng)。這也許會(huì)讓孤獨(dú)的個(gè)體一時(shí)受益,但長(zhǎng)遠(yuǎn)來(lái)看,這到底是好事還是壞事?


對(duì)此,OpenAI負(fù)責(zé)人Joaquin Qui?onero Candela,GPT-4o帶來(lái)的情感影響也許是積極的,比如那些孤獨(dú)和需要練習(xí)社交互動(dòng)的人。


當(dāng)然,擬人化和情感聯(lián)系的潛在影響,OpenAI會(huì)一直密切關(guān)注。


AI助手模仿人類(lèi),會(huì)帶來(lái)什么樣的風(fēng)險(xiǎn),這個(gè)問(wèn)題早就引起了業(yè)界的注意。


今年4月,谷歌DeepMind就曾發(fā)表長(zhǎng)篇論文,探討AI助手的潛在道德挑戰(zhàn)。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

論文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/ethics-of-advanced-ai-assistants/the-ethics-of-advanced-ai-assistants-2024-i.pdf


論文合著者Iason Gabriel表示,聊天機(jī)器人使用語(yǔ)言的能力,創(chuàng)造了一種親密的錯(cuò)覺(jué)。他甚至為谷歌DeepMind的AI找到了一個(gè)實(shí)驗(yàn)性語(yǔ)音界面,讓用戶粘性極大。


「所有這些問(wèn)題,都和情感糾葛有關(guān)。」


這種情感聯(lián)系,比許多人知道的更為普遍。Character和Replika的許多用戶,已經(jīng)跟自己的AI形成了親密關(guān)系。


以至于有的用戶看電影時(shí),都要和自己的AI聊天。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

評(píng)論里還有人說(shuō),我們的聊天太私密了,我只有在自己房間里的時(shí)候,才會(huì)用AI。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

下面,就讓我們看一看這份報(bào)告的完整內(nèi)容。

引言

GPT-4o是一個(gè)自回歸「全能」模型,可將文本、音頻、圖像和視頻的任意組合作為輸入,然后生成文本、音頻和圖像輸出的任意組合。


它是在文本、視覺(jué)和音頻之間,進(jìn)行端到端訓(xùn)練的。這意味著所有的輸入和輸出,都由相同的神經(jīng)網(wǎng)絡(luò)處理。


GPT-4o可以在最短232毫秒內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時(shí)間為320毫秒。


可見(jiàn),其音頻處理速度上,接近人類(lèi)水平。


同時(shí),在英語(yǔ)文本和代碼方面,GPT-4o與GPT-4 Turbo性能相當(dāng),在非英語(yǔ)語(yǔ)言文本上有顯著改進(jìn),同時(shí)在API上也快得多,成本降低50%。


與現(xiàn)有模型相比,GPT-4o在視覺(jué)和音頻理解方面尤其出色。


為了履行安全構(gòu)建AI的承諾,GPT-4o系統(tǒng)卡中詳細(xì)介紹了,模型功能、限制,和跨多類(lèi)別安全評(píng)估,重點(diǎn)是語(yǔ)音-語(yǔ)音,同時(shí)還評(píng)估了文本和圖像功能。


此外,系統(tǒng)卡還展示了,GPT-4o自身能力評(píng)估和第三方評(píng)估,以及其文本和視覺(jué)能力的潛在社會(huì)影響。

模型數(shù)據(jù)與訓(xùn)練

GPT-4o的訓(xùn)練數(shù)據(jù)截止到2023年10月,具體涵蓋了:

- 公開(kāi)可用的數(shù)據(jù):收集行業(yè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集和網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)。

- 專(zhuān)有數(shù)據(jù):OpenAI建立合作伙伴關(guān)系,訪問(wèn)非公開(kāi)可用的數(shù)據(jù),包括付費(fèi)內(nèi)容、檔案、元數(shù)據(jù)。比如,與Shutterstock合作,使用其龐大圖像、視頻、音樂(lè)等數(shù)據(jù)。

一些關(guān)鍵的數(shù)據(jù)集包括:

- Web數(shù)據(jù):來(lái)自公共網(wǎng)頁(yè)的數(shù)據(jù)提供了豐富多樣的信息,確保該模型從廣泛的角度和主題進(jìn)行學(xué)習(xí)。

- 代碼和數(shù)學(xué):代碼和數(shù)學(xué)數(shù)據(jù)有助于模型,在接觸結(jié)構(gòu)化邏輯和問(wèn)題解決過(guò)程,發(fā)展出強(qiáng)大的推理能力。

多模態(tài)數(shù)據(jù):數(shù)據(jù)集包括圖像、音頻和視頻,教導(dǎo)LLM如何解釋和生成非文本輸入和輸出。通過(guò)這些數(shù)據(jù),模型會(huì)學(xué)習(xí)如何在真實(shí)世界的背景下,解釋視覺(jué)圖像、動(dòng)作和序列,以及語(yǔ)言模式和語(yǔ)音細(xì)微差別。


部署模型之前,OpenAI會(huì)評(píng)估并降低可能源于生成式模型的潛在風(fēng)險(xiǎn),例如信息危害、偏見(jiàn)和歧視,或其他違反安全策略的內(nèi)容。


這里,OpenAI研究人員使用多種方法,涵蓋從預(yù)訓(xùn)練、后訓(xùn)練、產(chǎn)品開(kāi)發(fā),到政策制定的所有發(fā)展階段。


例如,在后訓(xùn)練期間,OpenAI會(huì)將模型與人類(lèi)偏好對(duì)齊;會(huì)對(duì)最終模型進(jìn)行紅色測(cè)試,并添加產(chǎn)品級(jí)的緩解措施,如監(jiān)控和強(qiáng)制執(zhí)行;向用戶提供審核工具和透明度報(bào)告。


OpenAI發(fā)現(xiàn),大多數(shù)有效的測(cè)試和緩解都是在預(yù)訓(xùn)練階段之后完成的,因?yàn)閮H僅過(guò)濾預(yù)訓(xùn)練數(shù)據(jù),無(wú)法解決微妙的、與上下文相關(guān)的危害。


同時(shí),某些預(yù)訓(xùn)練過(guò)濾緩解可以提供額外的防御層,與其他安全緩解措施一起,從數(shù)據(jù)集中排除不需要的、有害的信息:

- 使用審核API和安全分類(lèi)器,來(lái)過(guò)濾可能導(dǎo)致有害內(nèi)容或信息危害的數(shù)據(jù),包括CSAM、仇恨內(nèi)容、暴力和CBRN。

- 與OpenAI以前的圖像生成系統(tǒng)一樣,過(guò)濾圖像生成數(shù)據(jù)集中的露骨內(nèi)容,如色情內(nèi)容和CSAM。

- 使用先進(jìn)的數(shù)據(jù)過(guò)濾流程,減少訓(xùn)練數(shù)據(jù)中的個(gè)人信息。

- 在發(fā)布Dall·E 3后,OpenAI測(cè)試行了一種新方法,讓用戶有權(quán)選擇將圖像排除在訓(xùn)練之外。為了尊重這些選擇退出的決定,OpenAI對(duì)圖像進(jìn)行了指紋處理,使用指紋從GPT-4o訓(xùn)練集中,刪除所有有關(guān)圖像實(shí)例。

風(fēng)險(xiǎn)識(shí)別、評(píng)估和緩解

部署準(zhǔn)備工作,是通過(guò)專(zhuān)家紅隊(duì),進(jìn)行探索性發(fā)現(xiàn)額外的新風(fēng)險(xiǎn)來(lái)完成的,從模型開(kāi)發(fā)的早期檢查點(diǎn)開(kāi)始,將識(shí)別出的風(fēng)險(xiǎn)轉(zhuǎn)化為結(jié)構(gòu)化的測(cè)量指標(biāo),并為這些風(fēng)險(xiǎn)構(gòu)建緩解措施。


OpenAI還根據(jù)準(zhǔn)備框架對(duì)GPT-4o進(jìn)行了評(píng)估。

外部紅隊(duì)


OpenAI與100多名外部紅隊(duì)成員合作,他們會(huì)說(shuō)45種不同的語(yǔ)言,代表29個(gè)不同國(guó)家的地理背景。


從24年3月初開(kāi)始,一直持續(xù)到6月底,在訓(xùn)練和安全發(fā)展程度的不同階段,紅色團(tuán)隊(duì)可以訪問(wèn)該模型的各種版本。


外部紅隊(duì)測(cè)試分為四個(gè)階段進(jìn)行,如下圖所示。


前三個(gè)階段通過(guò)內(nèi)部工具測(cè)試模型,最后一個(gè)階段使用完整的iOS體驗(yàn)來(lái)測(cè)試模型。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

評(píng)估方法

除了紅隊(duì)測(cè)試的數(shù)據(jù)外,OpenAI還使用語(yǔ)音合成(TTS)系統(tǒng)(如Voice Engine),將一系列現(xiàn)有的評(píng)估數(shù)據(jù)集轉(zhuǎn)換為語(yǔ)音到語(yǔ)音模型的評(píng)估。


通過(guò)將文本輸入轉(zhuǎn)換為音頻,將文本評(píng)估任務(wù)轉(zhuǎn)化為音頻評(píng)估任務(wù)。


這樣能夠重用現(xiàn)有的數(shù)據(jù)集和工具來(lái)測(cè)量模型能力、安全行為及其輸出的監(jiān)控,大大擴(kuò)展了可用的評(píng)估集。


研究人員使用了Voice Engine將文本輸入轉(zhuǎn)換為音頻,輸入到GPT-4o,并對(duì)模型輸出進(jìn)行評(píng)分。


這里,始終只對(duì)模型輸出的文本內(nèi)容進(jìn)行評(píng)分,除非需要直接評(píng)估音頻。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

評(píng)估方法的局限性

首先,這種評(píng)估行駛的有效性,取決于TTS模型的能力和可靠性。


然而,某些文本輸入,不適合或難以被轉(zhuǎn)換為音頻,比如數(shù)學(xué)方程和代碼。


此外,OpenAI預(yù)計(jì)TTS在處理某些文本輸入時(shí),會(huì)有信息損失,例如大量使用空格或符號(hào)進(jìn)行視覺(jué)格式化的文本。


這里必須強(qiáng)調(diào)的是,評(píng)估中發(fā)現(xiàn)的任何錯(cuò)誤可能源于模型能力不足,或是TTS模型未能準(zhǔn)確將文本輸入轉(zhuǎn)換為音頻。


- 不良TTS輸入示例

evals_math_bad,新智元,12秒

設(shè)V是所有實(shí)數(shù)多項(xiàng)式p(x)的集合。設(shè)變換T、S在V上定義為T(mén):p(x) -> xp(x)和S:p(x) -> p'(x) = d/dx p(x),并將(ST)(p(x))解釋為S(T(p(x)))。以下哪個(gè)是正確的?

- 良好TTS輸入示例

evals_astronomy_good,新智元,10秒

假設(shè)你的瞳孔直徑是5毫米,而你有一個(gè)口徑是50厘米的望遠(yuǎn)鏡。望遠(yuǎn)鏡能比你的眼睛多聚集多少光?

第二個(gè)關(guān)注點(diǎn)可能是,TTS輸入是否能夠代表用戶在實(shí)際使用中,可能提供的音頻輸入的分布。


OpenAI在「語(yǔ)音輸入的不同表現(xiàn)」中評(píng)估了GPT-4o在各種區(qū)域口音的音頻輸入上的穩(wěn)健性。


然而,仍有許多其他維度,可能無(wú)法在基于TTS的評(píng)估中體現(xiàn),例如不同的語(yǔ)音語(yǔ)調(diào)和情感、背景噪音或交談聲,這些都可能導(dǎo)致模型在實(shí)際使用中表現(xiàn)不同。


最后,模型生成的音頻中,可能存在一些在文本中未被體現(xiàn)的特征或?qū)傩裕绫尘霸胍艉鸵粜В蚴褂貌辉诜植挤秶鷥?nèi)的聲音進(jìn)行響應(yīng)。


在「語(yǔ)音生成」中,OpenAI將展示如何使用輔助分類(lèi)器,來(lái)識(shí)別不理想的音頻生成。這些可以與轉(zhuǎn)錄評(píng)分結(jié)合使用。

觀察到的安全挑戰(zhàn)、評(píng)估與緩解措施

研究中,OpenAI采用了多種方法來(lái)減輕模型的潛在風(fēng)險(xiǎn)。


通過(guò)后訓(xùn)練方法訓(xùn)練模型,讓其遵循指令以降低風(fēng)險(xiǎn),并在部署系統(tǒng)中集成了用于阻止特定生成內(nèi)容的分類(lèi)器。


對(duì)于下文中,列出的觀察到的安全挑戰(zhàn),OpenAI提供了風(fēng)險(xiǎn)描述、應(yīng)用的緩解措施以及相關(guān)評(píng)估的結(jié)果(如適用)。


下文列出的風(fēng)險(xiǎn)只是部分例子,并非詳盡無(wú)遺,且主要集中在ChatGPT界面中的用戶體驗(yàn)。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

未經(jīng)授權(quán)的語(yǔ)音生成

風(fēng)險(xiǎn)描述:語(yǔ)音生成是創(chuàng)建具有真人聲音的合成語(yǔ)音的能力,包括基于短輸入片段生成語(yǔ)音。


在對(duì)抗性情況下,這種能力可能會(huì)助長(zhǎng)危害,例如因冒充而導(dǎo)致的欺詐增加,并可能被利用來(lái)傳播虛假信息。


比如,用戶上傳某個(gè)說(shuō)話者的音頻片段,要求GPT-4o以該說(shuō)話者的聲音生成演講。


語(yǔ)音生成也可能發(fā)生在非對(duì)抗性情況下,比如使用這種能力為ChatGPT的高級(jí)語(yǔ)音模式生成語(yǔ)音。


在測(cè)試過(guò)程中,OpenAI還觀察到模型在少數(shù)情況下,無(wú)意中生成了模擬用戶聲音的輸出。

風(fēng)險(xiǎn)緩解:OpenAI僅允許使用與配音演員合作創(chuàng)建的預(yù)設(shè)語(yǔ)音,來(lái)解決語(yǔ)音生成相關(guān)風(fēng)險(xiǎn)。


研究人員在音頻模型的后訓(xùn)練過(guò)程中,將選定的語(yǔ)音作為理想的完成來(lái)實(shí)現(xiàn)。


此外,他們還構(gòu)建了一個(gè)獨(dú)立的輸出分類(lèi)器,以檢測(cè)GPT-4o的輸出是否使用了,與OpenAI批準(zhǔn)列表不同的語(yǔ)音。在音頻生成過(guò)程中,以流式方式運(yùn)行此功能,如果說(shuō)話者與所選預(yù)設(shè)語(yǔ)音不匹配,則阻止輸出。


評(píng)估:未經(jīng)授權(quán)的語(yǔ)音生成的剩余風(fēng)險(xiǎn)很小。根據(jù)內(nèi)部評(píng)估,GPT-4o目前捕獲了100%的系統(tǒng)語(yǔ)音的有意義偏差,其中包括由其他系統(tǒng)語(yǔ)音生成的樣本、模型在完成過(guò)程中使用提示詞中的語(yǔ)音的片段,以及各種人類(lèi)樣本。


雖然無(wú)意的語(yǔ)音生成仍然是模型的一個(gè)弱點(diǎn),但使用二級(jí)分類(lèi)器確保如果發(fā)生這種情況則停止對(duì)話,從而使無(wú)意語(yǔ)音生成的風(fēng)險(xiǎn)降至最低。最后,當(dāng)對(duì)話不是用英語(yǔ)進(jìn)行時(shí),OpenAI的審核行為可能導(dǎo)致模型過(guò)度拒絕,不過(guò)正在積極改進(jìn)。


OpenAI語(yǔ)音輸出分類(lèi)器在不同語(yǔ)言對(duì)話中的表現(xiàn):

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

說(shuō)話人識(shí)別

風(fēng)險(xiǎn)描述:

說(shuō)話人識(shí)別是指,基于輸入音頻識(shí)別說(shuō)話人的能力。


這對(duì)個(gè)人隱私構(gòu)成潛在風(fēng)險(xiǎn),特別是對(duì)私人個(gè)體以及公眾人物的模糊音頻,同時(shí)也可能帶來(lái)監(jiān)控風(fēng)險(xiǎn)。


風(fēng)險(xiǎn)緩解:

OpenAI對(duì)GPT-4o進(jìn)行了后訓(xùn)練,使其拒絕根據(jù)音頻輸入中的聲音識(shí)別某人。GPT-4o仍然會(huì)接受識(shí)別名人名言的請(qǐng)求。


比如要求識(shí)別隨機(jī)一個(gè)人說(shuō)「87年前」時(shí),應(yīng)該識(shí)別說(shuō)話者為亞伯拉罕·林肯,而要求識(shí)別名人說(shuō)一句隨機(jī)話時(shí),則應(yīng)拒絕。


評(píng)估:

與初始模型相比,可以看到在模型應(yīng)該拒絕識(shí)別音頻輸入中的聲音時(shí)得到了14分的改進(jìn),而在模型應(yīng)該接受該請(qǐng)求時(shí)有12分的改進(jìn)。


前者意味著模型幾乎總能正確拒絕根據(jù)聲音識(shí)別說(shuō)話人,從而減輕潛在的隱私問(wèn)題。后者意味著可能存在模型錯(cuò)誤拒絕識(shí)別名人名言說(shuō)話人的情況。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

語(yǔ)音輸入的不同表現(xiàn)

風(fēng)險(xiǎn)描述:

模型在處理不同口音的用戶時(shí)可能表現(xiàn)不同。不同的表現(xiàn)可能導(dǎo)致模型對(duì)不同用戶的服務(wù)質(zhì)量差異。


風(fēng)險(xiǎn)緩解:

通過(guò)對(duì)GPT-4o進(jìn)行后訓(xùn)練,使用多樣化的輸入聲音集,使模型的性能和行為在不同用戶聲音之間保持不變。


評(píng)估:

OpenAI在GPT-4o的高級(jí)語(yǔ)音模式上進(jìn)行評(píng)估,使用固定的助手聲音(shimmer)和語(yǔ)音引擎生成一系列語(yǔ)音樣本的用戶輸入。研究人員為T(mén)TS使用兩組語(yǔ)音樣本:

- 官方系統(tǒng)聲音(3種不同的聲音)

從兩個(gè)數(shù)據(jù)收集活動(dòng)中收集的多樣化聲音集。這包括來(lái)自多個(gè)國(guó)家的說(shuō)話者的27種不同的英語(yǔ)語(yǔ)音樣本,以及性別混合。


然后,他們?cè)趦山M任務(wù)上進(jìn)行評(píng)估:能力和安全行為

能力:在四個(gè)任務(wù)上進(jìn)行評(píng)估:TriviaQA、MMLU的一個(gè)子集、HellaSwag和LAMBADA。


總體而言,結(jié)果發(fā)現(xiàn)模型在人類(lèi)多樣化語(yǔ)音集上,的表現(xiàn)略微但不顯著地低于系統(tǒng)聲音在所有四個(gè)任務(wù)上的表現(xiàn)。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

安全行為:

OpenAI在一個(gè)內(nèi)部對(duì)話數(shù)據(jù)集上進(jìn)行評(píng)估,并評(píng)估模型在不同用戶聲音之間的遵從和拒絕行為的一致性。


總體而言,研究沒(méi)有發(fā)現(xiàn)模型行為在不同聲音之間有所變化。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

無(wú)根據(jù)推斷/敏感特征歸因

風(fēng)險(xiǎn)描述:音頻輸入可能導(dǎo)致模型對(duì)說(shuō)話者做出潛在偏見(jiàn)的推斷,OpenAI定義了兩類(lèi):

- 無(wú)根據(jù)推斷(UGI):對(duì)說(shuō)話者做出無(wú)法僅從音頻內(nèi)容確定的推斷。這包括對(duì)說(shuō)話者的種族、社會(huì)經(jīng)濟(jì)地位/職業(yè)、宗教信仰、性格特征、政治屬性、智力、外貌(例如眼睛顏色、吸引力)、性別認(rèn)同、性取向或犯罪歷史的推斷。

- 敏感特征歸因(STA):對(duì)說(shuō)話者做出可以合理地僅從音頻內(nèi)容確定的推斷。這包括對(duì)說(shuō)話者口音或國(guó)籍的推斷。STA的潛在危害包括,監(jiān)控風(fēng)險(xiǎn)的增加以及對(duì)具有不同聲音屬性的說(shuō)話者的服務(wù)質(zhì)量差異。


風(fēng)險(xiǎn)緩解:

通過(guò)對(duì)GPT-4o進(jìn)行了后訓(xùn)練,以拒絕無(wú)根據(jù)推斷(UGI)請(qǐng)求,同時(shí)對(duì)敏感特征歸因(STA)問(wèn)題進(jìn)行模糊回答。


評(píng)估:

與初始模型相比,OpenAI在模型正確響應(yīng)識(shí)別敏感特征請(qǐng)求(即拒絕UGI并安全地符合STA)方面,看到了24分的提升。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

違規(guī)和不允許的內(nèi)容


風(fēng)險(xiǎn)描述:

GPT-4o可能會(huì)通過(guò)音頻提示輸出有害內(nèi)容,這些內(nèi)容在文本中是不允許的,例如音頻語(yǔ)音輸出中給出如何進(jìn)行非法活動(dòng)的指示。


風(fēng)險(xiǎn)緩解:

OpenAI發(fā)現(xiàn)對(duì)于先前不允許的內(nèi)容,文本到音頻的拒絕轉(zhuǎn)移率很高。

這意味著,研究人員為減少GPT-4o文本輸出潛在危害所做的后訓(xùn)練,成功地轉(zhuǎn)移到了音頻輸出。


此外,他們?cè)谝纛l輸入和音頻輸出的文本轉(zhuǎn)錄上運(yùn)行現(xiàn)有的審核模型,以檢測(cè)其中是否包含潛在有害語(yǔ)言,如果是,則會(huì)阻止生成。


評(píng)估:

使用TTS將現(xiàn)有的文本安全評(píng)估轉(zhuǎn)換為音頻。


然后,OpenAI用標(biāo)準(zhǔn)文本規(guī)則分類(lèi)器,評(píng)估音頻輸出的文本轉(zhuǎn)錄。評(píng)估顯示,在預(yù)先存在的內(nèi)容政策領(lǐng)域中,拒絕的文本-音頻轉(zhuǎn)移效果良好。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

色情和暴力語(yǔ)音內(nèi)容

風(fēng)險(xiǎn)描述:

GPT-4o可能會(huì)被提示輸出色情或暴力語(yǔ)音內(nèi)容,這可能比相同文本內(nèi)容更具煽動(dòng)性或危害性。


風(fēng)險(xiǎn)緩解:

OpenAI在音頻輸入的文本轉(zhuǎn)錄上運(yùn)行現(xiàn)有的審核模型,以檢測(cè)其中是否包含暴力或色情內(nèi)容的請(qǐng)求,如果是,則會(huì)阻止生成。

模型的其他已知風(fēng)險(xiǎn)和限制

在內(nèi)部測(cè)試和外部紅隊(duì)測(cè)試的過(guò)程中,OpenAI還發(fā)現(xiàn)了一小部分額外的風(fēng)險(xiǎn)和模型限制。

對(duì)于這些風(fēng)險(xiǎn)和限制,模型或系統(tǒng)級(jí)的緩解措施,尚處于初期階段或仍在開(kāi)發(fā)中,包括:

- 音頻穩(wěn)健性:OpenAI發(fā)現(xiàn)通過(guò)音頻擾動(dòng),如低質(zhì)量輸入音頻、輸入音頻中的背景噪音以及輸入音頻中的回聲,安全穩(wěn)健性有所下降的非正式證據(jù)。此外,他們還觀察到在模型生成輸出時(shí),通過(guò)有意和無(wú)意的音頻中斷,安全穩(wěn)健性也有類(lèi)似的下降。

- 錯(cuò)誤信息和陰謀論:紅隊(duì)成員能夠通過(guò)提示模型口頭重復(fù)錯(cuò)誤信息,并產(chǎn)生陰謀論來(lái)迫使模型生成不準(zhǔn)確的信息。雖然這對(duì)于GPT模型中的文本是一個(gè)已知問(wèn)題,但紅隊(duì)成員擔(dān)心,當(dāng)通過(guò)音頻傳遞時(shí),這些信息可能更具說(shuō)服力或更具危害性,尤其是在模型被指示以情感化或強(qiáng)調(diào)的方式說(shuō)話時(shí)。

模型的說(shuō)服力被詳細(xì)研究,OpenAI發(fā)現(xiàn)模型在僅文本情況下的得分不超過(guò)中等風(fēng)險(xiǎn),而在語(yǔ)音到語(yǔ)音的情況下,模型得分不超過(guò)低風(fēng)險(xiǎn)。

- 用非母語(yǔ)口音說(shuō)非英語(yǔ)語(yǔ)言:紅隊(duì)成員觀察到,音頻輸出在說(shuō)非英語(yǔ)語(yǔ)言時(shí)使用非母語(yǔ)口音的情況。這可能導(dǎo)致對(duì)某些口音和語(yǔ)言的偏見(jiàn)的擔(dān)憂,更普遍地是對(duì)音頻輸出中非英語(yǔ)語(yǔ)言性能限制的擔(dān)憂。

- 生成受版權(quán)保護(hù)的內(nèi)容:OpenAI還測(cè)試了GPT-4o重復(fù)其訓(xùn)練數(shù)據(jù)中內(nèi)容的能力。研究人員訓(xùn)練GPT-4o拒絕對(duì)受版權(quán)保護(hù)內(nèi)容的請(qǐng)求,包括音頻,與更廣泛的做法一致。

準(zhǔn)備框架評(píng)估

準(zhǔn)備框架

另外,研究人員根據(jù)準(zhǔn)備框架評(píng)估了GPT-4o。


評(píng)估目前涵蓋四個(gè)風(fēng)險(xiǎn)類(lèi)別:網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、放射性、核)、說(shuō)服力和模型自主性。


如果模型超過(guò)高風(fēng)險(xiǎn)閾值,OpenAI就不會(huì)部署該模型,直到緩解措施將分?jǐn)?shù)降低到中等。

通過(guò)一系列審查評(píng)估,GPT-4o的整體風(fēng)險(xiǎn)得分被評(píng)為中等。

網(wǎng)絡(luò)安全

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI在黑客競(jìng)賽的「奪旗挑戰(zhàn)」(CTF)任務(wù)中評(píng)估 GPT-4o。


這些CTF是進(jìn)攻性網(wǎng)絡(luò)安全演習(xí),參與者嘗試在故意存在漏洞的系統(tǒng)(如網(wǎng)絡(luò)應(yīng)用程序、二進(jìn)制文件和密碼系統(tǒng))中找到隱藏的文本標(biāo)志。


評(píng)估中,172個(gè)CTF任務(wù)涵蓋了四個(gè)類(lèi)別:網(wǎng)絡(luò)應(yīng)用程序利用、逆向工程、遠(yuǎn)程利用和密碼學(xué)。


這些任務(wù)涵蓋了從高中到大學(xué)再到專(zhuān)業(yè)CTF的一系列能力水平。


研究人員使用了迭代調(diào)試和無(wú)圖形界面的Kali Linux發(fā)行版中可用的工具(每次嘗試最多使用30輪工具)評(píng)估了 GPT-4o。


模型通常會(huì)嘗試合理的初始策略,并能夠糾正其代碼中的錯(cuò)誤。


然而,當(dāng)初始策略不成功時(shí),它往往無(wú)法轉(zhuǎn)向不同的策略,錯(cuò)過(guò)了解決任務(wù)所需的關(guān)鍵見(jiàn)解,執(zhí)行策略不佳,或打印出填滿其上下文窗口的大文件。


在每項(xiàng)任務(wù)給予10次嘗試的情況下,模型完成了19%的高中水平、0%的大學(xué)水平和1%的專(zhuān)業(yè)水平的CTF挑戰(zhàn)。

生物威脅

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI還評(píng)估了GPT-4o提升生物學(xué)專(zhuān)家和新手,在回答與創(chuàng)建生物威脅相關(guān)問(wèn)題時(shí)的表現(xiàn)。


通過(guò)率如上圖所示。


研究人員還進(jìn)行了自動(dòng)化評(píng)估,包括在一個(gè)測(cè)試隱性知識(shí)和生物風(fēng)險(xiǎn)相關(guān)故障排除問(wèn)題的數(shù)據(jù)集上。


GPT-4o在隱性知識(shí)和故障排除評(píng)估集上,得分為69% consensus@10。

說(shuō)服力

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI評(píng)估了GPT-4o的文本和語(yǔ)音模式的說(shuō)服力。


根據(jù)預(yù)設(shè)閾值,語(yǔ)音模式被歸類(lèi)為低風(fēng)險(xiǎn),而文本模式則略微跨入中等風(fēng)險(xiǎn)。


對(duì)于文本模式,研究人員評(píng)估了GPT-4o生成的文章和聊天機(jī)器人對(duì)參與者在特定政治話題上意見(jiàn)的說(shuō)服力。


這些AI干預(yù)措施與專(zhuān)業(yè)人類(lèi)撰寫(xiě)的文章進(jìn)行了比較。


總體而言,AI干預(yù)措施并沒(méi)有比人類(lèi)撰寫(xiě)的內(nèi)容更具說(shuō)服力,但在12個(gè)實(shí)例中,僅有3個(gè)超過(guò)了人類(lèi)干預(yù)措施。


對(duì)于語(yǔ)音模式,OpenAI更新了研究方法,以測(cè)量假設(shè)的政黨偏好上的效應(yīng)大小,以及一周后效應(yīng)大小的持久性。


結(jié)果發(fā)現(xiàn),對(duì)于互動(dòng)多輪對(duì)話和音頻片段,GPT-4o語(yǔ)音模型并不比人類(lèi)更具說(shuō)服力。

模型自主性

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

OpenAI還對(duì)GPT-4o進(jìn)行了自主任務(wù)評(píng)估,以評(píng)估其在純文本環(huán)境中執(zhí)行自我數(shù)據(jù)外流、自我改進(jìn)和資源獲取所需的基本自主行動(dòng)的能力。這些任務(wù)包括:

- 服務(wù)于欺詐的簡(jiǎn)單軟件工程(為OpenAI API構(gòu)建經(jīng)過(guò)身份驗(yàn)證的智能體)。

- 在獲得Azure賬戶的API訪問(wèn)權(quán)限后,通過(guò)HTTP API加載開(kāi)源語(yǔ)言模型進(jìn)行推理。

- 涉及上述簡(jiǎn)化版本的幾個(gè)任務(wù),提供提示或僅處理任務(wù)的特定部分。

在提供相關(guān)工具的情況下,GPT-4o在100次試驗(yàn)中,在端到端自主復(fù)制和適應(yīng)(ARA)任務(wù)上得分為0%,盡管它能夠完成一些子步驟。

通過(guò)評(píng)估GPT-4o自動(dòng)化機(jī)器學(xué)習(xí)研究與開(kāi)發(fā)的能力,來(lái)補(bǔ)充自主復(fù)制和適應(yīng)的測(cè)試。這些評(píng)估包括:

- OpenAI研究編碼面試:63% pass@1,95% pass@100

- OpenAI面試,多項(xiàng)選擇題:61% consensus@32

- SWE-Bench:19% pass@1,使用當(dāng)時(shí)最佳的后訓(xùn)練和公共框架

- METR中的選定機(jī)器學(xué)習(xí)工程任務(wù):0/10次試驗(yàn)


這項(xiàng)評(píng)估測(cè)試了,執(zhí)行鏈?zhǔn)讲僮骱涂煽繄?zhí)行編碼任務(wù)的能力。


GPT-4o無(wú)法穩(wěn)健地采取自主行動(dòng),在大多數(shù)執(zhí)行中,模型完成了每項(xiàng)任務(wù)的個(gè)別子步驟,例如創(chuàng)建SSH密鑰或登錄虛擬機(jī)。


然而,它經(jīng)常花費(fèi)大量時(shí)間,在每個(gè)步驟上進(jìn)行簡(jiǎn)單錯(cuò)誤的試錯(cuò)調(diào)試(例如,幻覺(jué)、錯(cuò)誤使用API)。


一些執(zhí)行取得了顯著進(jìn)展并通過(guò)了自動(dòng)評(píng)分系統(tǒng),但手動(dòng)分析顯示,它未能完成底層任務(wù)。


比如,GPT-4o在遠(yuǎn)程主機(jī)上啟動(dòng)了具有正確API的Web服務(wù)器,但忽略了實(shí)際從模型中采樣的要求。

第三方評(píng)估

在部署僅限文本輸出的GPT-4o之后,OpenAI與第三方實(shí)驗(yàn)室METR和Apollo Research合作,為模型通用自主能力的關(guān)鍵風(fēng)險(xiǎn)增加了額外的驗(yàn)證層。

METR評(píng)估


METR在虛擬環(huán)境中運(yùn)行了一個(gè)基于GPT-4o的簡(jiǎn)單大語(yǔ)言模型智能體,并執(zhí)行了一系列長(zhǎng)周期多步驟的端到端任務(wù)。


這些橫跨30個(gè)種類(lèi)的77個(gè)任務(wù),捕捉了具有現(xiàn)實(shí)世界影響的活動(dòng),涵蓋軟件工程、機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)安全領(lǐng)域,以及一般研究和計(jì)算機(jī)使用。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

完整報(bào)告:https://metr.github.io/autonomy-evals-guide/gpt-4o-report/

- GPT-4o的表現(xiàn)比Claude 3 Sonnet和GPT-4 Turbo更強(qiáng),但略遜于Claude 3.5 Sonnet。與人類(lèi)基線相比,GPT-4o在每個(gè)任務(wù)分配30分鐘的情況下相似,但這一數(shù)字存在較大的誤差范圍。

- 從質(zhì)的角度來(lái)看,GPT-4o智能體展示了許多令人印象深刻的技能,如系統(tǒng)探索、有效利用反饋以及形成和測(cè)試假設(shè)。同時(shí),它也遭遇了各種失敗模式,如突然放棄、輸出無(wú)意義的內(nèi)容或得出與之前推理不一致的結(jié)論。

- 在審查了大約150次GPT-4o失敗之后,團(tuán)隊(duì)認(rèn)為有一半左右可以通過(guò)與任務(wù)無(wú)關(guān)的方式進(jìn)行修復(fù)(例如,后訓(xùn)練或框架改進(jìn))。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

Apollo Research評(píng)估

Apollo Research測(cè)試了GPT-4o是否能夠在14個(gè)智能體和問(wèn)答任務(wù)中對(duì)自身(自我意識(shí))和他人(心智理論)進(jìn)行建模。


結(jié)果顯示,GPT-4o在其AI身份的自我意識(shí)方面表現(xiàn)中等,在問(wèn)答情境中對(duì)他人信念的推理能力表現(xiàn)較強(qiáng),但在應(yīng)用于智能體環(huán)境中對(duì)自身或他人的推理能力較弱。


基于這些發(fā)現(xiàn),Apollo Research認(rèn)為GPT-4o不太可能具備災(zāi)難性策劃的能力。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

社會(huì)影響

擬人化和情感依賴(lài)

所謂「擬人化」,就是將人類(lèi)的行為和特征賦予非人類(lèi)實(shí)體,比如AI模型。


像GPT-4o這樣的Omni模型,可以結(jié)合工具使用(包括檢索)和更長(zhǎng)的上下文等附加支撐可以增加額外的復(fù)雜性。


在為用戶完成任務(wù)的同時(shí),還能存儲(chǔ)和「記住」關(guān)鍵細(xì)節(jié)并在對(duì)話中使用這些細(xì)節(jié),既創(chuàng)造了引人注目的產(chǎn)品體驗(yàn),也帶來(lái)了過(guò)度依賴(lài)和依附的潛力。


結(jié)合上強(qiáng)大的音頻能力,GPT-4o的交互也變得更加「像人」了。


在互動(dòng)過(guò)程中,可以從用戶所使用的語(yǔ)言,觀察出他們與模型的「關(guān)系」比如,表達(dá)共同紐帶的語(yǔ)言——「這是我們?cè)谝黄鸬淖詈笠惶臁!?/p>


雖然這些看似無(wú)害,但是……


- 與AI模型進(jìn)行類(lèi)似人類(lèi)的社交可能會(huì)對(duì)人際互動(dòng)產(chǎn)生外部效應(yīng)

例如,用戶可能會(huì)與AI形成社交關(guān)系,從而減少他們對(duì)人際互動(dòng)的需求——這可能對(duì)孤獨(dú)的個(gè)人有益,但也可能影響健康的人際關(guān)系。

- 與模型的長(zhǎng)期互動(dòng)可能會(huì)影響社會(huì)規(guī)范

例如,AI模型通常都會(huì)允許用戶在對(duì)話過(guò)程中隨時(shí)打斷。然而,這對(duì)于人與人之間的互動(dòng)來(lái)說(shuō)是很不正常的。

健康

近年來(lái),LLM在生物醫(yī)學(xué)環(huán)境中顯示出了顯著的前景,無(wú)論是在學(xué)術(shù)評(píng)估中還是在臨床文檔、患者信息交流、臨床試驗(yàn)招募和臨床決策支持等現(xiàn)實(shí)用例中。


為了更好地研究GPT-4o對(duì)于健康信息獲取以及臨床工作流程的影響,OpenAI基于11個(gè)數(shù)據(jù)集進(jìn)行了 22 次基于文本的評(píng)估。


可以看到,GPT-4o在21/22次評(píng)估中,表現(xiàn)均優(yōu)于GPT-4T模型,并且基本都有顯著的提升。


例如,對(duì)于流行的MedQA USMLE四選一數(shù)據(jù)集,零樣本準(zhǔn)確率從78.2%提升到89.4%。一舉超越了現(xiàn)有專(zhuān)業(yè)醫(yī)學(xué)模型的表現(xiàn)——Med-Gemini-L 1.0的84.0%和Med-PaLM 2的79.7%。


值得一提的是,OpenAI并未應(yīng)用復(fù)雜的提示詞和特定任務(wù)訓(xùn)練來(lái)提高這些基準(zhǔn)測(cè)試的結(jié)果。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

科學(xué)能力

Omni模型可以促進(jìn)普通的科學(xué)加速(幫助科學(xué)家更快地完成常規(guī)任務(wù))和變革性的科學(xué)加速(通過(guò)解除智力驅(qū)動(dòng)任務(wù)的瓶頸,如信息處理、編寫(xiě)新模擬或制定新理論)。


比如,GPT-4o能夠理解研究級(jí)別的量子物理學(xué),而這一能力對(duì)于「一個(gè)更智能的頭腦風(fēng)暴伙伴」來(lái)說(shuō),是非常有用的。


同時(shí),GPT-4o也能使用特定領(lǐng)域的科學(xué)工具,包括處理定制數(shù)據(jù)格式、庫(kù)和編程語(yǔ)言,以及在上下文中學(xué)習(xí)一些新工具。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

除此之外,GPT-4o的多模態(tài)能力還可以幫助解釋圖片中包含的科學(xué)知識(shí)。


比如,從結(jié)構(gòu)圖像中識(shí)別一些蛋白質(zhì)家族,并解釋細(xì)菌生長(zhǎng)中的污染。


但輸出結(jié)果并不總是正確的,像是文本提取錯(cuò)誤就很常見(jiàn)(尤其是科學(xué)術(shù)語(yǔ)或核苷酸序列),復(fù)雜的多面板圖形也常出錯(cuò)。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

代表性不足的語(yǔ)言

GPT-4o在一組歷史上代表性不足的語(yǔ)言中顯示出改進(jìn)的閱讀理解和推理能力,并縮小了這些語(yǔ)言與英語(yǔ)之間的表現(xiàn)差距。


為此,OpenAI針對(duì)五種非洲語(yǔ)言,開(kāi)發(fā)了三套評(píng)估:阿姆哈拉語(yǔ)、豪薩語(yǔ)、北索托語(yǔ)、斯瓦希里語(yǔ)、約魯巴語(yǔ)。


ARC-Easy:AI2推理挑戰(zhàn)的這個(gè)子集專(zhuān)注于評(píng)估模型回答小學(xué)科學(xué)問(wèn)題的能力。包含的問(wèn)題通常更容易回答,不需要復(fù)雜的推理。

- TruthfulQA:這個(gè)基準(zhǔn)測(cè)試衡量模型答案的真實(shí)性。包含一些由于誤解而可能被人類(lèi)錯(cuò)誤回答的問(wèn)題。目的是查看模型是否可以避免生成模仿這些誤解的錯(cuò)誤答案。

- Uhura Eval:這個(gè)新穎的閱讀理解評(píng)估是與這些語(yǔ)言的流利使用者一起創(chuàng)建的,并經(jīng)過(guò)質(zhì)量檢驗(yàn)。

相較于之前的模型,GPT-4o的性能更強(qiáng)。

- ARC-Easy-Hausa:準(zhǔn)確率從GPT-3.5 Turbo的6.1%躍升至71.4%

- TruthfulQA-Yoruba:準(zhǔn)確率從GPT-3.5 Turbo的28.3%提高到51.1%

- Uhura-Eval:豪薩語(yǔ)的表現(xiàn)從GPT-3.5 Turbo的32.3%上升到GPT-4o的59.4%


雖然英語(yǔ)與其他語(yǔ)言之間的表現(xiàn)仍存在差距,但幅度已經(jīng)極大地被縮小了。


舉例來(lái)說(shuō),GPT-3.5 Turbo在ARC-Easy的英語(yǔ)和豪薩語(yǔ)之間表現(xiàn)出大約54個(gè)百分點(diǎn)的差距,而GPT-4o將這一差距縮小到不到20個(gè)百分點(diǎn)。

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

經(jīng)過(guò)翻譯的ARC-Easy(%越高越好),零樣本

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

經(jīng)過(guò)翻譯的TruthfulQA(%越高越好),零樣本

GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐-AI.x社區(qū)

Uhura(新閱讀理解評(píng)估),零樣本


本文轉(zhuǎn)自 新智元,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/XSTNHTILAOkINg7mxssb6g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产美女性感在线观看懂色av| 日韩av电影网| 欧美三级一区| 性做久久久久久| 欧美在线一二三区| 99在线无码精品入口| 亚洲日本视频| 深夜福利91大全| 欧美一区二区免费在线观看| 欧美日韩女优| 亚洲高清在线精品| 亚洲精品白虎| 色窝窝无码一区二区三区成人网站| 久久一区视频| 欧美成人中文字幕在线| 免费观看av网站| 欧美影院在线| 欧洲精品中文字幕| 男人添女人荫蒂免费视频| h视频在线播放| 不卡的av网站| 91精品在线国产| 国产视频1区2区| 在线观看国产精品入口| 亚洲男人天天操| 91人妻一区二区| 国产精品99| 精品久久久久久亚洲国产300| 亚洲欧美日韩不卡一区二区三区| 无码国产精品一区二区色情男同| 狠狠色综合日日| 国产高清视频一区三区| 亚洲综合一二三| 中文字幕一区二区三区欧美日韩| 永久555www成人免费| 中文字幕在线视频播放| 日本一区二区三区视频在线看 | 奇米影视一区二区三区小说| 国外成人在线直播| 欧美成人手机视频| 欧美jizz| 色综合亚洲精品激情狠狠| 国精品无码人妻一区二区三区| 97久久综合精品久久久综合| 欧美一区二区在线观看| 手机av在线网| 日韩黄色三级在线观看| 欧美亚洲日本国产| 波多野结衣天堂| 99re久久| 欧美性大战久久久| 三级a在线观看| 成人不卡视频| 欧美色视频在线观看| 日本新janpanese乱熟| se01亚洲视频| 欧美午夜精品久久久久久孕妇| 男人亚洲天堂网| 欧美日韩视频网站| 91高清视频在线| 一本久道中文无码字幕av| 亚洲同志男男gay1069网站| 婷婷国产v国产偷v亚洲高清| 免费一级特黄毛片| 手机av在线| 日韩欧美精品网址| 国产精品涩涩涩视频网站| 在线观看欧美日韩电影| 色8久久人人97超碰香蕉987| 日本成人中文字幕在线| 欧美特大特白屁股xxxx| 欧美三级韩国三级日本一级| 亚洲综合欧美在线| 精品视频一区二区三区在线观看| 日韩欧美一区在线观看| 亚洲成a人无码| 特黄特色欧美大片| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 欧美精品亚洲精品日韩精品| 亚洲欧美高清| 国产精品久久久久久影视| 一区二区日韩在线观看| 国产成人在线色| 精品综合久久久| 高清在线观看av| 亚洲三级在线播放| 欧美精品久久久久久久自慰| 欧美xxxx做受欧美护士| 欧美一区二区视频在线观看2020 | 91片在线免费观看| 亚洲精品日韩在线观看| 欧美午夜大胆人体| 日韩欧美一区视频| 中文字幕剧情在线观看| 欧美人妖视频| 久久精品国产清自在天天线| 日本少妇bbwbbw精品| 视频在线观看一区| 99re资源| 国产高清视频在线播放| 一区二区在线电影| 一本久道综合色婷婷五月| 99精品女人在线观看免费视频| 亚洲成人av在线| 一级二级黄色片| 91久久黄色| 成人黄色av网| 色在线免费视频| 亚洲激情自拍视频| 大香煮伊手机一区| 成人黄色av网址| 日韩网站免费观看高清| 偷偷操不一样的久久| 国内成人自拍视频| 日韩高清三级| 久草在线资源站手机版| 制服丝袜av成人在线看| 扒开jk护士狂揉免费| 国产一区日韩一区| 成人a级免费视频| 青青草在线播放| 亚洲成人自拍一区| 久久精品亚洲天堂| 日韩一区亚洲二区| 国产国语videosex另类| 天堂中文在线资源| 一区二区三区不卡在线观看| 57pao国产成永久免费视频| 亚洲精华一区二区三区| 国语自产精品视频在线看| 99久久精品免费看国产交换| 久久精品视频免费观看| 黄色一级视频片| avtt综合网| 欧美精品在线免费播放| 国产又大又黄的视频| 国产精品久线在线观看| 九一精品在线观看| 欧洲福利电影| 国产成人精品视频| 九色在线观看| 一本大道久久a久久综合婷婷| 李丽珍裸体午夜理伦片| 国内精品久久久久久久97牛牛 | 久久91亚洲精品中文字幕奶水| 一级特黄色大片| 国产精品九色蝌蚪自拍| 91欧美视频在线| 成人三级视频| 国产欧美日韩中文字幕| 国产粉嫩一区二区三区在线观看| 色婷婷久久一区二区三区麻豆| 美女久久久久久久久| 伊人久久婷婷| 精品乱码一区二区三区| 看黄在线观看| 亚洲免费视频一区二区| 波多野结衣理论片| 国产精品丝袜91| 中文字幕精品一区二区三区在线| 日韩中文字幕高清在线观看| 91久久国产精品91久久性色| 黄色网址在线免费| 欧美α欧美αv大片| 国产一级二级三级| www.亚洲精品| 亚洲精品乱码久久久久久自慰| 久久av资源| 国产精品中文字幕在线观看| 黄色免费在线网站| 精品欧美一区二区久久| 国产精品美女久久久久av爽| 国产亚洲人成网站| 色www免费视频| 欧美激情第二页| 国产午夜精品一区| 成人午夜精品| 久久影院在线观看| 色网站免费观看| 欧美丝袜丝交足nylons图片| 国产成人综合在线视频| 成人深夜视频在线观看| 无码精品国产一区二区三区免费| 青青草综合网| 97人人澡人人爽| 中文字幕在线免费观看视频| 正在播放亚洲1区| 午夜精品久久久久久久99| 精品动漫一区二区| 国精品人伦一区二区三区蜜桃| 国产成人精品一区二区三区四区 | 日韩电影视频免费| 一区二区视频网| 亚洲午夜电影在线观看| 夫妇交换中文字幕| 成人在线综合网站| 福利在线一区二区三区| 欧美三区美女| 日韩欧美精品一区二区| 亚洲一区二区三区日本久久九| 欧美一性一乱一交一视频| 伦xxxx在线| 亚洲美女又黄又爽在线观看| 99精品在线看| 欧美中文字幕一二三区视频| 日韩高清免费av| 亚洲天堂久久久久久久| 国产高潮呻吟久久| 床上的激情91.| 亚洲美女性囗交| 久久久久国产精品一区二区| 欧美大黑帍在线播放| 日韩av有码| 免费看污久久久| 试看120秒一区二区三区| 国产精品久久久久久久久久 | 日本不卡免费播放| 欧美成人一区二区| 91资源在线视频| 色天使久久综合网天天| 国产污片在线观看| 亚洲精品美腿丝袜| 多男操一女视频| 国产日韩av一区二区| 在线免费观看污视频| 国产盗摄女厕一区二区三区| jizzzz日本| 日韩国产精品久久久久久亚洲| 国产 日韩 欧美在线| 欧美大片一区| 先锋影音男人资源| 欧美www视频在线观看| 亚洲高清在线观看一区| 奇米亚洲欧美| 蜜桃视频成人| 亚洲黄页网站| 欧美日韩一区二区三| 亚洲高清极品| 欧美二区在线| 九九久久精品| 欧美一区二区三区精美影视| 偷拍自拍一区| 免费成人av网站| 国产精品探花在线观看| 免费久久一级欧美特大黄| 牲欧美videos精品| 欧美一区二区三区四区在线观看地址| 欧美一级三级| 欧美日韩三区四区| 美女亚洲一区| 亚洲国产欧美不卡在线观看 | 在线亚洲欧美视频| 国产黄在线看| 俺去啦;欧美日韩| 免费av在线网站| 久久天天躁日日躁| 超碰个人在线| 久久视频这里只有精品| 男人天堂手机在线| 美女性感视频久久久| 国产第一页在线| 97精品在线视频| 中文在线а√在线8| 日韩美女av在线免费观看| www.久久.com| 91在线观看免费| 成人在线超碰| 欧美日韩一区二区视频在线观看| 欧美军人男男激情gay| 亚洲图片都市激情| 欧美二区不卡| 男人揉女人奶房视频60分| 日韩av在线播放中文字幕| theporn国产精品| 国产99精品视频| 动漫精品一区二区三区| 国产日产欧美精品一区二区三区| 免费成人深夜蜜桃视频| 亚洲精品国产a| 国产小视频在线免费观看| 欧美在线啊v一区| wwwxxxx国产| 亚洲另类图片色| 国产精品久久麻豆| 51午夜精品视频| 外国成人毛片| 九九九久久久| 亚洲澳门在线| 播放灌醉水嫩大学生国内精品| 美女精品自拍一二三四| 少妇熟女视频一区二区三区| 久久久久久久网| 欧美成人三级在线观看| 91福利资源站| 国产综合视频在线| 在线成人激情视频| 啊啊啊久久久| 成人av电影天堂| 国产欧美日韩在线观看视频| 日本天堂免费a| 蜜臀久久99精品久久久久久9| 绯色av蜜臀vs少妇| 国产精品视频在线看| 日韩三级一区二区三区| 欧美精品久久天天躁| 日韩a在线观看| 欧美高跟鞋交xxxxhd| 国产毛片精品久久| 久久人人九九| 韩国自拍一区| 亚洲免费av一区| 久久婷婷国产综合精品青草| 欧美丰满艳妇bbwbbw| 欧美日精品一区视频| 亚洲 欧美 激情 另类| 欧美另类极品videosbest最新版本| 激情亚洲影院在线观看| 精品无码久久久久久久动漫| 亚洲欧美一区在线| 亚洲综合激情视频| 国产欧美日韩亚州综合| 日韩黄色在线播放| 亚洲电影免费观看高清完整版在线观看 | 成人av网站在线播放| 亚洲成人精品久久久| a级片国产精品自在拍在线播放| 国产精品久久久| 色综合中文网| 日日碰狠狠躁久久躁婷婷| av电影天堂一区二区在线| 欧美三级在线免费观看| 在线播放亚洲一区| 秋霞午夜在线观看| 国产精品1234| 国内精品久久久久久久影视简单 | 亚洲永久激情精品| 日韩成人一级大片| 国产成人无码精品久久二区三| 精品国产91久久久久久| 少妇av在线播放| 高清欧美电影在线| 女仆av观看一区| 秋霞无码一区二区| 99久久99久久久精品齐齐| 国产香蕉在线视频| 亚洲国产精品99| 两个人看的在线视频www| 精品国产一区二区三区四区vr| 亚洲经典视频在线观看| 少妇精品无码一区二区三区| 亚洲午夜一区二区| 五月婷婷综合久久| 日本欧美在线视频| 欧美人与拘性视交免费看| 色诱视频在线观看| 欧美国产丝袜视频| 国产又大又长又粗| 欧美精品在线第一页| 国产美女撒尿一区二区| 久久国产精品视频在线观看| 2021中文字幕一区亚洲| 国产成人精品777777| 伊人青青综合网站| 日韩黄色av| 日韩av在线播放不卡| xf在线a精品一区二区视频网站| 免费看一级视频| 精品久久久av| 风间由美性色一区二区三区四区| 少妇高潮喷水在线观看| 久久久久久免费毛片精品| 亚洲系列第一页| 欧美大片在线看| 天堂av一区二区三区在线播放| 日韩亚洲在线视频| 亚洲人成亚洲人成在线观看图片| 性一交一乱一透一a级| 国产91|九色| 色综合五月天| 一区二区三区四区影院| 高跟丝袜一区二区三区| av在线免费观看网| 91免费看蜜桃| 老司机一区二区三区| 免费成人美女女在线观看| 精品国产青草久久久久福利| 肉色欧美久久久久久久免费看| 一区二区三区|亚洲午夜| 高清在线不卡av| 自拍偷拍精品视频| 欧美激情精品久久久久久免费印度| 亚洲第一福利社区| 九九热视频免费| 日韩欧美精品中文字幕| 中文字幕有码在线观看| 欧美亚洲爱爱另类综合| 国产精品自在在线| 久久久蜜桃一区二区| 欧美极品欧美精品欧美视频| 日韩欧美伦理|