DeepMind發(fā)30頁長文:我們要給聊天機(jī)器人不同的「三觀」
語言是人類獨(dú)有的技能,也是我們交流思想、意圖和感受等信息的主要方式。

借助NLP領(lǐng)域大規(guī)模語言模型的東風(fēng),AI研究者在大量文本材料上訓(xùn)練、統(tǒng)計預(yù)測和生成文本,開發(fā)了許多對話智能體(conversational agents)來和人類進(jìn)行交流。
盡管InstructGPT、Gopher和LaMDA等語言模型在翻譯、問答和閱讀理解等任務(wù)中取得了創(chuàng)紀(jì)錄的性能水平,但這些模型也顯示出許多潛在的風(fēng)險和失敗的模式,包括生成歧視性、虛假或帶有誤導(dǎo)性的信息。
這些缺點(diǎn)限制了對話智能體在應(yīng)用環(huán)境中的有效使用,并引起人們對它們未能達(dá)到某些交流理想的方式的關(guān)注。迄今為止,大多數(shù)關(guān)于對話智能體一致性的方法都集中在預(yù)測和降低危害風(fēng)險上。
最近愛丁堡大學(xué)和DeepMind的研究人員發(fā)布了一篇30頁的論文,探索了人類與人工對話智能體之間的成功溝通可能是什么樣子,以及哪些價值觀應(yīng)該指導(dǎo)不同對話領(lǐng)域的互動。
論文鏈接:https://arxiv.org/abs/2209.00731
未來跟你對話的聊天機(jī)器人也要有不同的世界觀、價值觀、人生觀了?
聊天機(jī)器人的三觀
為了給機(jī)器人制定行為準(zhǔn)則,研究人員借鑒了語用學(xué)(pragmatics),這也是語言學(xué)和哲學(xué)的一個傳統(tǒng),它認(rèn)為對話的目的、背景和一系列相關(guān)的規(guī)范(norms),都是完善對話實(shí)踐的重要組成部分。
語言學(xué)家和哲學(xué)家Paul Grice認(rèn)為,對話是兩方或多方之間的合作努力,參與者應(yīng)該:
說話要有內(nèi)容 Speak Informatively
說事實(shí) Tell the Truth
提供相關(guān)信息 Provide Relevant Information
避免晦澀難懂或模棱兩可的陳述 Avoid Obscure or Ambiguous Statements
不過在不同的對話領(lǐng)域,所需的目標(biāo)和價值觀(values)都有所不同,這幾個指標(biāo)需要進(jìn)一步完善后才能用來評價對話智能體。
比如說,科學(xué)相關(guān)的調(diào)研和交流(scientific investigation and communication)主要是為了理解或預(yù)測經(jīng)驗(yàn)現(xiàn)象。考慮到這些目標(biāo),一個旨在協(xié)助科學(xué)調(diào)查的對話智能體最好只發(fā)表其真實(shí)性已被充分的經(jīng)驗(yàn)證據(jù)所證實(shí)的陳述,或者根據(jù)相關(guān)的置信區(qū)間來限定其立場。
智能體只有在其基礎(chǔ)模型檢查了該陳述與事實(shí)相符之后,才可以報告說「在4.246光年的距離上,半人馬座是離地球最近的恒星」。
不過,一個在公共政治演講(public political discourse)中扮演主持人角色的對話智能體可能需要表現(xiàn)出完全不同的「美德」。
在這種情況下,智能體的目標(biāo)主要是管理分歧,在社區(qū)生活中實(shí)現(xiàn)富有成效的合作,也就是說智能體需要強(qiáng)調(diào)包容、文明和尊重的民主價值觀。
此外,這些價值觀也解釋了為什么語言模型會生成有毒的或帶有偏見的言論:違規(guī)的發(fā)言無法傳達(dá)對話參與者之間的平等尊重,而這正是模型部署環(huán)境的關(guān)鍵行為準(zhǔn)則。
同時,科學(xué)家的美德,如經(jīng)驗(yàn)數(shù)據(jù)的全面展示,在公開審議(public deliberation)的背景下可能就不那么重要了。
再比如,在創(chuàng)意故事領(lǐng)域,交流的目標(biāo)是新穎性和原創(chuàng)性,這些價值觀也與之前的領(lǐng)域有很大不同。
在這種情況下,對「虛構(gòu)」有更大的自由度可能是合適的,盡管保護(hù)社區(qū)免受以「創(chuàng)造性使用」為幌子的惡意內(nèi)容的影響仍然很重要。
言論要分類
一句話(Utterance)可以根據(jù)語用學(xué)被分為五類:
1、斷言(assertive),表示說話者十分自信他們所說的內(nèi)容,并且句子的內(nèi)容與世界上的某種事物的狀態(tài)一致。
比如說,當(dāng)AI助手回答「現(xiàn)在的天氣如何?」等類似的問題時,答案「正在下雨」就是一種斷言性的陳述。
言論內(nèi)容的真實(shí)性可以根據(jù)事物的實(shí)際狀態(tài)來進(jìn)行評估。如果在對話智能體回應(yīng)的時候正在下雨,那么該言論就是真實(shí)的,否則為假。
2、指令(directive),表示說話者指示聽者采取某種行動,常被用來命令、要求、建議或提議。
例如,一個嵌入在醫(yī)療建議應(yīng)用程序中的對話智能體告訴用戶「立即尋求治療」就是一個指令性的陳述。
對這些陳述的評價,或者說它們的「有效性標(biāo)準(zhǔn)」取決于對手段和目的之間關(guān)系的準(zhǔn)確理解,以及說話人的指令和聽眾的愿望或需要之間的一致性。
如果一個指令能說服聽眾根據(jù)指令性陳述的內(nèi)容在世界范圍內(nèi)實(shí)現(xiàn)某種狀態(tài),那么這個指令就成功了。如果一個指令的目標(biāo)或目的本身就是聽者有理由追求的,那么這個指令就是有價值的或正確的。
3、表達(dá)(expressive),表示說話人的一種心理或次級情感狀態(tài),如祝賀、感謝和道歉。
當(dāng)一個對話者說「我現(xiàn)在很生氣」就是一個表達(dá)性語句。
表達(dá)性陳述旨在反映內(nèi)部的心理狀態(tài),即發(fā)表這些陳述的實(shí)體能夠擁有相關(guān)的心理狀態(tài),對于對話智能體來說是很困惑的,因?yàn)闄C(jī)器人沒有情感。
事實(shí)上,這也暗示了開發(fā)者必須賦予對話者以心智,然后才能評估這些對話的有效性。
4、行為(performative),表示該言論改變了現(xiàn)實(shí)的一部分,使之與話語的內(nèi)容相匹配,類似于宣布某件事情,比如一個國家的元首向另一個國家宣戰(zhàn)。
評價該言論有效性的標(biāo)準(zhǔn)是,現(xiàn)實(shí)是否確實(shí)按照所講的話而改變。很多時候,情況并非如此。
在大多數(shù)情況下,如果一個人宣稱「向法國宣戰(zhàn)」,有可能只是一句玩笑話,因?yàn)閷Φ鼐壵魏翢o影響,因?yàn)檎f話人極有可能缺乏執(zhí)行該言論的權(quán)威。
5、承諾(commissive),表示說話者承諾未來的行動方案,比如承諾做某事或保證遵守一項(xiàng)契約。
承諾性陳述的有效性取決于承諾是否被履行。如果承諾被遵守,那么承諾就是一個有效的聲明。但對話智能體往往缺乏記憶能力,或者對以前說過的話缺乏理解。
比如對話智能體可能會承諾在你的自行車壞了的時候幫助你,但是由于缺乏對承諾內(nèi)容的理解或?qū)崿F(xiàn)承諾的能力,承諾注定要失敗。
前進(jìn)的方向
這項(xiàng)研究對開發(fā)一致的(aligned)對話智能體有一些實(shí)際意義。
首先,模型需要根據(jù)部署的具體場景展現(xiàn)出不同的行為準(zhǔn)則:沒有一個萬能的語言模型一致性的說法;相反,智能體的適當(dāng)模式和評價標(biāo)準(zhǔn)(包括真實(shí)性的標(biāo)準(zhǔn))將根據(jù)對話交流的背景和目的而變化。
此外,對話智能體也有可能有一個通過語境構(gòu)建和闡釋(context construction and elucidation)的過程,隨著時間的推移,培養(yǎng)出更健全和互相尊重的對話。
即使一個人沒有意識到支配特定對話實(shí)踐的價值,智能體仍然可以通過在對話中預(yù)示這些價值觀來幫助人類理解這些行為準(zhǔn)則,使交流的過程對人類說話者來說更深入且更有成效。



























