微軟翻譯又添新語(yǔ)言 —— 文言文
編者按:每當(dāng)面對(duì)美好的時(shí)節(jié)、迷人的風(fēng)景、優(yōu)美的事物時(shí),或許你也禁不住想借古抒懷,然而卻發(fā)現(xiàn)自己的古文詞庫(kù)有些匱乏。不過(guò),最近微軟亞洲研究院的研究員們將 AI 技術(shù)應(yīng)用在文言文/古文與現(xiàn)代漢語(yǔ)之間的雙向互譯,并已集成于微軟 Azure 認(rèn)知服務(wù)以及多個(gè)微軟產(chǎn)品中,用戶可以一鍵將文言文翻譯成現(xiàn)代漢語(yǔ),以及微軟翻譯服務(wù)支持的其他90多種語(yǔ)言和方言。
在閱讀古詩(shī)詞時(shí),我們常常驚嘆于古人攜風(fēng)月入墨,落筆如畫(huà),仿佛世間最美的風(fēng)景,都在古詩(shī)詞和文言文中。比如,我們可以在“落霞與孤鶩齊飛,秋水共長(zhǎng)天一色”中享受絕美,在“大漠孤煙直,長(zhǎng)河落日?qǐng)A”里體會(huì)蒼涼,在“氣蒸云夢(mèng)澤,波撼岳陽(yáng)城”中感受壯闊。古代文人對(duì)人、事、物、景的諸多描寫(xiě),為我們留下了燦爛的文化瑰寶。
然而,當(dāng)我們讀到北宋詞人柳永筆下描繪的清明節(jié)旖旎春色和社會(huì)風(fēng)情——“拆桐花爛熳,乍疏雨、洗清明。正艷杏燒林,緗桃繡野,芳景如屏。傾城,盡尋勝去,驟雕鞍紺幰出郊坰(zhòu diāo ān gàn xiǎn chū jiāo jiōng)。風(fēng)暖繁弦脆管,萬(wàn)家競(jìng)奏新聲”,這些略顯拗口的古文,對(duì)于大多數(shù)人來(lái)說(shuō)理解起來(lái)不免有些困難,很難完全體會(huì)出詩(shī)人所表達(dá)的意境。
為了解決這個(gè)問(wèn)題,微軟亞洲研究院的研究員們通過(guò)采用最新的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型和訓(xùn)練框架,實(shí)現(xiàn)了文言文/古文與現(xiàn)代漢語(yǔ)之間的雙向互譯,以及文言文與微軟翻譯支持的其他90多種語(yǔ)言和方言的互譯。目前,文言文翻譯已經(jīng)集成到了微軟翻譯應(yīng)用、Azure 認(rèn)知服務(wù)的翻譯工具 API,以及微軟翻譯服務(wù)支持的包括 Office 在內(nèi)的多個(gè)微軟產(chǎn)品中。
讓更多人領(lǐng)略中華傳統(tǒng)文化的魅力
不少人與文言文的上一次“親密接觸”大概還停留在學(xué)生時(shí)代,有些甚至早已遺忘。近年來(lái),無(wú)論是漢服文化的流行,還是九大博物館聯(lián)手讓國(guó)寶活起來(lái)的《國(guó)家寶藏》,以現(xiàn)代音樂(lè)奏響經(jīng)典詩(shī)詞的《經(jīng)典詠流傳》,聚焦文化典籍的《典籍里的中國(guó)》等等,全新的展示形式讓越來(lái)越多的人重新關(guān)注中華傳統(tǒng)文化的魅力。
文言文是中華傳統(tǒng)文化的重要載體。卷帙浩繁的古書(shū)、古文記錄了中華五千年來(lái)博大精深的文化,其中沉淀、蘊(yùn)含的思想和智慧,值得不斷地探索與思考。因此,文言文對(duì)于傳承和傳播中華文化至關(guān)重要,正如想理解西方文化的精髓要從讀懂莎士比亞開(kāi)始一樣。
有了機(jī)器翻譯的幫助,游客們?cè)谟紊酵嫠畷r(shí)可以看懂古建筑、古碑文上的古文和詩(shī)詞,學(xué)生們?cè)谶M(jìn)行大語(yǔ)文學(xué)習(xí)時(shí)多了一個(gè)通過(guò)實(shí)踐舉一反三的工具,對(duì)于古籍的整理和翻譯研究工作來(lái)說(shuō),也可以提升效率、事半功倍。
“從技術(shù)角度上,文言文可以看作是一個(gè)單獨(dú)的語(yǔ)種,當(dāng)文言文與現(xiàn)代漢語(yǔ)實(shí)現(xiàn)自由互譯后,文言文與英語(yǔ)、法語(yǔ)、德語(yǔ)等語(yǔ)言的互譯也就水到渠成,”微軟亞洲研究院高級(jí)研究員張冬冬說(shuō)道。屆時(shí),國(guó)際友人在閱讀中國(guó)經(jīng)典古籍時(shí)也能瞬間秒懂,了解更加原汁原味的中華傳統(tǒng)文化。
文言文翻譯 AI 模型的最大難關(guān):訓(xùn)練數(shù)據(jù)少
人工智能模型訓(xùn)練最關(guān)鍵的要素是數(shù)據(jù),數(shù)據(jù)體量足夠大、質(zhì)量足夠高,才能訓(xùn)練出更加精準(zhǔn)的模型。在機(jī)器翻譯中,模型的訓(xùn)練更是需要雙語(yǔ)數(shù)據(jù):原文數(shù)據(jù)和目標(biāo)語(yǔ)言數(shù)據(jù)。由于文言文翻譯極為特殊,它并非日常用語(yǔ),所以與其他語(yǔ)種的翻譯相比,文言文翻譯的訓(xùn)練數(shù)據(jù)非常少,并不利于機(jī)器翻譯模型的訓(xùn)練。
盡管微軟亞洲研究院的研究員們前期收集了不少公開(kāi)的古今漢語(yǔ)數(shù)據(jù),但原始數(shù)據(jù)卻無(wú)法直接使用,需要通過(guò)數(shù)據(jù)清洗,對(duì)數(shù)據(jù)的不同源頭、多樣的格式以及標(biāo)點(diǎn)符號(hào)、全角/半角等進(jìn)行標(biāo)準(zhǔn)化的統(tǒng)一,盡可能減少無(wú)效數(shù)據(jù)對(duì)模型訓(xùn)練的干擾。這樣下來(lái),切實(shí)可用的高質(zhì)量數(shù)據(jù)又進(jìn)一步減少。據(jù)微軟亞洲研究院研究員馬樹(shù)銘介紹,為了解決數(shù)據(jù)少的問(wèn)題,研究員們做了大量的數(shù)據(jù)合成和增強(qiáng)工作,包括:
首先,共用字符對(duì)齊、擴(kuò)展,擴(kuò)大數(shù)據(jù)量。與英文、法文、俄文等其他語(yǔ)言的翻譯不同,文言文與現(xiàn)代文有相同、共通的字符。利用這個(gè)特點(diǎn),微軟亞洲研究院的研究員們通過(guò)創(chuàng)新算法,讓機(jī)器翻譯通過(guò)對(duì)共同字符進(jìn)行召回、自然對(duì)齊,再進(jìn)一步擴(kuò)展到詞語(yǔ)、短語(yǔ)、短句,從而合成了大量可用的數(shù)據(jù)。
其次,句式變形,提升機(jī)器翻譯的魯棒性。針對(duì)句子、詩(shī)文不同的斷句,研究員們?cè)黾恿硕喾N變形,讓機(jī)器在古詩(shī)文學(xué)習(xí)方面更全面,例如,古詩(shī)《尋隱者不遇》,一般的斷句方式是“松下問(wèn)童子,言師采藥去”。但對(duì)于人來(lái)說(shuō),即使是“言師采藥去,只在此山中”這樣非正常斷句,看見(jiàn)時(shí)也知道它的上下句關(guān)系和意思。但對(duì)于沒(méi)見(jiàn)過(guò)如此斷句的翻譯模型來(lái)說(shuō),就會(huì)“懵”,因此,通過(guò)數(shù)據(jù)格式的變形不僅能擴(kuò)大訓(xùn)練的數(shù)據(jù)量,也能提升訓(xùn)練模型翻譯的魯棒性。
第三,繁簡(jiǎn)字互譯訓(xùn)練,增加模型適應(yīng)性。漢語(yǔ)言中,無(wú)論是文言文還是現(xiàn)代文,都存在繁體字。因此,為了提升模型的適應(yīng)性,研究員們?cè)谟?xùn)練翻譯模型時(shí),不僅有簡(jiǎn)體中文的訓(xùn)練,還加入了繁體中文的數(shù)據(jù),以及繁簡(jiǎn)字夾雜的數(shù)據(jù),讓翻譯模型都能看懂,翻譯也就更精準(zhǔn)。
第四,增加集外詞訓(xùn)練,提升翻譯準(zhǔn)確度。在現(xiàn)代語(yǔ)言向文言文翻譯時(shí),還會(huì)出現(xiàn)一些集外詞,也就是古漢語(yǔ)中從未出現(xiàn)過(guò)的新名詞,如微軟、電腦、高鐵等近現(xiàn)代才出現(xiàn)的實(shí)體詞。針對(duì)這樣的“意外”,研究員們訓(xùn)練了一個(gè)小模型來(lái)識(shí)別實(shí)體,先將實(shí)體之外的意思翻譯完成,再把實(shí)體填寫(xiě)回去,以確保機(jī)器對(duì)集外詞處理的準(zhǔn)確性。
此外,針對(duì)非正式文體,如博客、論壇、微博等非正規(guī)的文體,該機(jī)器翻譯模型也都進(jìn)行了針對(duì)性的訓(xùn)練,進(jìn)一步提升了現(xiàn)代漢語(yǔ)與文言文之間翻譯的魯棒性。
張冬冬表示,“基于當(dāng)前的翻譯系統(tǒng),我們還將在豐富數(shù)據(jù)集、改進(jìn)模型訓(xùn)練方法上不斷精進(jìn),使方法變得更加魯棒、通用,未來(lái)或許不只是在文言文翻譯中能夠使用,還可以擴(kuò)展到更多應(yīng)用場(chǎng)景中。”
創(chuàng)新技術(shù)助力文化遺產(chǎn)的保護(hù)與傳承
中華文明上下五千年的歷史,由于時(shí)間和空間的限制,能夠傳承下來(lái),又被后人了解和記錄的內(nèi)容很有限。多年來(lái),微軟亞洲研究院一直致力于將最前沿的技術(shù)和研究成果應(yīng)用于歷史、文化、考古等方面的保護(hù)和傳承,讓文化遺產(chǎn)以更直觀、互動(dòng)的方式展現(xiàn)在人們面前。
自2005年起,微軟亞洲研究院就基于自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù)研發(fā)了微軟對(duì)聯(lián)系統(tǒng),并逐漸增加了微軟字謎和微軟絕句。2010年,微軟亞洲研究院與故宮博物院和北京大學(xué)三方合作完成了“走進(jìn)清明上河圖”沉浸式數(shù)字音畫(huà)展示項(xiàng)目的研發(fā),獨(dú)創(chuàng)性的三維布局恢復(fù)算法和虛擬環(huán)境組織方法,讓觀眾可以身臨其境地欣賞畫(huà)中的每個(gè)細(xì)節(jié),不僅以新方式保護(hù)和傳承了書(shū)畫(huà)類歷史文物,也給傳統(tǒng)博物館在新技術(shù)時(shí)代的發(fā)展帶來(lái)啟示。2011年,微軟亞洲研究院向敦煌研究院捐贈(zèng)了專門(mén)為敦煌莫高窟量身定制的“飛天號(hào)”十億級(jí)像素?cái)?shù)字相機(jī)系統(tǒng),突破性地解決了敦煌壁畫(huà)和佛龕數(shù)字化拍攝過(guò)程中的難題。
微軟亞洲研究院還在積極探索與文言文專業(yè)研究機(jī)構(gòu)的溝通與合作,期待從技術(shù)角度提升文言文翻譯系統(tǒng)準(zhǔn)確性的同時(shí),也能夠獲得專業(yè)性的意見(jiàn)和建議。
最后,讓我們來(lái)測(cè)試一下你的文言文底蘊(yùn)到底有多深。請(qǐng)選出以下文言文語(yǔ)句的正確意思:
1《陳情表》:詔書(shū)特下,拜臣郎中,尋蒙國(guó)恩,除臣洗馬。
- A:專門(mén)下達(dá)詔書(shū),授予我郎中的官職;不久又蒙受國(guó)家恩典,讓我去給太子洗馬。
- B:朝廷又特地下了詔書(shū),任命我為郎中,不久又蒙受國(guó)家恩命,任命我為太子的侍從。
2《鴻門(mén)宴》:臣死且不避,卮酒安足辭?
- A:我死都不怕,一杯酒有什么可推辭的?
- B:我喝死都不怕,一杯酒怎么夠呢?






























