精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一種基于詞尾預測的提高英俄翻譯質量的方法

原創
人工智能
神經網絡翻譯模型受限于其可以使用的詞表大小,經常會遇到詞表無法覆蓋源端和目標端單詞的情況,特別是當處理形態豐富的語言(例如俄語、西班牙語等)的時候,詞表對全部語料的覆蓋度往往不夠,這就導致很多“未登錄詞”的產生,嚴重影響翻譯質量。

【51CTO.com原創稿件】神經網絡翻譯模型受限于其可以使用的詞表大小,經常會遇到詞表無法覆蓋源端和目標端單詞的情況,特別是當處理形態豐富的語言(例如俄語、西班牙語等)的時候,詞表對全部語料的覆蓋度往往不夠,這就導致很多“未登錄詞”的產生,嚴重影響翻譯質量。

已有的工作主要關注在如何調整翻譯粒度以及擴展詞表大小兩個維度上,這些工作可以減少“未登錄詞”的產生,但是語言本身的形態問題并沒有被真正研究和專門解決過。

我們的工作提出了一種創新的方法,不僅能夠通過控制翻譯粒度來減少數據稀疏,進而減少“未登錄詞”,還可以通過一個有效的詞尾預測機制,大大降低目標端俄語譯文的形態錯誤,提高英俄翻譯質量。通過和多個比較有影響力的已有工作(基于subword和character的方法)對比,在5000萬量級的超大規模的數據集上,我們的方法可以成功的在基于RNN和Transformer兩種主流的神經網絡翻譯模型上得到穩定的提升。

研究背景

近年來,神經網絡機器翻譯(Neural Machine Translation, NMT)在很多語種和場景上表現出了明顯優于統計機器翻譯(Statistic Machine Translation, SMT)的效果。神經網絡機器翻譯將源語言句子編碼(encode)到一個隱狀態(hidden state),再從這個隱狀態開始解碼(decode),逐個生成目標語言的譯文詞。NMT系統會在目標端設置一個固定大小的詞表,解碼階段的每一步中,會從這個固定大小的詞表中預測產生一個詞,作為當前步驟的譯文詞。受限于計算機的硬件資源限制,這個詞表往往不會設的很大(一般是3萬-5萬)。并且,隨著詞表的增大,預測的難度也會相應的增加。基于詞(word)的NMT系統經常會遭遇“未登錄詞”(Out of vocabulary, OOV)的問題,特別是目標端是一個形態豐富(Morphologically Rich)的語言時,這個問題會更加嚴重。以“英-俄”翻譯為例,俄語是一種形態非常豐富的語言,一個3-5萬的詞表往往不能覆蓋俄語端的所有詞,會有很多OOV產生。OOV的出現對翻譯質量的影響是比較大的。

針對這個問題,有很多方法嘗試解決。其中一些方法會從翻譯粒度的角度出發(translation granularity),另外還有一些方法嘗試有效的擴展目標端詞表大小。這些方法雖然能有效的將少OOV,但是這些方法并沒有對目標端語言的形態(morphology)進行專門的建模。

對于俄語這種形態豐富的語言,詞干(stem)的個數會比詞的個數少很多,因此很自然的,我們會想到要對詞干和詞尾(suffix)分別進行建模。我們設計實現了一種方法,在解碼時每一個解碼步驟(decoding step)中,分別預測詞干和詞尾。訓練階段,目標語言端會使用兩個序列,分別是詞干序列和詞尾序列。詞干序列和詞尾序列的生成過程如下圖所示:

(詞干序列和詞尾序列的生成,“N”表示詞干和詞本身相同,即這個詞沒有詞尾)

通過這種方式,數據稀疏問題會得到緩解,因為詞干的種類會顯著小于詞的種類,而詞尾的種類只有幾百種。

相關工作

基于子詞(subword)的和基于字符(character)的這兩種方法,從調整翻譯粒度的角度出發來幫助緩解目標端形態豐富語言的翻譯問題。一種基于子詞的方法利用BPE(Byte Pari Encoding)算法來生成一個詞匯表。語料中經常出現的詞會被保留在詞匯表中,其他的不太常見的詞則會被拆分成一些子詞。由于少數量的子詞就可以拼成全部不常見的詞,因此NMT的詞表中只保留常見詞和這些子詞就可以了。還有一種基于字符的NMT系統,源端句子和目標端句子都會表示為字符的序列,這種系統對源端形態豐富的語言可以處理的比較好,并且通過在源端引入卷積神經網絡(convolutional neural network, CNN),遠距離的依賴也可以被建模。上述兩種方式雖然可以緩解數據稀疏,但是并沒有專門對語言的形態進行建模,子詞和字符并不是一個完整的語言學單元(unit)。

還有一些研究工作是從如何有效的擴大目標端詞匯表出發的,例如在目標端設置一個很大的詞匯表,但是每次訓練的過程中,只在一個子表上進行預測,這個子表中包含了所有可能出現的譯文詞。這種方法雖然可以解決未登錄詞的問題,但是數據稀疏問題仍然存在,因為低頻的詞是未被充分訓練的。

神經網絡機器翻譯

本文在兩種主要的神經網絡翻譯系統上驗證了“基于詞尾預測”的方法的有效性,分別是基于遞歸神經網絡的機器翻譯(Recurrent Neural Network Based, RNN-based)和谷歌在17年提出的***的神經網絡翻譯模型(Transformer),詳細介紹可以查看相應論文。RNN-based神經網絡機器翻譯如下圖:

(“Neural Machine Translation by Jointly Learning to Align and Translate”, Bahdanau et al., 2015)

Transformer的結構如下圖:

(“Attention Is All You Need”, Ashish Vaswani et al., 2017)

俄語的詞干和詞尾

俄語是一種形態豐富的語言,單復數(number)、格(case)、陰陽性(gender)都會影響詞的形態。以名詞“ball”為例,“ball”是一個中性詞,因此不會隨陰陽性的變化而變化,但當單復數、格變化時,會產生如下多種形態:

一個俄語詞可以分為兩部分,即詞干和詞尾,詞尾的變化是俄語形態變化的體現,詞尾可以體現俄語的單復數、格、陰陽性等信息。利用一個基于規則的俄語詞干獲取工具,可以得到一個俄語句子中每一個詞的詞干和詞尾。

詞尾預測網絡

在NMT的解碼階段,每一個解碼步驟分別預測詞干和詞尾。詞干的生成和NMT原有的網絡結構一致。額外的,利用當前step生成的詞干、當前decoder端的hidden state和源端的source context信息,通過一個前饋神經網絡(Feedforward neural network)生成當前step的詞尾。網絡結構如下圖:

***,將生成的詞干和詞尾拼接在一起,就是當前step的譯文單詞。

實驗

我們在RNN和Transformer上都進行了實驗,在WMT-2017英俄新聞翻譯任務的部分訓練語料(約530萬)上,效果如下圖:

其中,Subword是使用基于子詞方法作為baseline,Fully Character-based是使用基于字符的NMT系統作為baseline。“Suffix Prediction”是我們的系統。

另外,我們還在電子商務領域的數據上,使用超大規模的語料(5000萬),證明了該方法的有效性,實驗結果如圖:

測試集包括商品的標題(Title)、詳情(Description)和用戶評論(Comment)內容,示例如下:

一些翻譯結果的例子:

***個例子中,標號為1和2的俄語詞的形態代表著這個詞是一個反身動詞(reflexive verb),反身動詞的直接賓語和主語是同一個事物,換句話說,反身動詞的施事者和受事者是同一個事物。從源端句子中可以看出,“return”的施事者是購買商品的人,受事者是某個要退還的商品,因此1和2的譯文詞是錯誤的。3的譯文詞是正確的,它的詞尾代表著它是一個不定式動詞(infinitive verb),這個不定式動詞是可以有賓語的。在第二個例子中,標號1和2代表復數形式,4代表單數。第三個例子中,3代表過去時,1和2代表現在時。上面的例子中,相比于基于子詞和基于字符的模型,我們的模型可以產生更正確的俄語形態。

總結

我們提出了一種簡單、有效的方法來提高目標端是形態豐富語言(例如“英-俄”)的NMT系統的翻譯質量。在解碼階段的每一個步驟中,首先生成詞干,然后生成詞尾。我們在兩種NMT模型(RNN-based NMT和Transformer)上,和基于子詞(subword)和字符(character)的方法進行了對比,證明了方法的有效性。我們使用了大規模(530萬)和超大規模(5000萬)的語料,在新聞和電子商務兩個領域上進一步這種方法可以帶來穩定的提升。在我們的工作中,詞尾在NMT中***被專門的建模。

團隊:iDst-NLP-翻譯平臺

作者:宋楷/Kai Song(阿里巴巴), 張岳/Yue Zhang(新加坡科技設計大學), 張民/Min Zhang (蘇州大學), 駱衛華/Weihua Luo(阿里巴巴)

會議:AAAI-18

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯:王雪燕 來源: 51CTO
相關推薦

2021-12-09 15:37:50

自動駕駛數據人工智能

2018-12-14 14:30:12

安全檢測布式系測試

2009-06-03 15:38:37

Struts框架RBAC

2024-03-26 09:23:22

自動駕駛軌跡

2018-02-08 08:11:41

2021-06-11 00:11:23

GPS數據協議

2010-03-26 13:34:47

CentOS安裝

2023-07-18 07:23:11

方案payloadrequest

2022-07-07 10:33:27

Python姿勢代碼

2022-06-22 09:44:41

Python文件代碼

2020-12-23 10:10:23

Pythonweb代碼

2017-12-11 10:40:14

2011-02-23 09:35:25

Eclipse遠程調試

2020-12-09 10:15:34

Pythonweb代碼

2023-11-25 20:11:48

APPRFM模型

2018-05-29 09:00:00

LinuxBTFS文件系統

2011-07-04 17:53:48

快速測試

2023-07-06 10:15:38

布隆過濾器優化

2009-12-15 19:18:39

Ruby源代碼

2018-12-29 09:25:05

區塊鏈數據經濟區塊鏈技術
點贊
收藏

51CTO技術棧公眾號

97在线公开视频| 精品少妇人妻一区二区黑料社区| h片在线免费观看| 国产精品亚洲第一| 91av视频在线| 四虎地址8848| 久久精品凹凸全集| 欧美在线综合视频| 女女百合国产免费网站| 三级做a全过程在线观看| 日韩av不卡一区二区| 欧美猛男性生活免费| 受虐m奴xxx在线观看| 日本伊人久久| 欧美色视频在线| 日本韩国欧美在线观看| 日本在线观看免费| 91老师国产黑色丝袜在线| 成人h视频在线| 久久久久亚洲av成人毛片韩| 亚洲九九在线| 亚洲天堂av综合网| 无码国产精品一区二区免费式直播 | 粉嫩aⅴ一区二区三区四区五区| 日本精品久久久久影院| 曰本女人与公拘交酡| 精品久久影视| 日韩av网站电影| 精品人妻一区二区三| 91亚洲视频| 精品美女国产在线| 麻豆md0077饥渴少妇| 国产高清免费av在线| 成人av网站在线观看免费| 国产欧美精品日韩| 亚洲国产精品无码久久久| 1024日韩| 欧美激情区在线播放| 国产喷水在线观看| 欧美一区二区三| 亚洲欧美国产精品久久久久久久 | av中文一区二区三区| 亚洲最大的av网站| 91精品国产色综合久久不8| 丝袜美腿亚洲色图| 欧美孕妇与黑人孕交| 黄色小说在线观看视频| 欧美一区不卡| 不卡中文字幕av| 欧美做爰啪啪xxxⅹ性| 日本一区二区高清不卡| 国产一区二区久久精品| 人妻少妇无码精品视频区| 人妖一区二区三区| 亚洲电影免费观看高清完整版在线| 麻豆网站免费观看| 麻豆国产精品| 精品福利一区二区三区免费视频| 91视频福利网| 一本一道久久a久久| 日韩欧美中文字幕制服| 波多野结衣三级视频| 亚洲精品a区| 精品福利一二区| 国产a级黄色片| 欧美电影在线观看免费| 亚洲精品国产综合区久久久久久久| 好吊操视频这里只有精品| 超碰成人在线免费| 精品视频久久久久久| 公侵犯人妻一区二区三区| 久久99精品久久久久久园产越南| 亚洲欧美中文字幕| 久久免费手机视频| 91精品国产乱码久久久久久久| 久久婷婷国产麻豆91天堂| 青青青在线免费观看| 激情欧美一区二区三区| 欧美孕妇毛茸茸xxxx| 老熟妇一区二区三区啪啪| 久久国产三级精品| 97视频热人人精品| 手机看片福利永久| 国产丝袜欧美中文另类| 在线国产伦理一区| 黑人极品ⅴideos精品欧美棵| 精品露脸国产偷人在视频| 天天爽天天爽夜夜爽| 国产精品美女久久久久人| 日韩精品中文字幕在线一区| 久久人妻一区二区| 成人在线视频免费观看| 久久av在线看| 国语对白永久免费| 狠狠色狠狠色合久久伊人| 国产精品免费一区二区三区在线观看| 天天干视频在线| 亚洲欧美综合在线精品| 欧美 日韩 国产在线观看| 成人国产在线| 亚洲第一级黄色片| 国产主播av在线| 亚洲国产午夜| 国产免费亚洲高清| 性猛交xxxx| 亚洲猫色日本管| 激情六月丁香婷婷| 久久丁香四色| 伊人久久精品视频| 日韩福利片在线观看| 久久精品av麻豆的观看方式| 久久久久久九九九九| 国产三区在线观看| 色婷婷久久99综合精品jk白丝| 伊人成人免费视频| 狠狠综合久久av一区二区蜜桃 | 欧美一级在线观看| 人妻体内射精一区二区| 欧美精品网站| 成人福利在线视频| 国内在线免费高清视频| 亚洲最色的网站| 亚洲美女性囗交| 免费av一区| 国内外成人免费激情在线视频网站| 在线观看国产精品入口男同| 91污在线观看| 女人帮男人橹视频播放| 国产精品一区二区精品| 在线播放日韩欧美| 国产精品乱子伦| 成人综合在线视频| 天天在线免费视频| 日韩精品一页| 日韩中文字幕免费| 看黄色一级大片| 久久综合色天天久久综合图片| 国产在线视频综合| 精品99re| 欧美老女人在线视频| 91亚洲国产成人精品一区| 国产日韩av一区| 午夜精品久久久内射近拍高清| 国产在线播放精品| 欧美激情奇米色| 性生活视频软件| 亚洲精品一二三区| 69久久精品无码一区二区| 国产精品毛片久久| 成人亚洲欧美一区二区三区| 欧美性videos| 欧美丰满少妇xxxbbb| 一级性生活免费视频| 极品少妇xxxx精品少妇偷拍| 一区二区视频在线免费| 四虎视频在线精品免费网址| 俺去亚洲欧洲欧美日韩| 97超碰人人草| 亚洲欧美乱综合| 免费不卡av网站| 欧美1区免费| 国产精品精品软件视频| 国产精品xx| 亚洲乱码av中文一区二区| 日日夜夜狠狠操| 国产农村妇女精品| 欧美女同在线观看| 一区二区电影在线观看| 岛国一区二区三区高清视频| 丰满诱人av在线播放| 亚洲精品456在线播放狼人| 天堂网一区二区三区| 久久久精品人体av艺术| 特级丰满少妇一级| 天天综合网91| 国产精品久久久对白| 性欧美又大又长又硬| 亚洲香蕉成视频在线观看| 亚洲性生活大片| 一区二区三区中文字幕精品精品| 人妖粗暴刺激videos呻吟| 羞羞答答国产精品www一本| 五月天久久狠狠| 精品国产一区二区三区性色av| 欧美黄色片视频| 国产最新视频在线| 91精品国产91久久综合桃花| 日韩伦理在线视频| 中文字幕不卡一区| 亚洲熟女乱综合一区二区| 麻豆久久婷婷| eeuss中文| 日韩精选在线| 91精品综合视频| 小视频免费在线观看| www.欧美精品| 亚洲aaa在线观看| 欧美日韩亚洲国产综合| 日本一区二区网站| 一区精品在线播放| 最新在线黄色网址| 韩国精品一区二区| 久久婷婷国产精品| 欧美精品入口| 亚洲免费视频一区| 欧美一区 二区| 亚洲综合大片69999| 欧美magnet| 欧美激情在线观看视频| 91短视频版在线观看www免费| 亚洲国产成人精品电影| 国产三级视频在线播放| 色综合天天综合网国产成人综合天| 婷婷在线精品视频| 国产精品美日韩| 六月婷婷七月丁香| bt欧美亚洲午夜电影天堂| 99re6在线观看| 玖玖国产精品视频| 欧洲精品一区二区三区久久| 91精品国产成人观看| 色就是色欧美| 九九亚洲视频| 国精产品99永久一区一区| 日本免费一区二区视频| 91精品国产自产在线| 欧美亚洲大片| 青青久久av北条麻妃海外网| 国内高清免费在线视频| 久久精品在线视频| 午夜免费视频在线国产| 亚洲欧美制服另类日韩| 午夜视频福利在线| 精品电影一区二区| 午夜美女福利视频| 91精品国产欧美一区二区成人| 亚洲一卡二卡在线| 欧美日韩午夜在线| 中国一级片黄色一级片黄| 91黄色免费网站| 一级黄色大片视频| 欧美性猛交xxxx乱大交| 日韩在线视频免费播放| 欧美色videos| 日本韩国欧美中文字幕| 欧美性xxxx极品hd欧美风情| 你懂的国产视频| 精品欧美aⅴ在线网站| 黄色激情视频在线观看| 黄色一区二区三区| www.国产一区二区| 在线中文字幕一区| 正在播放亚洲精品| 欧美日韩成人一区| 国产精品探花视频| 欧美一区二区三区播放老司机| 国产丝袜在线视频| 欧美刺激午夜性久久久久久久| 精品国产99久久久久久宅男i| 日韩免费视频一区| 日韩在线观看视频一区| 亚洲国产成人精品电影| 欧美亚洲日本| 伊人亚洲福利一区二区三区| 亚洲视频tv| 伦伦影院午夜日韩欧美限制| 青草av在线| 2021久久精品国产99国产精品| 第84页国产精品| 国产精品嫩草影院久久久| 欧美美女福利视频| 91一区二区三区| 四虎5151久久欧美毛片| 小说区图片区图片区另类灬| 亚洲国产精品91| 日本精品久久久久久久久久| 久久精品日产第一区二区| 欧美男女交配视频| 成人性生交大片免费看中文| 国产熟妇搡bbbb搡bbbb| 中文字幕在线一区免费| 国产黄色片在线免费观看| 精品福利樱桃av导航| 国产无遮挡又黄又爽又色视频| 欧美一级在线视频| 免费成人av电影| 久久这里只有精品99| 午夜影院一区| 成人夜晚看av| 亚洲成人一品| 青青草免费在线视频观看| 国产一级久久| 亚洲一二区在线观看| 99久久精品国产毛片| 妖精视频在线观看免费 | 亚洲天堂男人天堂| 五月花成人网| 国产精品va在线播放| 日韩精品一区二区三区中文 | 亚洲成av人片一区二区梦乃| 国产美女www爽爽爽| 欧美不卡一区二区三区四区| 成人在线观看一区| 久久久女女女女999久久| 国产成人精品一区二区三区视频| 国产精品一区二区在线观看| 欧美gvvideo网站| 亚洲熟妇无码另类久久久| 另类欧美日韩国产在线| 久久精品老司机| 亚洲已满18点击进入久久| 伊人精品一区二区三区| 亚洲精品久久久久久久久| 成人福利片网站| 国产精品欧美在线| 日本国产精品| 女人帮男人橹视频播放| 极品少妇xxxx精品少妇偷拍| 日韩欧美黄色网址| 欧美日韩另类在线| 亚洲免费黄色片| 久久夜色精品亚洲噜噜国产mv| 久久野战av| 乱一区二区三区在线播放| 国语自产精品视频在线看8查询8| 天天操天天干天天做| 国产精品视频你懂的| 成年人av网站| 亚洲美女在线看| 深夜在线视频| 国产欧美日韩在线播放| 欧美不卡在线| 超碰在线资源站| 中文字幕一区二区在线播放| 亚洲高清在线看| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | heyzo高清中文字幕在线| 亚洲最大激情中文字幕| 天天精品视频| 手机精品视频在线| 亚洲欧洲另类国产综合| 伊人色综合久久久| 最新的欧美黄色| 狠狠久久综合| 亚洲综合av一区| 精品制服美女久久| 黄色录像二级片| 欧美一区二区视频在线观看2020 | 国产精品乱码久久久| 精品国产一区久久久| 99tv成人影院| av中文字幕av| 国产精品一区二区视频| 久久久精品人妻一区二区三区四| 日韩免费一区二区| 国产后进白嫩翘臀在线观看视频| 国产精品免费一区二区三区| 亚洲毛片视频| 能免费看av的网站| 色婷婷激情一区二区三区| 欧洲亚洲精品视频| 国产精品视频一区二区三区四| 人人狠狠综合久久亚洲婷| www.99r| 一区二区三区高清| 日本国产在线观看| 日本高清视频一区| 成人写真视频| 永久免费黄色片| 午夜视频在线观看一区二区| 日本1级在线| 国产精品十八以下禁看| 一区二区三区午夜探花| 亚洲一区二区三区四区av| 91久久精品一区二区| 米奇精品一区二区三区| 国产高清精品一区| 久久狠狠一本精品综合网| 任你操精品视频| 精品国免费一区二区三区| 欧美一级大片| www亚洲国产| 91在线视频观看| 在线观看国产精品入口男同| 欧美激情18p| av中文一区| 伦理片一区二区| 欧美色综合网站| 爱情岛论坛亚洲品质自拍视频网站| 日本欧美精品久久久| 国产精品一区久久久久| 欧美日韩乱国产| yellow中文字幕久久| 8848成人影院| 国产三级三级看三级| 亚洲一区二区在线播放相泽 | 狼人精品一区二区三区在线| 中文字幕永久视频| 亚洲成人av一区| 色开心亚洲综合|