精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌為1000+「長尾」語言創建機器翻譯系統,已支持部分小眾語言

人工智能 新聞
當今世界上有 7000 多種語言,其中只有大約 100 種具有機器翻譯系統,那其他語言怎么辦呢?谷歌正在為這些小眾語言創建通用的機器翻譯系統。

過去十年,學術和商業機器翻譯系統(MT)的質量已經得到了大幅度的提升。這些提升很大程度上得益于機器學習的進展和可用的大規模 web 挖掘數據集。同時,深度學習(DL)和 E2E 模型的出現、從 web 挖掘得到的大型并行單語言數據集、回譯和自訓練等數據增強方法以及大規模多語言建模等帶來了能夠支持超過 100 種語言的高質量機器翻譯系統。

然而,雖然低資源機器翻譯出現了巨大進展,但已經構建廣泛可用且通用的機器翻譯系統的語言被限制在了大約 100 種,顯然它們只是當今全世界使用的 7000 多種語言中的一小部分。除了語言數量受限之外,當前機器翻譯系統所支持的語言的分布也極大地向歐洲語言傾斜。

我們可以看到,盡管人口眾多,但非洲、南亞和東南亞所說的語言以及美洲土著語言相關的服務卻較少。比如,谷歌翻譯支持弗里西亞語、馬耳他語、冰島語和柯西嘉語,以它們為母語的人口均少于 100 萬。相比之下,谷歌翻譯沒有提供服務的比哈爾方言人口約為 5100 萬、奧羅莫語人口約為 2400 萬、蓋丘亞語人口約為 900 萬、提格里尼亞語人口約為 900 萬(2022 年)。這些語言被稱為「長尾」語言,數據缺乏需要應用一些可以泛化到擁有充足訓練數據的語言之外的機器學習技術。

構建這些長尾語言的機器翻譯系統在很大程度上受到可用數字化數據集和語言識別(LangID)模型等 NLP 工具缺失的限制。這些對高資源語言來說卻是無處不在的。

在近日谷歌一篇論文《Building Machine Translation Systems for the Next Thousand Languages》中,二十幾位研究者展示了他們努力構建支持超過 1000 種語言的實用機器翻譯系統的成果。

論文地址:https://arxiv.org/pdf/2205.03983.pdf

具體而言,研究者從以下三個研究領域描述了他們的成果。

第一,通過用于語言識別的半監督預訓練以及數據驅動的過濾技術,為 1500 + 語言創建了干凈、web 挖掘的數據集。

第二,通過用于 100 多種高資源語言的、利用監督并行數據訓練的大規模多語言模型以及適用于其他 1000+ 語言的單語言數據集,為服務水平低下的語言創建了切實有效的機器翻譯模型。

第三,研究這些語言的評估指標存在哪些局限,并對機器翻譯模型的輸出進行定性分析,并重點關注這類模型的幾種常見的誤差模式。

對于致力于為當前研究不足的語言構建機器翻譯系統的從業者,研究者希望這項工作可以為他們提供有用的洞見。此外,研究者還希望這項工作可以引領人們聚焦那些彌補數據稀疏設置下大規模多語言模型弱點的研究方向。

在 5 月 12 日的 I/O 大會上,谷歌宣布自家的翻譯系統新增了 24 種新的語言,其中包括一些小眾的美洲原住民語言,比如前文提到的比哈爾方言、奧羅莫語、蓋丘亞語和提格里尼亞語。

論文概述

這項工作主要分為四大章節展開,這里只對每個章節的內容進行簡要介紹。

創建一個 1000-language 的 web 文本數據集

本章詳細介紹了研究者在為 1500 + 語言爬取單語言文本數據集的過程中采用的方法。這些方法重點在于恢復高精度數據(即高比例的干凈、語言內文本),因此很大一部分是各種各樣的過濾方法。

總的來說,研究者采用的方法包括如下:

  • 從 LangID 模型中刪除訓練數據質量和 LangID 性能差的語言,并訓練一個 1629-language 的 CLD3 LangID 模型和半監督 LangID(SSLID)模型;
  • 按語言在 CLD3 模型中的誤差率進行聚類操作;
  • 使用 CLD3 模型執行第一輪 web 爬取;
  • 使用文檔一致性過濾句子;
  • 使用百分比閾值字列表過濾所有語料庫;
  • 使用半監督 LangID(SSLID)過濾所有語料庫;
  • 使用相對召回率檢測異常值語言,并使用詞頻 - 逆文檔頻率(Term-Frequency-Inverse-Internet-Frequency, TF-IIF)進行過濾;
  • 使用 Token-Frequency Anomalousness 分數檢測異常值語言,并為它們手動設計過濾器;
  • 在句子層面對所有語料庫進行消重操作。

如下為使用 1745-language 的 CLD3 LangID 模型在 web 文本上的文檔一致性得分直方圖。

下表 2 為低資源語言(LRL)完整數據集的單語言數據、用于訓練模型的部分單語言數據以及包括高資源語言在內的完整訓練集的單語言數據統計。

章節目錄如下:

為長尾語言構建機器翻譯模型

對于從 web 挖掘的單語言數據,下一個挑戰是從數量有限的單語言訓練數據中創建高質量的通用機器翻譯模型。為此,研究者采用了這樣一種實用方法,即利用所有可用于更高資源語言的并行數據來提升只有單語言數據可用的長尾語言的質量。他們將這一設置稱為「零資源」(zero-resource),這是因為長尾語言沒有直接的監督。

研究者利用過去幾年為機器翻譯開發的幾種技術來提升長尾語言零資源翻譯的質量。這些技術包括從單語言數據中進行自監督學習、大規模多語言監督學習、大規模回譯和自訓練、高容量模型。他們利用這些工具創建了能夠翻譯 1000 + 種語言的機器翻譯模型,并利用現有覆蓋大約 100 種語言的并行語料庫和從 web 中構建的 1000-language 的單語言數據集。

具體地,研究者首先通過比較 15 億和 60 億參數 Transformers 在零資源翻譯上的性能來強調模型容量在高度多語言模型中的重要性(3.2),然后將自監督語言的數量增加到 1000 種,驗證了隨著來自相似語言中更多單語言數據變得可用,大多數長尾語言的性能也相應提高(3.3)。雖然研究者的 1000-language 模型表現出了合理的性能,但為了了解使用方法的優點和局限性,他們融入了大規模數據增強。

此外,研究者通過自訓練和回譯對包含大量合成數據的 30 種語言的子集上的生成模型進行微調(3.4)。他們進一步描述了過濾合成數據的實用方法以增強這些微調模型對幻覺(hallucinations)和錯誤語言翻譯的穩健性(3.5)。

研究者還使用序列級蒸餾將這些模型提煉成更小、更易于推理的架構,并強調了教師和學生模型之間的性能差距(3.6)。

章節目錄如下:

評估

為了評估自己的機器翻譯模型,研究者首先將英文句子翻譯成了這些語言,為選擇的 38 種長尾語言構建了一個評估集(4.1)。他們強調了 BLEU 在長尾設置中的局限性,并使用 CHRF 評估這些語言(4.2)。

研究者還提出了一個近似的、基于往返(round-trip)翻譯的無參考指標,用來了解模型在參考集不可用的語言上的質量,并報告了以該指標衡量的模型的質量(4.3)。他們對模型在 28 種語言的子集上進行人工評估并報告了結果,確認可以按照文中描述的方法構建有用的機器翻譯系統(4.4)。

為了了解大規模多語言零資源模型的弱點,研究者在幾種語言上進行了定性誤差分析。結果發現,模型經常混淆在分布上相似的單詞和概念,比如「老虎」變成了「小型鱷魚」(4.5)。并且在更低資源的設置下(4.6),模型翻譯 tokens 的能力在出現頻率降低的 tokens 上下降。

研究者還發現,這些模型通常無法準確地翻譯短的或者單個單詞輸入(4.7)。對提煉模型的研究結果表明,所有模型都更有可能放大訓練數據中存在的偏見或噪聲(4.8)。

章節目錄如下:

額外的實驗和注釋

研究者對上述模型進行了一些額外的實驗,表明它們在相似語言之間直接進行翻譯通常效果更好,而不使用英語作為支點(5.1),并且它們可以用于不同 scripts 之間的零樣本音譯(5.2)。

他們描述了一種將終端標點符號附加到任何輸入的實用技巧,稱為「句號技巧」(period trick),可以用它來提升翻譯質量(5.3)。

此外,研究者還證明了這些模型對一些而不是所有語言的非標準 Unicode 字形使用都是穩健的(5.4),并探索了幾種 non-Unicode 字體(5.5)。

章節目錄如下:

想要了解更多研究細節,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-11 22:05:22

機器翻譯谷歌AI

2020-10-27 14:34:42

算法MIT機器翻譯

2020-04-27 10:37:53

機器翻譯腦機接口腦波

2020-12-14 09:22:55

AI 數據人工智能

2023-02-28 12:38:22

谷歌數據集機器翻譯

2024-02-06 17:57:06

Go語言任務

2023-03-03 15:32:21

few-shot大語言模型

2017-11-21 11:05:29

谷歌操作系統Swift

2019-10-12 13:36:43

機器學習人工智能計算機

2020-06-04 09:22:46

谷歌AI翻譯

2014-11-17 15:51:57

機器翻譯應用

2023-07-28 14:43:33

語言Pony編碼

2023-05-11 06:59:40

谷歌AI 聊天機器人

2014-06-23 09:49:32

Go語言Android谷歌

2017-03-22 12:39:33

人工智能機器翻譯

2017-08-21 16:00:14

機器學習機器翻譯

2011-09-15 10:26:08

2017-10-17 14:35:50

谷歌

2020-10-28 10:38:08

谷歌模型機器翻譯

2022-06-13 08:55:01

aardio項目開發
點贊
收藏

51CTO技術棧公眾號

国产福利资源一区| 97久久人人超碰caoprom| 麻豆91在线观看| 久久久av一区| 动漫美女无遮挡免费| 亚洲日本天堂| 亚洲日韩欧美一区二区在线| 国产区欧美区日韩区| 日韩精品一区不卡| 伊人青青综合网| 精品视频www| 红桃视频 国产| 忘忧草在线影院两性视频| 中文字幕在线播放不卡一区| 国产精品区一区| 一区二区久久精品66国产精品| 狠狠噜噜久久| 日韩中文字幕网| 一本色道综合久久欧美日韩精品| 亚洲精品大全| 色偷偷久久一区二区三区| 影音先锋在线亚洲| 午夜国产在线观看| 国产综合久久久久久久久久久久| 日本老师69xxx| 久视频在线观看| 97精品国产一区二区三区| 亚洲国产日韩欧美在线图片| 午夜精品在线免费观看| 老牛影视精品| 亚洲美女淫视频| 亚洲精品一区二区三区樱花 | 日韩精品一区二区三区视频在线观看 | 天天躁日日躁狠狠躁喷水| 精品在线视频一区| 国产精品18久久久久久麻辣| 日韩三级视频在线播放| 99精品视频精品精品视频| 亚洲欧洲在线免费| 日本丰满少妇裸体自慰| 91亚洲精品视频在线观看| 3atv一区二区三区| 中文字幕av专区| 国精产品一区一区三区四川| 天天色综合成人网| 欧美亚洲黄色片| 羞羞污视频在线观看| 国产精品久久久久久久久果冻传媒| 欧美h视频在线| 亚洲av激情无码专区在线播放| 久久精品国产免费| 国产精品尤物福利片在线观看| 五月天婷婷导航| 先锋影音久久| 日韩av免费在线观看| 国产区一区二区三| 另类图片国产| 国产97免费视| 国产精品xxxxxx| 视频精品一区二区| 国产精品久久久久免费a∨| 极品国产91在线网站| 久久久999| 国产精品狠色婷| 亚洲熟妇av乱码在线观看| 日本不卡免费在线视频| 国产欧美最新羞羞视频在线观看| 亚洲在线观看av| 精品一区二区三区免费| 亚洲999一在线观看www| 国产熟女一区二区三区五月婷| 国产在线视频一区二区三区| 91影院在线免费观看视频| va视频在线观看| 成人性生交大片| 另类欧美小说| av影片免费在线观看| 一区在线观看免费| 一道本在线观看视频| 日本在线视频www鲁啊鲁| 亚洲成av人**亚洲成av**| 日韩少妇内射免费播放| 久久99久久久精品欧美| 在线电影一区二区三区| 污网站免费观看| 国产精品三级| 久久国产加勒比精品无码| 日本少妇在线观看| 日av在线不卡| 成人蜜桃视频| 精品99又大又爽又硬少妇毛片| 中文字幕免费不卡| 免费cad大片在线观看| 性孕妇free特大另类| 欧美日韩一区在线观看| 人妻巨大乳一二三区| 亚洲97av| 不卡av日日日| 国产精品suv一区| 国产精品一区二区三区四区| 久久av一区二区三区漫画| 888av在线| 精品久久久久久久久久国产| 一级片视频免费观看| 澳门精品久久国产| 中文字幕久久亚洲| 国产一级性生活| 蜜臀av亚洲一区中文字幕| 超碰国产精品久久国产精品99| 亚洲人妻一区二区三区| 中文字幕亚洲视频| 北条麻妃69av| 九色精品蝌蚪| 亚洲人永久免费| 久久综合亚洲色hezyo国产| 日本不卡高清视频| 国模精品娜娜一二三区| 好吊日视频在线观看| 色综合天天狠狠| 波多野结衣办公室双飞| 99视频精品全国免费| 国产成人一区二| 国产综合在线播放| 亚洲欧美一区二区久久| jizz欧美激情18| 色天下一区二区三区| 色与欲影视天天看综合网| 中文字幕福利视频| 久久久激情视频| r级无码视频在线观看| 91精品麻豆| 中文字幕亚洲综合久久| 无码人妻精品一区二区三区不卡| 不卡一卡二卡三乱码免费网站| 一区二区三区四区视频在线| 刘亦菲一区二区三区免费看| 亚洲第一网中文字幕| 免看一级a毛片一片成人不卡| 蜜臀91精品一区二区三区| 欧美欧美一区二区| 欧美aa在线观看| 亚洲国产精品人人爽夜夜爽| 欧美片一区二区| 国产麻豆精品theporn| 伊人情人网综合| 香蕉久久一区| 日韩最新在线视频| 特级西西444www高清大视频| 久久精品人人做人人爽97| 日本不卡在线观看视频| 色老板在线视频一区二区| 26uuu亚洲伊人春色| 天天干天天爽天天操| 疯狂做受xxxx高潮欧美日本| 成人在线视频免费播放| 一区在线免费| 精品亚洲一区二区三区四区五区高| 草美女在线观看| 日韩国产一区三区| 手机在线看片1024| 国产精品三级视频| 日韩成人av免费| 亚洲女同一区| 成人国产一区二区| 美女av在线免费看| 亚洲图片欧美午夜| 国产又粗又黄又爽| 一区二区三区四区不卡视频| 稀缺呦国内精品呦| 国产免费成人| 视频在线99re| 国产视频一区二| 国a精品视频大全| 全色精品综合影院| 欧美系列在线观看| 99视频只有精品| 成人18精品视频| 37pao成人国产永久免费视频| 国产日产一区 | 99国产精品免费网站| 久久久久久久久国产| 欧美日韩伦理片| 欧美色图天堂网| 久久久久97国产| 久久久电影一区二区三区| www.夜夜爽| 亚洲手机视频| 欧美日韩综合网| 狂野欧美xxxx韩国少妇| 96精品视频在线| 婷婷成人激情| 亚洲国产美女久久久久| 中文字幕日本视频| 一区二区三区四区国产精品| 丰满少妇高潮一区二区| 国产最新精品免费| 欧美v在线观看| 香蕉视频国产精品 | 欧美一级精品| 99九九视频| 国产成人福利夜色影视| 国内精品久久久久久中文字幕| 成人在线观看一区| 亚洲成人黄色网址| 97在线播放免费观看| 狠狠躁夜夜躁人人躁婷婷91 | 激情久久久久久| 色中色综合成人| 日韩欧美四区| 成人av资源| 国产精品美女久久久久| 国产成人在线精品| 国产丝袜视频在线播放| 日韩中文字幕国产| 欧洲综合视频| 亚洲白拍色综合图区| 国产精品污视频| 在线观看不卡视频| 美日韩一二三区| 亚洲国产综合人成综合网站| 91制片厂在线| 亚洲国产精品成人综合色在线婷婷 | 成人网页在线观看| 国产福利精品一区二区三区| 久久黄色影院| 国产中文字幕视频在线观看| 欧美激情日韩| 97精品国产97久久久久久粉红| 国内成人自拍| 国产一区高清视频| 91国内精品| 97影院在线午夜| 国产美女精品视频免费播放软件| 国产精品美女网站| gogo亚洲高清大胆美女人体| 2019中文字幕免费视频| 国产资源在线观看入口av| 欧美另类极品videosbest最新版本| 色网站在线看| 日韩中文字幕在线看| 淫片在线观看| 久久精品91久久香蕉加勒比| 91啦中文在线| 色999日韩欧美国产| 一级毛片视频在线| 日韩最新在线视频| 9191在线播放| 欧美另类极品videosbestfree| 怡红院在线播放| 欧美国产极速在线| 白浆在线视频| 日本老师69xxx| 国产综合色区在线观看| 国产成人一区二区三区小说 | 亚洲毛片av| 国产v片免费观看| 一区二区三区高清视频在线观看| 玩弄中年熟妇正在播放| 久久www成人_看片免费不卡| 日本www在线播放| 日韩精品91亚洲二区在线观看| 999在线免费视频| 麻豆成人久久精品二区三区小说| 亚洲欧美aaa| 国产电影精品久久禁18| 丝袜熟女一区二区三区| 972aa.com艺术欧美| 在哪里可以看毛片| 国产精品久久午夜| 欧美极品aaaaabbbbb| 午夜国产不卡在线观看视频| 最新中文字幕一区| 欧美美女视频在线观看| wwwav在线播放| 日韩精品在线观看视频| h视频在线播放| 欧美高清在线播放| 成人美女黄网站| 国产主播精品在线| 国产精品毛片av| 天堂资源在线亚洲资源| 亚洲综合专区| 国产在线青青草| 久久精品国产免费| 成人手机在线免费视频| 国产人成一区二区三区影院| h色网站在线观看| 天天色图综合网| 中文字幕欧美色图| 亚洲精品一区二区三区香蕉| 女人偷人在线视频| 不卡伊人av在线播放| 婷婷电影在线观看| 亚洲一区中文字幕在线观看| 丝袜美腿一区二区三区动态图| 亚洲午夜久久久影院伊人| 影音先锋久久精品| 中文字幕22页| 久久免费偷拍视频| 麻豆视频在线观看| 欧美三级日韩三级| 午夜视频福利在线| 欧美人交a欧美精品| 99re66热这里只有精品4| 成人免费观看网站| 欧美电影免费| 亚洲爆乳无码专区| 国产不卡在线播放| 国产第一页浮力| 色菇凉天天综合网| 手机看片1024日韩| 欧美成人午夜激情视频| 国产成人精品一区二区三区免费| 国产精品免费在线播放| 国产精品99久久| 波多野结衣作品集| 93久久精品日日躁夜夜躁欧美| 加勒比婷婷色综合久久| 精品久久久久久久大神国产| 亚洲国产精品视频在线| 色综合亚洲精品激情狠狠| 亚洲女色av| 国产精品国产亚洲精品看不卡15| 91影院成人| 男操女免费网站| 久久久久久一二三区| 久久久午夜影院| 欧美变态凌虐bdsm| a级片国产精品自在拍在线播放| 国产精品美女免费| 欧美日韩中文一区二区| 高清在线观看免费| 不卡一区二区中文字幕| 国产大片中文字幕在线观看| 日韩亚洲欧美成人一区| 成人在线播放免费观看| 91久久久国产精品| 久久久五月天| 亚洲图片 自拍偷拍| 《视频一区视频二区| 在线视频免费观看一区| 最近中文字幕日韩精品| 成人黄页网站视频| 亚洲精品乱码久久久久久蜜桃91| 日韩1区2区3区| 国产午夜福利一区| 欧美午夜精品一区| 日本高清视频在线播放| 成人av.网址在线网站| 欧美aaaa视频| 国产福利精品一区二区三区| 最新不卡av在线| av免费在线观看不卡| 色综合视频一区中文字幕| 成人高潮a毛片免费观看网站| 午夜久久久久久久久久久| 国产毛片精品视频| 久久亚洲AV无码| 亚洲激情久久久| 欧美大胆性生话| 神马影院我不卡午夜| 久久电影网站中文字幕| 91嫩草丨国产丨精品| 欧美不卡在线视频| 乱馆动漫1~6集在线观看| 日本欧洲国产一区二区| 蓝色福利精品导航| 五月天婷婷色综合| 亚洲国产精彩中文乱码av在线播放| www.综合网.com| 欧美成人蜜桃| 理论电影国产精品| 久久99久久98精品免观看软件| 精品国产一二三| 高清不卡亚洲| 国产高潮呻吟久久久| a美女胸又www黄视频久久| 精品不卡一区二区| www.色综合| 噜噜噜天天躁狠狠躁夜夜精品| 日韩视频免费在线播放| 亚洲欧美一区二区不卡| 四虎精品在线| 91九色单男在线观看| 宅男噜噜噜66一区二区| 天堂资源在线视频| 欧美白人最猛性xxxxx69交| 不卡av影片| 青青草综合视频| 久久综合狠狠综合| 99免费在线视频| 日韩av手机在线| 国产精品红桃| 色www亚洲国产阿娇yao| 精品毛片乱码1区2区3区 | 欧美三级电影在线观看| 欧美人与动牲性行为| 日韩欧美一区二区三区四区 | 粉嫩精品久久99综合一区| 精品久久五月天|