金龙电子

  • <tr id='uAbJ7G'><strong id='uAbJ7G'></strong><small id='uAbJ7G'></small><button id='uAbJ7G'></button><li id='uAbJ7G'><noscript id='uAbJ7G'><big id='uAbJ7G'></big><dt id='uAbJ7G'></dt></noscript></li></tr><ol id='uAbJ7G'><option id='uAbJ7G'><table id='uAbJ7G'><blockquote id='uAbJ7G'><tbody id='uAbJ7G'></tbody></blockquote></table></option></ol><u id='uAbJ7G'></u><kbd id='uAbJ7G'><kbd id='uAbJ7G'></kbd></kbd>

    <code id='uAbJ7G'><strong id='uAbJ7G'></strong></code>

    <fieldset id='uAbJ7G'></fieldset>
          <span id='uAbJ7G'></span>

              <ins id='uAbJ7G'></ins>
              <acronym id='uAbJ7G'><em id='uAbJ7G'></em><td id='uAbJ7G'><div id='uAbJ7G'></div></td></acronym><address id='uAbJ7G'><big id='uAbJ7G'><big id='uAbJ7G'></big><legend id='uAbJ7G'></legend></big></address>

              <i id='uAbJ7G'><div id='uAbJ7G'><ins id='uAbJ7G'></ins></div></i>
              <i id='uAbJ7G'></i>
            1. <dl id='uAbJ7G'></dl>
              1. <blockquote id='uAbJ7G'><q id='uAbJ7G'><noscript id='uAbJ7G'></noscript><dt id='uAbJ7G'></dt></q></blockquote><noframes id='uAbJ7G'><i id='uAbJ7G'></i>

                歡迎來到北京海天瑞聲科技股份有限公司-海天瑞聲      聯系電話:010-62660053  電子郵件:contact@speechocean.com

                新聞資訊>詳情

                資源 | 囊括歐亞非大陸多種語言的25個平行語料庫數據集(拿走不謝!

                 

                作者:Meiryum Ali

                機器之心編譯

                參與:王淑婷、路


                與大部分機器學習模型一樣,有效的機器翻譯系統需要大量的訓練數據才能產生可讀性強★的結果。平行文◥本翻譯是兩種語言之間的結構化翻譯文本集。此類平行語料庫對訓練機器翻譯算法至關重要。但從哪裏可以獲得這些外語數據集呢?請看下列清單↓↓↓

                機器之心Synced機器翻譯


                平行文本數據集


                Aligned Hansards of the 36th Parliament of Canada:包含英語-法語句對。

                地址:https://www.isi.edu/natural-language/download/hansard/

                European Parliament Proceedings Parallel Corpus 1996-2011:包含 21 種歐洲語言句對。

                地址:http://www.statmt.org/europarl/

                Global Voices Parallel Corpus:新聞門◢戶網站 Global Voices 的內容精選,包括 57 種語言的新聞文本。

                地址:http://casmacat.eu/corpus/global-voices.html

                RATS language identification:包含將近 5400 個小時的阿拉伯語、波斯語、達裏語、普什圖語和烏爾都語電話會話語音,並附有語音分割標註。

                地址:https://catalog.ldc.upenn.edu/LDC2018S10

                Chinese-French Text:包含來自 Chinese Broadcast News 語料庫◥的大約 3 萬漢字子集的法語譯文。

                地址:https://catalog.ldc.upenn.edu/LDC2018T17

                Arabizi Text:自動檢測英語和阿拉伯語混合文本』中◣語碼轉換的訓練數據,包含 522 條推特。

                地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/

                English-Vietnamese Text:包含 50 萬個英語-越南語句對的語料庫。

                地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/

                English-Persian Text:包含超過 20 萬個英語-波斯語對齊句對。

                地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/

                Chinese-English Emails:包含來自電子郵件的 15000 個漢字(相當於 10000 個英文單詞)及其英文參考譯文。

                地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/

                French-Arabic Newspapers:包含 10000 個阿拉伯語單詞和 2 個法語參考譯文的語料庫。源文本是 2013 年 5 月從阿拉伯●版《Le Monde Diplomatique》中收集的文章。

                地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/

                Pashto-French Text:106 個小時的普什圖語錄音的文字記錄及其法語譯文。

                地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/

                German-English Text:手動詞對齊的德語-英語平行☉語料庫。

                地址:https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip

                Turkish-English Text:為 WMT 2018 準備的土耳其語-英語平行語料庫。

                地址:https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534

                UN translation text:6 種不同語言的聯合國翻譯文檔合集。

                地址:http://opus.nlpl.eu/UN.php

                XhosaNavy:南非海軍英語和科薩語平行語料畢竟庫。

                地址:http://opus.nlpl.eu/XhosaNavy.php

                Wikipedia:20 種語言的平行句子語料庫,句子來源於維基百科。

                地址:http://opus.nlpl.eu/Wikipedia.php

                English-Croatian:英語和克羅地亞語平行文本。

                地址:http://opus.nlpl.eu/hrenWaC.php

                Catalan-Spanish:從加泰羅尼亞政府官方刊物中收集的加泰羅尼亞語和西班牙語文檔合集。

                地址:http://opus.nlpl.eu/DOGC.php

                English-Japanese:Wikipedia』s Kyoto Articles 日英雙語語料庫,包含大約 50 萬個人工翻譯的句對。

                地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

                OntoNotes:包含英語、中文╲和阿拉伯語各類文本(新聞、電話會話、網絡日誌、新聞組、廣播、脫口秀)的標註語料庫。

                地址:https://catalog.ldc.upenn.edu/ldc2013t19

                Central Europe Telephone Speech:包含約 44 小時的標註電話語音,捷克和斯洛伐克語。

                地址:https://catalog.ldc.upenn.edu/LDC2018S08

                South Asia Telephone Speech:包含約 118 小時的標註電話語音,孟加拉語、印地語、旁遮普語、泰米爾語和烏爾都語。

                地址:https://catalog.ldc.upenn.edu/LDC2017S14

                Turkish Telephone Speech:包含約 18 小時的土耳其語電話語音。

                地址:https://catalog.ldc.upenn.edu/LDC2017S09

                Chinese Treebank:來自 Chinese newswire、政府文件、雜誌文章和※各種廣播新聞的約 150 萬字標註和解析文本。

                地址:https://catalog.ldc.upenn.edu/LDC2013T21

                Arabic Broadcast News Transcripts:包含 2008 年和 2009 年收集的大約 37 小時∏阿拉伯廣播新聞文字記錄。

                地址:https://catalog.ldc.upenn.edu/LDC2018T14 


                原文鏈接:https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/



                本文為機器之心編譯,轉載請聯系本公眾號獲得授權


                更新時間:2018-11-07

                相關文章