Building a Parallel Corpus and Training Translation Models Between Luganda and English 


49권  11호, pp. 1009-1016, 11월  2022
10.5626/JOK.2022.49.11.1009


PDF

  요약

최근 번역 성능을 혁신하고 있는 신경망 기계 번역(NMT)은 대규모 데이터 세트를 필요로 하기 때문에 리소스가 많은 언어를 대상으로 한다. 따라서 Luganda 언어와 같은 병렬 말뭉치 자원이 부족한 언어에는 적용하기 어렵고, "Google 번역"도 이 글을 쓰는 시점에서 Luganda를 지원하지 않고 있다. 이 논문에서 3개의 다른 오픈 소스 말뭉치를 기반으로 Luganda와 영어에 대한 41,070 쌍의 병렬 말뭉치를 구축한다. 그런 다음 하이퍼 변수 검색을 사용하여 NMT 모델을 훈련하고 최고의 모델을 찾는다. 실험결과 Luganda에서 영어로 번역할 때 21.28의 BLEU 점수를 얻었고, 영어에서 Luganda로는 17.47의 BLEU 점수를 얻었다. 또한 일부 번역 예를 보여줌으로써 번역 품질을 확인할 수 있다. 이것은 최초의 Luganda-English NMT 모델이며, 우리가 구축한 Luganda-English 병렬 언어 데이터 세트는 공개할 것이다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

R. Kimera, D. N. Rim, H. Choi, "Building a Parallel Corpus and Training Translation Models Between Luganda and English," Journal of KIISE, JOK, vol. 49, no. 11, pp. 1009-1016, 2022. DOI: 10.5626/JOK.2022.49.11.1009.


[ACM Style]

Richard Kimera, Daniela N. Rim, and Heeyoul Choi. 2022. Building a Parallel Corpus and Training Translation Models Between Luganda and English. Journal of KIISE, JOK, 49, 11, (2022), 1009-1016. DOI: 10.5626/JOK.2022.49.11.1009.


[KCI Style]

Richard Kimera, Daniela N. Rim, Heeyoul Choi, "Building a Parallel Corpus and Training Translation Models Between Luganda and English," 한국정보과학회 논문지, 제49권, 제11호, 1009~1016쪽, 2022. DOI: 10.5626/JOK.2022.49.11.1009.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr