디지털 라이브러리[ 검색결과 ]
Mini-Batching with Similar-Length Sentences to Quickly Train NMT Models
Daniela N. Rim, Richard Kimera, Heeyoul Choi
http://doi.org/10.5626/JOK.2023.50.7.614
Transformer 모델은 Neural Machine Translation과 같은 자연 언어 처리 작업에 혁명을 일으켰고, 아키텍처 연구에 많은 노력을 통해 효율성과 정확성을 높여왔다. 개선을 위한 잠재적인 영역 중 하나는 Transformer가 사용하지 않을 빈 토큰의 계산 횟수를 줄여 불필요한 계산 부담을 줄이는 것이다. 계산 부담을 줄이는 방법으로, 우리는 데이터 로더에서 mini-batch 를 만들기 전에, 길이에 따라 번역 문장 쌍을 정렬한 뒤 유사한 길이의 문장들로 mini-batch 를 구성함으로써 계산 능력의 낭비를 최소화하는 방법을 제안한다. 이때, 정렬의 양은 독립적이고 동일하게 분포 된 (i.i.d) 데이터 가정을 위반 할 수 있으므로 부분 정렬한다. 실험에서 영어-한국어 및 영어-루간다 언어 쌍에 적용하여 기계 번역을 수행했고, 번역 성능을 유지하면서 계산 시간에 이득이 있음을 확인했다. 제안된 방법은 모델 구조와 독립적이여서 다양한 길이를 갖는 데이터로부터 학습하는 경우에 쉽게 사용될 수 있다.
한국어 자모 단위 구성과 높임말을 반영한 한영 신경 기계 번역
http://doi.org/10.5626/JOK.2022.49.11.1017
최근 딥러닝은 기계 번역의 성능을 향상시켜왔지만, 언어별 특성을 반영하지 못하는 경우가 대부분이다. 특별히, 한국어의 경우 단어와 표현에 있어서 독특한 특징들이 오번역을 일으킬 수 있다. 예를 들어, 구글 번역은 한국어 문장의 명사에 종성 형태로 조사가 결합하여 오역하는 경우가 존재하며, 여러 영어 문장이 입력되면 존댓말과 반말이 혼용된 일관성 없는 한국어 문장들을 출력한다. 이는 한국어 단어의 ‘자모 단위 구성’과 ‘존댓말과 반말 간의 구분’이라는 특성이 반영되지 않아 생기는 문제이다. 본 논문에서는 이를 해결하기 위해 번역 모델에 사용하는 서브워드를 자모 단위로 구성하고, 코퍼스 문장들에서 존댓말과 반말을 통일하여 모델을 학습하는 것을 제안한다. 실험에서 제안된 방법의 성능을 검증하기 위해 기존 방법 및 코퍼스와 비교한 결과 위 문제들을 해결하면서 BLEU 점수에서 기존과 유사하거나 소폭 향상된 것을 확인했다.
Building a Parallel Corpus and Training Translation Models Between Luganda and English
Richard Kimera, Daniela N. Rim, Heeyoul Choi
http://doi.org/10.5626/JOK.2022.49.11.1009
최근 번역 성능을 혁신하고 있는 신경망 기계 번역(NMT)은 대규모 데이터 세트를 필요로 하기 때문에 리소스가 많은 언어를 대상으로 한다. 따라서 Luganda 언어와 같은 병렬 말뭉치 자원이 부족한 언어에는 적용하기 어렵고, "Google 번역"도 이 글을 쓰는 시점에서 Luganda를 지원하지 않고 있다. 이 논문에서 3개의 다른 오픈 소스 말뭉치를 기반으로 Luganda와 영어에 대한 41,070 쌍의 병렬 말뭉치를 구축한다. 그런 다음 하이퍼 변수 검색을 사용하여 NMT 모델을 훈련하고 최고의 모델을 찾는다. 실험결과 Luganda에서 영어로 번역할 때 21.28의 BLEU 점수를 얻었고, 영어에서 Luganda로는 17.47의 BLEU 점수를 얻었다. 또한 일부 번역 예를 보여줌으로써 번역 품질을 확인할 수 있다. 이것은 최초의 Luganda-English NMT 모델이며, 우리가 구축한 Luganda-English 병렬 언어 데이터 세트는 공개할 것이다.
고유명사 기호화를 통한 신경망기반 한영 번역
http://doi.org/10.5626/JOK.2021.48.10.1084
신경 기계 번역 분야는 딥러닝의 발전과 함께 성능이 발전하고 있지만, 이름, 신조어, 특정 그룹 내에서만 통용되는 단어 등과 같이 고유명사들이 들어간 문장의 번역이 정확하지 않은 경우들이 있다. 본 논문은 고유명사가 들어간 문장의 번역 성능 개선을 위해 최근 제안된 번역 모델인 Transformer Model에 추가적으로 한영 고유명사 사전과 고유명사 기호화 방식을 사용한다. 제안된 방식은 학습에 사용되는 문장의 단어들 중 일부를 고유명사 사전을 이용하여 기호화하고, 기호화된 단어들을 포함한 문장들로 번역 모델을 학습시킨다. 새로운 문장 번역시에도 고유명사 사전을 이용하여 기호화하고 번역후 복호화 하는 방식으로 번역을 완성한다. 제안된 방식의 성능을 검증하기 위해 고유명사 기호화를 사용하지 않은 모델과 함께 비교 실험하였고, BLEU 점수를 통해 수치적으로 개선되는 경우들도 확인했으며, 몇가지 번역 사례들도 상용서비스 결과들과 함께 제시했다.