검색 : [ keyword: machine translation ] (12)

자연어 처리에서 대조 학습을 이용한 적대적 훈련

다니엘라 림, 허동녕, 최희열

http://doi.org/10.5626/JOK.2025.52.1.52

자연어 처리(NLP)에서는 유사한 입력이 의미적으로 유사한 결과를 내도록 적대적 학습이 연구되어왔다. 그러나 언어에는 의미적 유사성에 대한 객관적인 척도가 없기 때문에, 기존 연구에서는 이러한 유사성을 보장하기 위해 외부의 사전 학습된 NLP 모델을 사용하여 많은 메모리를 소비하는 추가 학습 단계를 도입했다. 이 연구에서는 대조 학습을 이용해 언어 처리 모델을 적대적으로 훈련하는 적대적 학습(ATCL)을 제안한다. 핵심 아이디어는 빠른 경사 방법(FGM)을 통해 입력의 임베딩 공간에 선형의 변화를 만들고 대조 학습을 통해 원래 표현과 변화된 표현을 가깝게 유지하도록 훈련한다. 언어 모델링과 신경망 기계 번역 작업에 ATCL을 적용한 결과, 개선된 정량적(PPL 및 BLEU) 점수를 보여준다. 또한 시뮬레이션을 통해 ATCL은 사전 학습된 모델을 사용하지 않고도 두 작업 모두에서 의미 수준에서 우수한 정성적 결과를 달성한다.

Mini-Batching with Similar-Length Sentences to Quickly Train NMT Models

Daniela N. Rim, Richard Kimera, Heeyoul Choi

http://doi.org/10.5626/JOK.2023.50.7.614

Transformer 모델은 Neural Machine Translation과 같은 자연 언어 처리 작업에 혁명을 일으켰고, 아키텍처 연구에 많은 노력을 통해 효율성과 정확성을 높여왔다. 개선을 위한 잠재적인 영역 중 하나는 Transformer가 사용하지 않을 빈 토큰의 계산 횟수를 줄여 불필요한 계산 부담을 줄이는 것이다. 계산 부담을 줄이는 방법으로, 우리는 데이터 로더에서 mini-batch 를 만들기 전에, 길이에 따라 번역 문장 쌍을 정렬한 뒤 유사한 길이의 문장들로 mini-batch 를 구성함으로써 계산 능력의 낭비를 최소화하는 방법을 제안한다. 이때, 정렬의 양은 독립적이고 동일하게 분포 된 (i.i.d) 데이터 가정을 위반 할 수 있으므로 부분 정렬한다. 실험에서 영어-한국어 및 영어-루간다 언어 쌍에 적용하여 기계 번역을 수행했고, 번역 성능을 유지하면서 계산 시간에 이득이 있음을 확인했다. 제안된 방법은 모델 구조와 독립적이여서 다양한 길이를 갖는 데이터로부터 학습하는 경우에 쉽게 사용될 수 있다.

군집 알고리즘과 NSP를 이용한 문서 단위 기계 번역 데이터 증강

김도경, 이창기

http://doi.org/10.5626/JOK.2023.50.5.401

최근 전체 문서의 문맥을 파악해 자연스러운 번역을 하기 위한 문서 단위 기계 번역 연구가 활발히 이루어지고 있다. 문서 단위 기계 번역 모델의 학습을 위해서 문장 단위 기계 번역 모델과 마찬가지로 많은 양의 학습 데이터가 필요로 하지만 대량의 문서 단위 병렬 코퍼스를 구축하는 데 큰 어려움이 있다. 따라서 본 논문에서는 문서 단위 병렬 코퍼스 부족 현상을 개선하기 위해서 문서 단위 기계 번역에 효과적인 데이터 증강 기법을 제안한다. 실험 결과, 문맥이 없는 문장 단위 병렬 코퍼스에 군집 알고리즘과 NSP를 이용한 데이터 증강 기법을 적용하여 문서 단위 기계 번역의 성능을 데이터 증강 기법 적용 전에 비해 S-BLEU 3.0, D-BLEU 2.7 향상할 수 있었다.

비지도 기계 번역을 이용한 채팅체 문체 변환

정영준, 이창기, 황정인, 노형종

http://doi.org/10.5626/JOK.2023.50.1.19

문체 변환(style transfer)은 소스 문체(source style)로 쓰여진 텍스트가 주어지면 내용(content)을 유지하면서 타겟 문체(target style)의 텍스트를 생성하는 작업이다. 일반적으로 내용은 불변성(invariance), 문체는 가변성(variance)이라고 가정하여 텍스트의 문체를 변환하게 된다. 하지만, 채팅체의 경우 기존의 문체 변환 모델로 학습이 잘 안 되는 문제가 있다. 본 논문에서는 비지도 기계 번역(unsupervised machine translation)을 이용한 문체 변환 모델을 사용하여 채팅체를 문어체로 변환하는 방법을 제안한다. 또한, 변환된 결과를 활용하여 문체 변환에 사용될 수 있는 문체 간 단어 변환 사전을 구축할 수 있음을 보인다. 추가로, 변환된 결과 쌍에 대해 잘 변환된 결과만 사용할 수 있도록 필터링 방법을 적용하고, 필터링 된 결과를 이용한 지도 학습 방법으로 문체 변환 모델을 학습하여 변환 결과가 개선됨을 보인다.

한국어 자모 단위 구성과 높임말을 반영한 한영 신경 기계 번역

김정희, 허재무, 김주환, 최희열

http://doi.org/10.5626/JOK.2022.49.11.1017

최근 딥러닝은 기계 번역의 성능을 향상시켜왔지만, 언어별 특성을 반영하지 못하는 경우가 대부분이다. 특별히, 한국어의 경우 단어와 표현에 있어서 독특한 특징들이 오번역을 일으킬 수 있다. 예를 들어, 구글 번역은 한국어 문장의 명사에 종성 형태로 조사가 결합하여 오역하는 경우가 존재하며, 여러 영어 문장이 입력되면 존댓말과 반말이 혼용된 일관성 없는 한국어 문장들을 출력한다. 이는 한국어 단어의 ‘자모 단위 구성’과 ‘존댓말과 반말 간의 구분’이라는 특성이 반영되지 않아 생기는 문제이다. 본 논문에서는 이를 해결하기 위해 번역 모델에 사용하는 서브워드를 자모 단위로 구성하고, 코퍼스 문장들에서 존댓말과 반말을 통일하여 모델을 학습하는 것을 제안한다. 실험에서 제안된 방법의 성능을 검증하기 위해 기존 방법 및 코퍼스와 비교한 결과 위 문제들을 해결하면서 BLEU 점수에서 기존과 유사하거나 소폭 향상된 것을 확인했다.

Building a Parallel Corpus and Training Translation Models Between Luganda and English

Richard Kimera, Daniela N. Rim, Heeyoul Choi

http://doi.org/10.5626/JOK.2022.49.11.1009

최근 번역 성능을 혁신하고 있는 신경망 기계 번역(NMT)은 대규모 데이터 세트를 필요로 하기 때문에 리소스가 많은 언어를 대상으로 한다. 따라서 Luganda 언어와 같은 병렬 말뭉치 자원이 부족한 언어에는 적용하기 어렵고, "Google 번역"도 이 글을 쓰는 시점에서 Luganda를 지원하지 않고 있다. 이 논문에서 3개의 다른 오픈 소스 말뭉치를 기반으로 Luganda와 영어에 대한 41,070 쌍의 병렬 말뭉치를 구축한다. 그런 다음 하이퍼 변수 검색을 사용하여 NMT 모델을 훈련하고 최고의 모델을 찾는다. 실험결과 Luganda에서 영어로 번역할 때 21.28의 BLEU 점수를 얻었고, 영어에서 Luganda로는 17.47의 BLEU 점수를 얻었다. 또한 일부 번역 예를 보여줌으로써 번역 품질을 확인할 수 있다. 이것은 최초의 Luganda-English NMT 모델이며, 우리가 구축한 Luganda-English 병렬 언어 데이터 세트는 공개할 것이다.

문법 정확도 평가(GAE): 기계 번역 모델의 정량화된 정성 평가

박도준, 장영진, 김학수

http://doi.org/10.5626/JOK.2022.49.7.514

자연어 생성은 시스템의 계산 결과를 사람의 언어로 표현하는 작업을 의미한다. 이와 같은 자연어 생성 모델은 정량 평가만으로 생성된 문장의 품질을 대변할 수 없기 때문에 사람이 주관적인 기준에 따라 문장의 의미나 문법 점수를 매기는 정성 평가도 같이 사용하여 생성된 문장의 품질을 평가한다. 기존의 정성 평가는 주로 문법 적합도, 의미 적합도를 지표로 사용했으나, 평가자의 기준에 따라 큰 점수 편차가 발생하는 문제점이 존재했다. 따라서 본 논문에서는 구체적인 점수 기준을 제공해 줄 수 있는 문법정확도 평가(Grammar Accuracy Evaluation, GAE) 방법을 제안한다. 본 논문에서는 기계 번역 모델의 번역 품질을 BLEU와 GAE를 통해 분석하였다. 분석 결과 BLEU 지표로 측정된 점수가 모델의 절대적인 성능을 대변하지 않음을 확인하였으며, GAE 지표를 통해 동의어로 대체된 어휘 및 문장 구조의 변화를 오답으로 평가한 BLEU 지표의 단점이 보완됨을 확인하였다.

고유명사 기호화를 통한 신경망기반 한영 번역

김명진, 남준영, 정희석, 최희열

http://doi.org/10.5626/JOK.2021.48.10.1084

신경 기계 번역 분야는 딥러닝의 발전과 함께 성능이 발전하고 있지만, 이름, 신조어, 특정 그룹 내에서만 통용되는 단어 등과 같이 고유명사들이 들어간 문장의 번역이 정확하지 않은 경우들이 있다. 본 논문은 고유명사가 들어간 문장의 번역 성능 개선을 위해 최근 제안된 번역 모델인 Transformer Model에 추가적으로 한영 고유명사 사전과 고유명사 기호화 방식을 사용한다. 제안된 방식은 학습에 사용되는 문장의 단어들 중 일부를 고유명사 사전을 이용하여 기호화하고, 기호화된 단어들을 포함한 문장들로 번역 모델을 학습시킨다. 새로운 문장 번역시에도 고유명사 사전을 이용하여 기호화하고 번역후 복호화 하는 방식으로 번역을 완성한다. 제안된 방식의 성능을 검증하기 위해 고유명사 기호화를 사용하지 않은 모델과 함께 비교 실험하였고, BLEU 점수를 통해 수치적으로 개선되는 경우들도 확인했으며, 몇가지 번역 사례들도 상용서비스 결과들과 함께 제시했다.

MASS와 상대 위치 표현을 이용한 영어-한국어 신경망 기계 번역

정영준, 박천음, 이창기, 김준석

http://doi.org/10.5626/JOK.2020.47.11.1038

신경망 기계 번역(Neural Machine Translation)은 주로 지도 학습(supervised learning)을 이용하는 Sequence-to-Sequence 모델에 대한 연구가 이루어지고 있다. 그러나, 지도 학습 방법은 데이터가 부족한 경우에는 낮은 성능을 보이기 때문에, 최근에는 BERT와 MASS 같은 대량의 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)을 하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 언어 생성(language generation) 작업을 위한 사전학습 방법을 사용하는 MASS 모델을 영어-한국어 기계 번역에 적용하였다. 실험 결과, MASS 모델을 이용한 영어-한국어 기계 번역 모델의 성능이 기존 모델들보다 좋은 성능을 보였고, 추가로 MASS 모델에 상대 위치 표현 방법을 적용하여 기계 번역 모델의 성능을 개선하였다.

딥러닝을 이용한 화합물-단백질 상호작용 예측

서상민, 안재균

http://doi.org/10.5626/JOK.2019.46.10.1054

화합물과 단백질 간의 상호작용을 특성화하는 것은 약물 개발 및 탐색을 위해 중요한 과정이다. 상호작용을 파악하기 위해 단백질과 화합물의 구조 데이터를 이용하지만 그 구조가 알려져 있지 않은 경우도 많으며, 많은 계산 양으로 인해 예측의 속도와 정확도도 떨어질 수 있다는 한계가 있다. 본 논문에서는 기계번역에서 사용되는 sequence-to-sequence 알고리즘과 입력벡터를 효과적으로 축소시키기 위한 오토 인코더를 결합한 모델인 S2SAE (Sequence-To-Sequence Auto-Encoder)를 이용하여 화합물-단백질 상호작용을 예측하였다. 본 논문에서 제안한 방법은 기존의 복합체를 나타내는 표현들보다 적은 수의 특징들을 이용하여 상호작용을 예측할 수 있으며, 기존의 방법보다 높은 예측 정확도를 보여주었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr