디지털 라이브러리[ 검색결과 ]
한국어 자모 단위 구성과 높임말을 반영한 한영 신경 기계 번역
http://doi.org/10.5626/JOK.2022.49.11.1017
최근 딥러닝은 기계 번역의 성능을 향상시켜왔지만, 언어별 특성을 반영하지 못하는 경우가 대부분이다. 특별히, 한국어의 경우 단어와 표현에 있어서 독특한 특징들이 오번역을 일으킬 수 있다. 예를 들어, 구글 번역은 한국어 문장의 명사에 종성 형태로 조사가 결합하여 오역하는 경우가 존재하며, 여러 영어 문장이 입력되면 존댓말과 반말이 혼용된 일관성 없는 한국어 문장들을 출력한다. 이는 한국어 단어의 ‘자모 단위 구성’과 ‘존댓말과 반말 간의 구분’이라는 특성이 반영되지 않아 생기는 문제이다. 본 논문에서는 이를 해결하기 위해 번역 모델에 사용하는 서브워드를 자모 단위로 구성하고, 코퍼스 문장들에서 존댓말과 반말을 통일하여 모델을 학습하는 것을 제안한다. 실험에서 제안된 방법의 성능을 검증하기 위해 기존 방법 및 코퍼스와 비교한 결과 위 문제들을 해결하면서 BLEU 점수에서 기존과 유사하거나 소폭 향상된 것을 확인했다.
채팅 대화의 구문적 특성을 이용한 크로스-텍스팅 방지 시스템
http://doi.org/10.5626/JOK.2021.48.6.639
크로스-텍스팅(cross-texting)은 실수로 의도하지 않은 상대방에게 메시지를 잘못 전송하는 것을 말한다. 다수의 상대방과 동시에 대화할 때 빈번하게 발생하는 문제로, 메신저에서는 주로 발송 취소라는 기능을 제공하지만 이는 사후 해결책에 해당하며, 사용자가 사전에 실수를 방지하기는 어렵다. 본 논문에서는 채팅 문장의 형식적 특징을 분석하여 크로스-텍스팅을 탐지하는 모델을 제안했다. 채팅 문장에서 높임법, 표층적 완성도 자질을 추출해 특정 사용자의 이전 대화를 모델링하고, 현재 주어진 문장이 사용자 대화 모델에 부합하는지 여부로 크로스-텍스팅을 탐지한다. 이와 같은 방법은 사용자의 채팅 태도의 일관성을 모델링함으로써 의미 분석을 하지 않고 형식적 자질만으로 문제를 해결한데 의의가 있다. 본 논문에서 구현한 시스템으로 실제 메신저 대화 말뭉치를 이용해 자동으로 생성한 데이터에서 85.5% 정확도로 크로스-텍스팅을 탐지할 수 있음을 확인하였다.