트랜스포머 모델을 이용한 한국어에서의 숫자 정규화

천재윤; 조찬송; 이정필; 구명완

트랜스포머 모델을 이용한 한국어에서의 숫자 정규화

48권 5호, pp. 510-517, 5월 2021

10.5626/JOK.2021.48.5.510

PDF

요약

한국어의 정규화 작업은 음성 합성 시스템을 위한 텍스트 전처리 과정에서 중요한 요소이다. 특히 한국어에서 숫자는 문맥 요소에 의해 다양하게 읽히므로 숫자를 한국어로 바꾸는 정규화 기술의 성능이 시스템의 성능과 직결된다. 그러나 이와 같은 한국어에서의 숫자 정규화는 논의된 바가 많지 않으며 기존 모델은 규칙에 기반하고 있어 다양한 맥락에서의 숫자를 한국어로 정규화 하는데 한계를 보인다. 이에 본 논문은 딥러닝을 기반으로 한 한국어에서의 숫자 정규화 모델을 제안한다. 제안 모델은 문장의 음절을 입력으로 하는 시퀀스 투 시퀀스 트랜스포머 모델을 사용하였으며 긴 숫자에 대한 정보로써 숫자 자릿수 인코딩을 결합하였다. 성능 비교를 위해 일반적인 숫자, 새로운 숫자, 비표준적 숫자, 긴 숫자 테스트셋을 사용하여 실험하였다. 그 결과 제안 모델이 규칙 기반 모델과 비교해 일반 테스트셋에서 2%, 비표준적 테스트셋에서 19% 이상의 성능 향상이 있었다. 또한 숫자 자릿수 인코딩을 결합한 제안 모델이 다른 딥러닝 모델에 비해 긴 숫자 정규화에 13% 높은 성능을 보였다.

통계

2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.

논문 참조

[IEEE Style]

J. Chun, C. Jo, J. Lee, M. Koo, "Number Normalization in Korean Using the Transformer Model," Journal of KIISE, JOK, vol. 48, no. 5, pp. 510-517, 2021. DOI: 10.5626/JOK.2021.48.5.510.

[ACM Style]

Jaeyoon Chun, Chansong Jo, Jeongpil Lee, and Myoung-Wan Koo. 2021. Number Normalization in Korean Using the Transformer Model. Journal of KIISE, JOK, 48, 5, (2021), 510-517. DOI: 10.5626/JOK.2021.48.5.510.

[KCI Style]

천재윤, 조찬송, 이정필, 구명완, "트랜스포머 모델을 이용한 한국어에서의 숫자 정규화," 한국정보과학회 논문지, 제48권, 제5호, 510~517쪽, 2021. DOI: 10.5626/JOK.2021.48.5.510.

[Endnote/Zotero/Mendeley (RIS)] Download

[BibTeX] Download

Search

Journal of KIISE

ISSN : 2383-630X(Print)
ISSN : 2383-6296(Electronic)
KCI Accredited Journal

사무국

Tel. +82-2-588-9240
Fax. +82-2-521-1352
E-mail. chwoo@kiise.or.kr

정보과학회논문지

정보과학회논문지

트랜스포머 모델을 이용한 한국어에서의 숫자 정규화

Search

사무국