Sylender: 한국어 특성을 반영한 음절 기반 확장 트랜스포머 인코더 모델 


52권  10호, pp. 860-868, 10월  2025
10.5626/JOK.2025.52.10.860


PDF

  요약

음절 단위 토크나이징은 한국어의 언어적 및 문법적 정보를 잘 보존한다는 장점이 있으나, 토큰의 의미적인 정보가 서브워드 토큰보다 적어, 서브워드 방식보다 성능이 떨어지는 경향이 있다. 따라서 본 논문에서는 기존 사전학습 서브워드 모델에 음절 모듈을 추가적으로 결합한 Sylender 모델을 제안한다. Sylender는 기존 서브워드 모델의 각 레이어에 음절 기반 모듈을 병렬적으로 결합한 구조이며 서브워드 임베딩과 음절 임베딩을 함께 사용한다. 이를 통해 언어 모델의 표현력을 유지하면서도, 음절 수준의 정보를 효과적으로 결합해 한국어의 문법 구조 및 형태론적 특성을 효과적으로 반영한다. 제안된 모델은 다양한 한국어 일반 데이터에 대한 실험 결과, Sylender는 대부분의 기존 베이스라인은 물론 일부 태스크에서는 약 2.5배, 1.5배의 파라미터 크기를 가진 대형 모델보다도 우수한 성능을 보였으며, 이는 한국어의 언어적 특성을 반영한 정보 결합 방식이 성능 향상에 매우 효과적임을 입증한다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

Y. Heo, J. Heo, M. Choi, Y. Ko, "Sylender: A Syllable-Enhanced Transformer Encoder Model Incorporating Korean Characteristics," Journal of KIISE, JOK, vol. 52, no. 10, pp. 860-868, 2025. DOI: 10.5626/JOK.2025.52.10.860.


[ACM Style]

Yumin Heo, Jiwon Heo, Minjun Choi, and Youngjoong Ko. 2025. Sylender: A Syllable-Enhanced Transformer Encoder Model Incorporating Korean Characteristics. Journal of KIISE, JOK, 52, 10, (2025), 860-868. DOI: 10.5626/JOK.2025.52.10.860.


[KCI Style]

허유민, 허지원, 최민준, 고영중, "Sylender: 한국어 특성을 반영한 음절 기반 확장 트랜스포머 인코더 모델," 한국정보과학회 논문지, 제52권, 제10호, 860~868쪽, 2025. DOI: 10.5626/JOK.2025.52.10.860.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr