검색 : [ keyword: Hyper-parameter ] (2)

Building a Parallel Corpus and Training Translation Models Between Luganda and English

Richard Kimera, Daniela N. Rim, Heeyoul Choi

http://doi.org/10.5626/JOK.2022.49.11.1009

최근 번역 성능을 혁신하고 있는 신경망 기계 번역(NMT)은 대규모 데이터 세트를 필요로 하기 때문에 리소스가 많은 언어를 대상으로 한다. 따라서 Luganda 언어와 같은 병렬 말뭉치 자원이 부족한 언어에는 적용하기 어렵고, "Google 번역"도 이 글을 쓰는 시점에서 Luganda를 지원하지 않고 있다. 이 논문에서 3개의 다른 오픈 소스 말뭉치를 기반으로 Luganda와 영어에 대한 41,070 쌍의 병렬 말뭉치를 구축한다. 그런 다음 하이퍼 변수 검색을 사용하여 NMT 모델을 훈련하고 최고의 모델을 찾는다. 실험결과 Luganda에서 영어로 번역할 때 21.28의 BLEU 점수를 얻었고, 영어에서 Luganda로는 17.47의 BLEU 점수를 얻었다. 또한 일부 번역 예를 보여줌으로써 번역 품질을 확인할 수 있다. 이것은 최초의 Luganda-English NMT 모델이며, 우리가 구축한 Luganda-English 병렬 언어 데이터 세트는 공개할 것이다.

소프트웨어 결함 예측에 적합한 생성적 적대 신경망 모델 식별 연구

최지원, 이재욱, 류덕산, 김순태

http://doi.org/10.5626/JOK.2022.49.1.52

소프트웨어 결함 예측은 결함이 야기될 모듈을 식별해 한정된 품질 보증 자원을 효과적으로 배분하는데 도움을 준다. 소프트웨어 결함 데이터는 비결함 인스턴스의 수가 결함 인스턴스의 수보다 많은 클래스 불균형 문제를 겪는다. 대부분의 기계 학습에서 특정 클래스의 인스턴스 비율이 한쪽으로 치우치게 되면 결함 예측 성능에 부정적인 영향을 끼친다. 따라서 본 연구에서는 생성적 적대 신경망 모델(Generative Adversarial Network, GAN)을 사용해 클래스 불균형 문제를 해결하고, 결함 예측 성능 향상을 목표로 한다. 이를 위해, 본 연구에서는 여러 종류의 GAN 모델 중 소프트웨어 결함 예측에 적합한 모델은 무엇인지 비교하고, 관련 연구에서 적용하지 않았던 GAN 모델들의 적용성 여부를 확인한다. 본 연구에서는 이미지 생성에 최적화되어 있는 Vanilla-GAN(GAN)과 Conditional GAN(cGAN), Wasserstein GAN(WGAN) 모델을 소프트웨어 결함 예측 데이터에 적합하게 개조한 후, 개조한 GAN과 cGAN, WGAN, Tabular GAN(TGAN), Modeling Tabular data using Conditional GAN(CTGAN)의 성능을 비교 실험한다. 실험 결과, CTGAN 모델이 소프트웨어 결함 예측 데이터에 적합함을 보인다. 또한 CTGAN의 하이퍼파라미터 중 결함 발견율(Recall)을 높이고, 결함 오보율(Probability of False Alarm, PF)를 낮추는 하이퍼파라미터 값은 무엇인지 민감도 분석을 수행한다. 실험 결과, 데이터셋에 따라 하이퍼파라미터를 조정해야 함을 보였다. 우리의 제안한 기법이 소프트웨어 결함 예측의 성능을 향상시켜 한정된 자원을 효과적으로 할당하는데 도움이 될 것이라고 기대한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr