디지털 라이브러리[ 검색결과 ]
Building a Parallel Corpus and Training Translation Models Between Luganda and English
Richard Kimera, Daniela N. Rim, Heeyoul Choi
http://doi.org/10.5626/JOK.2022.49.11.1009
최근 번역 성능을 혁신하고 있는 신경망 기계 번역(NMT)은 대규모 데이터 세트를 필요로 하기 때문에 리소스가 많은 언어를 대상으로 한다. 따라서 Luganda 언어와 같은 병렬 말뭉치 자원이 부족한 언어에는 적용하기 어렵고, "Google 번역"도 이 글을 쓰는 시점에서 Luganda를 지원하지 않고 있다. 이 논문에서 3개의 다른 오픈 소스 말뭉치를 기반으로 Luganda와 영어에 대한 41,070 쌍의 병렬 말뭉치를 구축한다. 그런 다음 하이퍼 변수 검색을 사용하여 NMT 모델을 훈련하고 최고의 모델을 찾는다. 실험결과 Luganda에서 영어로 번역할 때 21.28의 BLEU 점수를 얻었고, 영어에서 Luganda로는 17.47의 BLEU 점수를 얻었다. 또한 일부 번역 예를 보여줌으로써 번역 품질을 확인할 수 있다. 이것은 최초의 Luganda-English NMT 모델이며, 우리가 구축한 Luganda-English 병렬 언어 데이터 세트는 공개할 것이다.
사전 학습 언어 모델의 미세 튜닝을 활용한 버그 담당자 추천 기법
http://doi.org/10.5626/JOK.2022.49.11.987
최근 소프트웨어의 규모와 복잡성이 지속해서 증가하고 있으며, 이는 다양한 버그를 유발하고 있다. 이에 따라 체계적 버그 관리의 필요성이 지속해서 제기되고 있다. 산업계에서는 다수의 연구들은 단어 기반의 학습 모델을 이용하여 버그 담당자 배정을 자동화하는 방법을 제시하였다. 하지만 이들은 대체로 단어 맥락 미고려, 클래스 개수 과다 등의 요인으로 정확도가 만족스럽지 못한 성능을 보인다. 본 논문에서는 BERT 및 이를 기반으로 한 RoBERTa, DeBERTa, CodeBERT등을 기반으로 사전 학습 언어 모델을 파인 튜닝하여 Top-10 정확도 기준 약 27%p의 정확도 향상을 이루어 냈으며, 결과적으로 약 70%의 정확도를 보이는 것을 실험을 통해 확인하였다. 이를 통해 파인 튜닝된 사전 학습 언어 모델 기반의 접근 방법이 버그 담당자 배정 자동화 문제에 효과적으로 적용될 수 있음을 보였다.
OANet: 데이터베이스 성능 예측을 위한 주의관심 메커니즘 기반 Ortho-Attention Net
http://doi.org/10.5626/JOK.2022.49.11.1026
데이터베이스에는 수정할 수 있는 다양한 매개변수들이 있는데, 이를 Knob이라 한다. Knob들의 설정에 따라 데이터베이스의 성능이 상이하기 때문에 데이터베이스의 Knob을 튜닝 하는 것이 중요하다. 이 때 Knob 설정에 따른 데이터베이스 성능을 신뢰할 수 있고 신속하게 예측할 수 있는 모델이 필요하다. 하지만 Knob 설정이 같더라도 벤치마크를 수행하는 워크로드가 다른 경우 그 결과가 다를 수 있다. 따라서 본 논문에서는 주의관심 메커니즘을 기반으로 한 OANet을 제안함으로써 Knob뿐만 아니라 워크로드와 Knob 간의 연관성도 고려할 수 있도록 하였다. 그리고 제안한 모델의 성능을 확인하기 위해 기존에 사용하던 기계학습 기법들과 데이터베이스의 성능 예측 결과를 비교하였고 가장 높은 결과를 보임으로써 모델의 우수성을 검증하였다.
한국어 자모 단위 구성과 높임말을 반영한 한영 신경 기계 번역
http://doi.org/10.5626/JOK.2022.49.11.1017
최근 딥러닝은 기계 번역의 성능을 향상시켜왔지만, 언어별 특성을 반영하지 못하는 경우가 대부분이다. 특별히, 한국어의 경우 단어와 표현에 있어서 독특한 특징들이 오번역을 일으킬 수 있다. 예를 들어, 구글 번역은 한국어 문장의 명사에 종성 형태로 조사가 결합하여 오역하는 경우가 존재하며, 여러 영어 문장이 입력되면 존댓말과 반말이 혼용된 일관성 없는 한국어 문장들을 출력한다. 이는 한국어 단어의 ‘자모 단위 구성’과 ‘존댓말과 반말 간의 구분’이라는 특성이 반영되지 않아 생기는 문제이다. 본 논문에서는 이를 해결하기 위해 번역 모델에 사용하는 서브워드를 자모 단위로 구성하고, 코퍼스 문장들에서 존댓말과 반말을 통일하여 모델을 학습하는 것을 제안한다. 실험에서 제안된 방법의 성능을 검증하기 위해 기존 방법 및 코퍼스와 비교한 결과 위 문제들을 해결하면서 BLEU 점수에서 기존과 유사하거나 소폭 향상된 것을 확인했다.
협동 로봇 센싱 데이터의 특징 클러스터 기반 학습 모델 성능 평가 기법
http://doi.org/10.5626/JOK.2022.49.10.824
최근 스마트팩토리의 대표 설비 기기인 협동 로봇의 건전성 관리 기술(PHM)에 인공지능 모델을 접목하려는 시도가 이어지고 있다. 그러나 일반적인 모델은 테스트 프로그램을 운영하여 수집한 센싱 데이터를 전처리하거나 분석하지 않고 휴리스틱한 방식으로 개발되고 있다. 따라서 본 논문에서는 협동 로봇에서 수집된 주기를 가지는 시계열 센싱 데이터의 특징을 분석할 수 있는 특징 클러스터 기반 학습 모델 성능 평가 방법을 제안한다. 제안하는 방법의 효용성을 검증하기 위해 모션 결함 검출 네트워크의 내부 구성 요소인 프로그램 분류 모델에 적용하여, 기존의 평가 방식에서는 드러나지 않던 학습 성능 저하의 원인이 되는 데이터의 특징을 확인하였다. 이러한 결과는 학습 모델의 성능에 대한 정성적인 평가를 가능하게 하며, 학습 모델 개선에 대한 방향성을 제공한다.
비지도 학습 기반의 VNF 이상 탐지 방법
http://doi.org/10.5626/JOK.2022.49.9.780
가상화 기술을 네트워크에 적용하면 하드웨어 의존성을 줄일 수 있으며, 상황에 맞는 유연한 제어 및 관리가 가능하다. 또한 Capital Expenditure(CAPEX)와 Operating Expenditure(OPEX)를 감소시킬 수 있기 때문에 현대의 통신 사업자나 서비스 제공업체는 Software-Defined Networking(SDN)과 Network Function Virtualization(NFV) 기술을 활용해 기존의 서비스를 효율적으로 제공하고 있다. SDN/NFV 기술이 널리 사용됨에 따라 Vitualized Network Function(VNF)에 대한 사이버 공격이 늘어나고 있으며, 이로 인해 서비스 품질이 저하되거나 서비스를 제공하지 못하는 경우가 발생하고 있다. 본 논문에서는 VNF의 성능 정보를 수집하고, 수집된 데이터와 비지도 학습을 이용해 VNF의 정상상태를 모델링하고, 이를 이용해 사이버 공격으로 인한 이상상태를 탐지하는 기법을 제안한다.
KorSciQA 2.0: 과학기술 분야 한국어 논문 기계독해를 위한 질의응답 데이터셋
http://doi.org/10.5626/JOK.2022.49.9.686
최근 다양한 질의응답 공개 과제를 통해 기계독해 시스템의 성능은 향상되고 있으며, 더욱 지능화된 기계독해 시스템의 학습을 위해 여러 텍스트 단락과 지문을 포괄적으로 이해하고 이산적인 추론을 해야 하는 도전적인 과제가 공개되고 있다. 그러나 한국어 학술정보를 이해하기 위한 복합추론 목적 질의 응답 데이터셋의 부재로 인해 학술 논문에 대한 기계독해 연구는 활발히 이루어지지 않고 있다. 본 논문에서는 한국어 학술 논문의 전문을 대상으로 난이도를 일반, 하, 상으로 나누어 기계독해 시스템의 변별력을 확인할 수 있는 질의응답 데이터인 KorSciQA 2.0을 구축하였으며, KorSciQA 2.0을 구축하기 위한 방법론과 프로세스, 그리고 시스템을 제안하였다. KorSciQA 2.0에 대한 기계독해 성능 평가 실험 결과, 과학기술분야 도메인에 대한 한국어 기반 BERT 모델인 KorSciBERT 모델을 기반으로 미세 조정(Fine-tuning)하였을 때, F1 성능이 80.76%로 가장 높은 성능을 보였다.
기계독해 기반 부분 트리 연결 방법을 적용한 한국어 의존 파싱
http://doi.org/10.5626/JOK.2022.49.8.617
한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔다. 그 중 그래프 기반 의존 파싱은 입력 문장을 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각의 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻어 이를 통해 트리를 생성하는 Biaffine 어텐션 모델이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 부분 트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 부분 트리의 정보를 효율적으로 활용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(부분 트리-부분 트리)로의 부분 트리 정보를 직접 모델링하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 기존 Biaffine 어텐션 방식의 의존 파싱 모델 대비 향상된 결과를 얻었다.
회전 기계 고장 진단을 위한 적대적 순환 일관성 유지 학습기반 교차 도메인 적응 방법
http://doi.org/10.5626/JOK.2022.49.7.530
다양한 산업분야에서 데이터 기반의 고장 진단 모델에 대한 연구가 활발히 이루어지고 있다. 그러나 산업 장비의 경우 다양한 운행 조건이 발생하고, 이에 따른 충분한 훈련 데이터 확보가 어렵다는 문제가 있다. 이러한 문제를 해결하기 위해 교차-도메인 적응 기법을 활용할 수 있다. 본 연구에서는 회전체 진동 데이터를 사용하여 학습되지 않은 새로운 환경 데이터에 대해서도 고장 분류 일관성을 유지할 수 있는 적대적 일관성 유지 변환 학습 방법을 제안한다. 일관성 유지 학습을 통해 생성된 데이터는 새로운 운행 조건 데이터 분포와 이미 알고 있는 데이터 분포 간의 연속적인 불변 잠재 공간을 생성하고, 고장분류 특징 정보를 공유하는 적대적 학습 네트워크를 통해 고장 분류 성능을 유지하도록 학습한다. 따라서 제안된 방법은 도메인 데이터 간의 불일치를 최소화할 수 있는 잠재적 공간을 넓힘으로써 보다 안정적이고 일반적인 분류 성능을 확보할 수 있다. 제안한 모델의 실험결과는 약 88%내외의 성능 평가가 이루어졌으며, 기존 교차-도메인 적응 학습 기법들과 비교하여, 약 5~10%의 성능향상을 보였다. 이러한 연구결과로 실제 산업현장에서 겪는 장비 고장 진단 문제의 효과적인 해결방안이 될 것으로 기대된다.
문법 정확도 평가(GAE): 기계 번역 모델의 정량화된 정성 평가
http://doi.org/10.5626/JOK.2022.49.7.514
자연어 생성은 시스템의 계산 결과를 사람의 언어로 표현하는 작업을 의미한다. 이와 같은 자연어 생성 모델은 정량 평가만으로 생성된 문장의 품질을 대변할 수 없기 때문에 사람이 주관적인 기준에 따라 문장의 의미나 문법 점수를 매기는 정성 평가도 같이 사용하여 생성된 문장의 품질을 평가한다. 기존의 정성 평가는 주로 문법 적합도, 의미 적합도를 지표로 사용했으나, 평가자의 기준에 따라 큰 점수 편차가 발생하는 문제점이 존재했다. 따라서 본 논문에서는 구체적인 점수 기준을 제공해 줄 수 있는 문법정확도 평가(Grammar Accuracy Evaluation, GAE) 방법을 제안한다. 본 논문에서는 기계 번역 모델의 번역 품질을 BLEU와 GAE를 통해 분석하였다. 분석 결과 BLEU 지표로 측정된 점수가 모델의 절대적인 성능을 대변하지 않음을 확인하였으며, GAE 지표를 통해 동의어로 대체된 어휘 및 문장 구조의 변화를 오답으로 평가한 BLEU 지표의 단점이 보완됨을 확인하였다.