디지털 라이브러리[ 검색결과 ]
MASS와 상대 위치 표현을 이용한 영어-한국어 신경망 기계 번역
http://doi.org/10.5626/JOK.2020.47.11.1038
신경망 기계 번역(Neural Machine Translation)은 주로 지도 학습(supervised learning)을 이용하는 Sequence-to-Sequence 모델에 대한 연구가 이루어지고 있다. 그러나, 지도 학습 방법은 데이터가 부족한 경우에는 낮은 성능을 보이기 때문에, 최근에는 BERT와 MASS 같은 대량의 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)을 하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 언어 생성(language generation) 작업을 위한 사전학습 방법을 사용하는 MASS 모델을 영어-한국어 기계 번역에 적용하였다. 실험 결과, MASS 모델을 이용한 영어-한국어 기계 번역 모델의 성능이 기존 모델들보다 좋은 성능을 보였고, 추가로 MASS 모델에 상대 위치 표현 방법을 적용하여 기계 번역 모델의 성능을 개선하였다.
순환 신경망을 활용한 코드 변경 추천 시스템의 학습 시간 단축 방법
http://doi.org/10.5626/JOK.2020.47.10.948
개발자에게 수정이 필요한 파일을 추천하는 시스템은 개발자의 작업 시간을 줄여 준다. 그러나 이런 추천 시스템은 일반적으로 축적된 데이터를 학습할 때 많은 시간이 들며, 또한 새로운 데이터가 축적될 때마다 새로이 학습하는데 많은 시간을 소모한다. 본 연구는 순환 신경망을 이용한 코드 변경 추천시스템(RNN-CRS)에 새로운 데이터가 축적되어 학습을 다시 해야 할 때 불필요한 학습을 회피하여 학습에 드는 시간을 줄이는 방법을 제안한다. 제안 방법의 실험 평가에서 제안 방법은 데이터가 새로 축적되어 학습 모델을 다시 생성하는데 소요되는 시간을, 실험에 사용된 다섯 개의 제품들에 대하여 시간 단축이 큰 경우에는 기존 연구에 비해 49.08%~68.15% 단축시켰고 작은 경우에는 10.66% 단축시켰다.
개인정보의 비식별화에 따른 기계학습의 예측 정확도 분석 연구
http://doi.org/10.5626/JOK.2020.47.10.906
개인정보 보호 및 개인정보 보호법 개정에 따른 개인정보 비식별화 관련 사항이 대두되고 있다. 또한 4차 산업혁명의 원동력으로 인공 지능과 기계학습의 활용이 증대되고 있다. 본 논문에서는 k-익명성(k=2)을 적용한 비식별화 개인정보를 활용하여 기계학습의 의사결정나무 알고리즘으로 예측 정확도를 실험적으로 검증한다. 그리고 입력 데이터의 예측 결과를 비교하여 기계학습에서 비식별화 개인정보를 활용 시 제한 사항을 알아보고자 한다. 개인정보보호법 개정안에 따라 기계학습에 비식별화 개인정보를 사용할 경우, 개인정보 비식별화 수준과 분석 알고리즘을 고려하여 활용해야 한다는 것을 제안한다.
복수의 엣지 디바이스에서의 CNN 모델 분산 처리를 위한 축소된 분류 모델 활용 기법
http://doi.org/10.5626/JOK.2020.47.8.787
최근 클라우드 서버로 전송되는 막대한 양의 데이터로 인해 발생하는 네트워크 부하 등의 여러 문제로 인하여, 데이터의 수집이 이루어지는 네트워크의 말단에서 자체적으로 데이터를 처리하는 엣지 컴퓨팅에 대한 요구가 증가하고 있다. 그러나 네트워크 말단에 위치한 엣지 디바이스는 대부분 성능이 제한되어 있어 클라우드 서버에서 사용되는 딥러닝 응용을 그대로 사용하기에는 어려움이 있다. 이러한 문제를 극복하기 위해, 본 논문에서는 딥러닝 모델을 축소된 분류 모델들로 나누어 활용해 복수의 엣지 디바이스에서 공동으로 추론을 수행하는 분산 처리 기법을 제안하였다. 여기서 사용된 축소된 분류 모델은 경량화 된 모델 가중치를 가지며, 전체 분류 레이블 중 일부에 해당하는 레이블에 대해 추론을 진행한다. 성능 측정 결과 제안하는 축소된 분류 모델의 결과를 취합하는 분산 처리 기법의 정확도가 기존 모델 대비 더 적은 파라미터를 갖도록 경량화를 하여도 기존 모델과 유사한 수준을 유지할 수 있음을 확인하였다.
대규모 대장암 데이터를 활용한 다중오믹스 데이터 통합 기법과 매개변수 분석
http://doi.org/10.5626/JOK.2020.47.8.779
유전자 발현정보를 포함한 다양한 유전체 데이터의 분석을 통해 질환과 생물체의 기작을 밝히기 위한 연구들이 활발히 수행되고 있다. 유전자 발현 조절 기작은 유전체 수준에서 수많은 유전자 간의 매우 정교하고 복잡한 관계에 의해 조절된다. 유전자 이외에 다양한 오믹스 또한 유전자 발현 조절에 관여한다. 최근 차세대 시퀀싱 비용의 하락으로 생성되는 유전체 데이터는 급속도로 증가하고 있다. 또한, 다양한 오믹스 데이터 생성을 위한 새로운 차세대 시퀀싱 기술들이 개발되고 있어 동일 생물체에 대해 여러 오믹스 데이터 측정이 가능하다. 본 논문에서는 제안하는 비음수텐서분해기법과 기존 다중오믹스 통합 기법들의 성능을 평가하고 데이터의 양 및 유전자 수와 같은 변수가 분석정확도에 미치는 영향력을 분석하였다. 대장암 데이터의 아형 분류를 위해 최소 100~150개 샘플과 5,000개 이하의 오믹스 개체가 필요한 것으로 분석됐다. 텐서분해기법이 가장 높은 분류정확도를 보였다.
다중 작업 학습을 통한 문장 유사도 기반 단락 재순위화 방법
http://doi.org/10.5626/JOK.2020.47.4.416
기계독해 시스템은 컴퓨터가 주어진 단락을 이해하고 질문에 대한 답변을 하는 질의응답 시스템이다. 최근 심층 신경망의 발전으로 기계독해 시스템의 연구가 활발해지면서 주어진 문서가 아닌 검색모델의 결과에서 정답을 찾는 연구(오픈 도메인 기계독해 시스템)가 진행되고 있다. 하지만 오픈 기계독해 시스템은 검색 모델이 정답을 포함하는 단락을 검색해오지 못할 경우, 질문에 대한 답을 할 수 없다. 즉, 오픈 도메인 기계독해 시스템의 성능은 검색 모델의 성능에 종속된다. 따라서 오픈 도메인 기계독해 시스템이 높은 성능을 기록하기 위해서는 높은 성능의 검색 모델이 요구된다. 검색 모델의 성능을 높이기 위한 기존 연구는 질의 확장과 재순위화 등을 통해 연구되었으며, 본 논문에서는 심층 신경망을 이용한 재순위화 방법을 제안한다. 제안 모델은 다중 작업 학습 기반 문장 유사도 측정을 통해 검색 결과(단락)를 재순위화하고, 자체 구축한 58,980 쌍의 기계독해 데이터의 실험 결과로 기존 검색 모델 성능과 비교하여 약 8%p(Precision 1 기준)의 성능 향상을 보였다.
기계학습 기반 자율 제어 시스템의 참조 아키텍처
http://doi.org/10.5626/JOK.2020.47.4.368
자율(Autonomous) 컴퓨팅은 4차 산업혁명의 핵심 요소로서, 자동화 (Automatic) 시스템에 자율 환경 인지, 자율 판단, 자율 계획, 자율 제어 기능을 제공하는 미래기술이다. 다양한 센서와 IoT 디바이스의 등장으로 환경 정보를 포괄적으로 획득할 수 있게 되었고, 이를 활용하는 자율화 시스템 기술은 사람이 중심이 되는 Human Machine Interface(HMI) 형태에서 기계 스스로가 최고 품질을 유지하는 생태계 시스템(Eco System)의 구현을 가능하게 한다. 그러나. 자율화 시스템의 복잡도와 높은 품질 요구 사항들로 인해, 개발 난도는 높고 개발 생산성은 낮은 어려움이 있다. 본 논문에서는 자율화 시스템 개발에 공통으로 적용될 수 있는 아키텍처 모형, 핵심 컴포넌트, 주요 알고리즘 등을 포함하는 참조 아키텍처를 제시한다. 본 참조 아키텍처는 목표 시스템의 구조적 근간으로 활용되며, 아키텍처 포함되어 있는 컴포넌트, 인터페이스, 디바이스 연동 등에 대한 설계를 재사용함으로써, 개발 효율성을 크게 높이며, 자율화 관점의 높은 품질을 보장한다. 또한 제시된 참조 아키텍처를 두 개의 자율화 시스템에 적용하여, 그 적용성 및 실용성을 검증한다.
Analysis of the Semantic Answer Types to Understand the Limitations of MRQA Models
Doyeon Lim, Haritz Puerto San Roman, Sung-Hyon Myaeng
http://doi.org/10.5626/JOK.2020.47.3.298
최근 MRQA 모델들의 성능이 인간을 넘어섰다. 그리하여 MRQA 모델의 새로운 가능성들을 찾기 위해 새로운 데이터 셋들이 소개되고 있다. 하지만, 이전 MRQA모델들이 어떤 유형에서 문제를 잘풀고 어떤 한계점이 있는지 자세한 분석을 통해 새로운 데이터셋을 제시하는 경우는 거의 없었다. 이 연구에서는 MRQA가 극복했다고 여겨지는 SQuAD 데이터 셋을 분석하여 MRQA가 언어를 이해한 것이 아니라 특정한 패턴을 찾아냈다는 것을 밝혀낸다. 이 과정에서 기존 QA데이터 셋에서 주로 등장하는 wh-word와 Lexical Answer Type (LAT) 정보에 많은 모델들이 특히 집중하고 있다는 것을 밝히고, 그 때문에 질의와 문서의 정보를 충분히 이해하지 못하고 있다는 것을 정성, 정량적인 수치로 보였다. 이러한 분석을 바탕으로 앞으로 MRQA의 데이터셋의 방향과 모델들이 극복해야할 한계점을 제시하였다.
데이터 분포 관찰을 통한 공간 효율적인 Top-k Query 인코딩
http://doi.org/10.5626/JOK.2020.47.3.235
본 논문에서는 주어진 범위에서 인코딩된 데이터로 이차원 원본 배열에 대한 접근 없이 상위 k개의 원소의 위치를 찾는 질의에 답을 하는 문제를 다룬다. 본 논문에서는 데이터 분포 관찰을 통해 일반적인 이차원 배열에 대해서 이전 연구들보다 더 효율적인 Top-k 질의 인코딩 방법을 제안하고 실험 결과를 통해 공간 효율성이 향상됨을 보인다. 또한 데이터로부터 학습한 자료구조 연구를 간결한 자료구조에 활용할 방법을 제시한다.
뉴로모픽 모델과 기계학습 모델을 지원하는 자율형 IoT 프로그래밍 패러다임
http://doi.org/10.5626/JOK.2020.47.3.310
센서 기술과 고속 통신 인프라의 발전으로 IoT 응용 서비스에 대한 요구와 기대가 증가하고 있다. 많은 센서가 운용되고 네트워크로 연결되더라도 센서 데이터를 모두 서버로 보내서 처리하는 것은 통신 대역 및 저장 공간 측면에서 비효율적이다. 한편, 인공지능 기술 발전에 따라 IoT의 지능적 처리에 대한 요구가 증가되고 있다. 본 논문에서는 IoT 서버 뿐만 아니라 클라이언트에서 뉴로모픽 기반 모델과 기계학습 모델 등을 사용할 수 있는 프로그래밍 패러다임에 대해서 제안한다. 제안한 프로그래밍 패러다임은 다양한 인공지능 모듈을 IoT 클라이언트와 서버 프로그램에서도 활용할 수 있는 패러다임이라는 점에서 향후 지능형 IoT뿐만 아니라 자율형 IoT 환경에서 유용할 것으로 기대된다.