49권 8호,
8월 2022
디지털 라이브러리
k-배율 순위패턴매칭문제를 해결하는 알고리즘
http://doi.org/10.5626/JOK.2022.49.8.585
두 문자열의 길이가 같고 문자열 내에서 같은 위치의 문자들의 상대적 순위가 모두 동일하면 두 문자열은 순위동형이다. 순위패턴매칭문제는 길이가 n인 문자열 T와 길이가 m인 문자열 P가 주어졌을 때, P와 순위동형인 T의 모든 부분문자열을 찾는 문제이다. 순위패턴매칭은 주가지수 분석, 멜로디 분석과 같은 시계열데이터 분석에 활용될 수 있다. 본 논문에서는 순위패턴매칭을 확장한 k-배율 순위패턴매칭문제를 정의하고, 이 문제를 O(n+mlogm) 시간에 해결하는 알고리즘을 제시한다. 또한, O(n+m) 개의 스레드를 사용하여 O(m+k) 시간에 k-배율 순위패턴매칭문제를 해결하는 병렬알고리즘을 제시한다.
시계열 이미징 기법을 이용한 다변량 센서 데이터 분류
http://doi.org/10.5626/JOK.2022.49.8.593
과거 정보로부터 미래를 예측하기 위해 통계 기반의 시계열 분석 방식부터 LSTM과 같은 딥러닝 기반 예측 모델들까지 다양한 방법들이 제안되었다. 그러나 실제 산업에서 사용하는 데이터의 경우 예측 불가능한 여러 요인들로 인해 높은 복잡성을 갖으며, 이로 인해 예측 모델만으로는 시계열 데이터에 내포된 가치 있는 정보를 추출하기 어려운 문제점이 있다. 시계열 이미징(time series imaging)은 시계열을 2차원 이미지로 변환하여 분석하는 방법으로, 원시 시계열에서 해석하기 힘든 정보의 추출을 가능하게 한다. 본 논문에서는 다변량 센서 데이터를 2차원의 다채널 이미지로 변환하여 이를 기반으로 시계열을 분류하는 방식을 제안하였으며, 기존에 시계열 예측 분야에서 사용하는 방식과의 비교를 통해 제안 방식의 효용성을 검증하였다.
질의와 관련있는 답변 생성을 위해 잠재 답변을 고려하여 질의를 인코딩하는 질의 토큰 중요도 계산기
http://doi.org/10.5626/JOK.2022.49.8.601
대화 답변 생성 모델은 시퀀스-투-시퀀스 모델을 통해 큰 발전을 이루어왔음에도 불구하고 대화 답변 생성 모델은 일반적인 답변이나 주어진 질의와 관련 없는 답변을 하는 문제가 빈번하게 발생하고 있다. 이를 해결하기 위해 전통적인 로스 함수를 수정하려는 노력과 대화 생성 모델의 배경 지식 부족 문제를 해결하려는 노력이 있었지만, 이들은 일반적인 답변과 관련 없는 답변 생성을 모두 해결하지 못했다. 본 논문에서는 대화 답변 생성 모델이 질의와 상술한 문제의 원인으로 질의의 핵심을 파악하지 못하는데 들어 질의 토큰 중요도 계산기 사용을 제안한다. 또한 질의자는 청자의 특정한 답변을 유도하며 발화를 설계한다는 이론에 근거하여 질의의 내용 파악을 위해 정답 답변을 이용하는 것을 제안한다. 정성적 평가를 통해 제안하는 모델을 활용한 답변 생성기가 사용하지 않은 모델에 비해 질의와 연관된 답변을 생성할 수 있었음을 확인하였다.
감정 어휘 사전을 활용한 KcBert 기반 영화 리뷰 말뭉치 감정 분석
http://doi.org/10.5626/JOK.2022.49.8.608
감정 분석은 텍스트 데이터에 표현된 인간이 느끼는 감정을 기쁨, 슬픔, 분노, 놀람, 공포 등의 다양한 감정 유형으로 분류하는 것이다. 본 연구에서는 감정 어휘 사전을 활용하여 영화 리뷰 말뭉치에 표현된 감정을 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 9가지로 분류하여 감정 말뭉치를 구축하고, KcBert에 감정 말뭉치를 학습시켜 모델의 성능을 평가하였다. 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 한 감정 어휘 사전을 사용하였는데, 감정 어휘 사전의 어휘와 영화 리뷰 말뭉치에 나타난 감정 어휘가 일치하는지 여부를 판단하고, 영화 리뷰 말뭉치의 마지막에 등장하는 어휘에 일치하는 감정 유형을 주석하였다. 이렇게 구축한 감정 말뭉치를 NSMC로 사전 학습된 KcBert에 학습시켜 그 성능을 평가한 결과, KcBert는 감정을 9가지 유형으로 분류한 모델에서도 우수한 성능을 보였다.
기계독해 기반 부분 트리 연결 방법을 적용한 한국어 의존 파싱
http://doi.org/10.5626/JOK.2022.49.8.617
한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔다. 그 중 그래프 기반 의존 파싱은 입력 문장을 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각의 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻어 이를 통해 트리를 생성하는 Biaffine 어텐션 모델이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 부분 트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 부분 트리의 정보를 효율적으로 활용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(부분 트리-부분 트리)로의 부분 트리 정보를 직접 모델링하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 기존 Biaffine 어텐션 방식의 의존 파싱 모델 대비 향상된 결과를 얻었다.
다중 스케일 객체 검출을 위한 Graph Convolution Network 기반의 특성 맵 융합 기법
http://doi.org/10.5626/JOK.2022.49.8.627
FPN (Feature Pyramid Network)은 객체 검출의 다중 스케일 문제를 해결하기 위한 특성 맵 융합 기법이다. 그러나, FPN은 인접한 해상도에 초점을 맞추어 특성 맵 융합을 수행하기 때문에 인접하지 않은 계층에 포함된 의미 정보가 희석되는 문제가 있다. 본 논문에서는 다중 스케일 객체 검출을 위한 Graph Convolution Network (GCN) 기반의 특성 맵 융합 기법을 제안한다. 제안된 GCN 기반 방법은 학습 가능한 인접 행렬 가중치에 따라 모든 계층의 특성 맵 정보를 동적으로 융합한다. 인접 행렬 가중치는 객체의 스케일 정보를 적응적으로 반영하기 위해 다중 스케일 attention 메커니즘을 기반으로 생성된다. 특성 맵 융합 과정은 인접 행렬과 특성 노드 행렬 간 행렬 곱 연산을 통해 수행된다. 실험을 통해 기존 FPN 방법보다 PASCAL-VOC 벤치마크 데이터 셋에서 다중 스케일 객체 검출 성능을 향상시키는 것을 보임으로서 제안 기법의 성능을 검증하였다.
오픈 소스 기계학습 애플리케이션에 대한 결함 사례 조사
http://doi.org/10.5626/JOK.2022.49.8.633
기계학습 기반 프로그래밍 패러다임과 전통적인 방식의 프로그래밍 패러다임의 차이는 기계학습 애플리케이션에서 발생할 수 있는 결함을 검출하고 이해, 분석, 해결하는 것에 다른 양상을 나타낼 수 있다. 이와 같은 상황에서, 본 연구는 기계학습 기반 시스템이 가진 결함을 이해하고 분석하기 위해, 오픈소스 기계학습 애플리케이션에서 발생했던 결함의 사례들을 수집하고 빈번하게 발생하는 결함의 원인을 파악하고자 하였다. 이를 위해, GitHub에 공개된 10개의 오픈소스 기계학습 애플리케이션을 대상으로 GitHub 이슈 게시판에 있는 1,205개의 결함 이슈 보고와 결함 수정 코드 이력을 직접 분석하여 보고/발견/수정되었던 결함에 대해 분석하였다. 10개 중 5개 이상의 프로젝트에서 공통으로 발견된 결함의 근본적인 원인 기준으로 20개의 결함 원인 범주를 설정하였다. 본 연구의 결과는 결함 위치 추적, 가능한 결함 해결 코드 수정 제안 등의 품질 향상 기술에 활용될 수 있을 것으로 기대된다.
복수 개의 대장암 유전자 상관관계 네트워크 간 비교 분석 향상을 위한 네트워크 스케일링 방법
http://doi.org/10.5626/JOK.2022.49.8.646
질병 분석 모델에서 유전자 발현정보를 바탕으로 다양한 연구방법들이 제시되고 있다. 암 유전체 데이터 분석에 있어 패스웨이를 바탕으로 숨겨진 특성을 발굴하는 방법들은 결과 해석에 유용하다. 본 연구에서는 유전자들의 발현조절 정보를 토대로 한 패스웨이 단위의 유전자 상관관계 네트워크를 비교분석 하였다. 비교하고자 하는 두 네트워크의 규모의 차이가 생기게 되면 정보량의 편향성으로 인해 보다 큰 규모의 네트워크 정보에 치우쳐진 결과를 나타내게 된다. 이러한 편향성을 해소하기 위해 네트워크 망 구성에 대한 정보량을 이용하여 서로 다른 배경을 가진 환자군의 네트워크를 조정하는 방법을 제안한다. 정규화된 네트워크들은 주요 유전자군들의 비교분석법을 적용했으며, 총 4종류의 대장암의 아형 데이터를 활용하여 202개의 패스웨이 네트워크를 분석한 후 아형 특이적인 5개 패스웨이를 발굴했다. 이들은 모두 대장암과 연관된 주요 패스웨이로 선행연구에서 보고된 바가 있어 제안하는 방법의 유효성을 보였다.
F2FS 멀티-헤드 로깅을 이용한 효율적인 RocksDB 레벨링 기법
http://doi.org/10.5626/JOK.2022.49.8.655
RocksDB는 대표적인 LSM-tree 기반 키-밸류 스토어로, 고성능 데이터베이스 시스템에서 활발히 활용되고 있다. 그러나 이러한 데이터베이스 시스템들은 장기적으로 실행되고 스토리지에 자주 쓰기를 하는 특성을 가지므로 파일 시스템을 고려한 설계 없이는 파일 시스템 단편화를 야기할 수 있다. 또한, RocksDB에 포함된 성능 향상 기능들은 파일 시스템 단편화를 가속하여 SSD 같은 플래시 메모리 스토리지의 장기적 성능에 악영향을 끼칠 수 있다. 이에 본 논문에서는 F2FS 파일 시스템에서 RocksDB 활용에 의한 파일 단편화 문제에 대해서 분석하고, 이를 해결하기 위한 F2FS 멀티-헤드 로깅을 활용한 새로운 RocksDB 레벨링 기법을 제안한다. SSD를 활용한 실험 결과, 본 논문의 제안 기법으로 기존 F2FS 파일 시스템 대비 7% 처리량 향상 및 18% 꼬리 응답 시간 감소, 그리고 EXT4 파일 시스템 대비 56% 처리량 증가 및 19% 꼬리 응답 시간 감소를 확인하였다.
심층강화학습 기반 MCS 결정 알고리즘
http://doi.org/10.5626/JOK.2022.49.8.663
무선 이동 통신 시스템에서는 채널의 처리량, 주파수 효율 등을 높이기 위해 링크 적응 기법을 적용하여 채널 상태의 변화에 따라 전송 파라미터를 적응적으로 조절한다. 적응적 변조 및 코딩은 채널의 상태에 따라 미리 정의된 변조 및 코딩 방식을 결정하는 링크 적응 기법으로 단말이 보고한 CQI와 패킷 전송에 대한 HARQ 피드백을 기반으로 수행된다. 본 논문에서는 적응적 변조 및 코딩에 심층강화학습을 적용한 MCS 결정 모델을 제안한다. 제안하는 모델은 동적으로 변화하는 네트워크 망에서 적응적으로 MCS 레벨을 결정하여 단말의 전송 효율을 높인다. 본 논문에서는 제안하는 모델의 성능을 단말 로그 기반의 시뮬레이션을 통해 평가하였으며, 이를 통해 제안하는 모델이 기존의 외루프 전송률 제어 기법보다 높은 성능을 보인다는 것을 확인하였다.