디지털 라이브러리[ 검색결과 ]
가중치 미러링과 직접 피드백 오차를 이용한 신경망 학습법
http://doi.org/10.5626/JOK.2024.51.5.445
오류 역전파 알고리즘은 신경망의 핵심적인 학습 알고리즘으로 최근에도 다양한 딥러닝 모델 에서 사용되고 있다. 그러나 오류 역전파 학습에서 상위층 오차 신호가 하위층으로 순차적으로 전달되면서 상위층의 가중치 정보가 하위층 가중치 업데이트에 사용되는 방식은 생물학적 타당성의 결여와 계산 효율 성 저하의 문제가 지적되어왔다. 이러한 문제들을 개선하기 위하여 역방향 가중치를 별도로 사용하는 학습 방법론들이 제안되었으나 아직 초기 연구에 머물고 있으며 다양한 관점에서의 분석이 필요하다. 본 논문에 서는 상위층의 오차를 하위층으로 직접 투사하는 직접 피드백 정렬 방법과 별도의 역방향 가중치를 업데 이트하는 단계를 가지는 가중치 미러 방법을 결합하여 새로운 학습 방법을 제안한다. 제안하는 방법은 기존 의 두 알고리즘이 가지던 한계를 극복하여 생물학적으로 타당하며 효율적인 병렬 학습이 가능한 가중치 업 데이트 방법을 구현한다. 여러 벤치마크 데이터에 대한 실험을 통하여 제안하는 방법의 가능성을 확인하였다.
Surface Code FTQC에서의 개수 증가형 고신뢰 논리적 큐비트 구현 기술
http://doi.org/10.5626/JOK.2024.51.4.301
양자컴퓨팅이 기존 컴퓨팅의 한계를 돌파하기 위해서는, 양자컴퓨터가 처리 가능한 계산 용량이 증가해야 한다. 하지만 양자 하드웨어의 높은 오류율로 인하여 양자컴퓨터의 계산 용량을 증가시키는 것은 기술적인 어려움을 수반한다. 현재 보편적으로 사용되는 방식은 surface-code 기반 결함허용 양자컴퓨팅 방식으로써, 물리적 큐비트와 게이트의 요구 오류율이 다른 기술에 비해 낮다는 장점을 가지고 있다. 그러나 surface-code 방식 역시 초기 단계의 접근법으로써 다양한 기술적 이슈를 포함하고 있는데 양자컴퓨팅 구현에 사용되는 큐비트 수가 너무 많다는 것이 대표적인 문제점이다. 본 연구에서는 이러한 문제를 해결하기 위하여 기존 surface-code 기반 결함허용 양자컴퓨팅에서 주로 사용되는 크기 증가형 방식이 아닌 다수의 하위 수준 논리적 큐비트를 사용하는 방식을 제안한다. 제안하는 방식은 블록 코드 방식에서 사용하는 방식을 surface-code 방식에 적용한 기술이다. 분석결과 동일한 큐비트 자원량을 가정할 때 제안한 기술이 더 낮은 논리적 오류율 특성이 나타남을 확인하였다. 이러한 연구를 토대로 기존의 surface-code방식의 효율성을 개선할 수 있을 것으로 기대한다.
어절 정보를 활용한 비자동회귀 한국어 형태소 분석
http://doi.org/10.5626/JOK.2023.50.8.653
한국어 형태소 분석이란 주어진 문장을 형태소 원형으로 복원하고 품사 태그를 부착하는 태스크이다. 형태소 분석은 다른 자연어 처리 태스크의 전처리 단계로서 활용되기 때문에 빠르고 정확하게 분석되어야 한다. 최근 학습 기반 한국어 형태소 분석기들은 인코더-자동회귀 디코더를 활용하여 순차적으로 형태소 분석 결과들을 생성하여 정확한 결과를 생성하지만 생성 속도가 느리다는 단점이 있다. 본 논문에서는 비자동회귀 한국어 형태소 분석기를 제안한다. 제안한 한국어 형태소 분석기는 인코더-두개의 비자동 회귀 디코더로 구성되어 있으며, 각 디코더가 형태소 및 품사 시퀀스를 각각 생성함과 동시에 디코더-디코더 크로스 어텐션으로 형태소와 품사가 서로 정보를 주고 받아 정확한 결과를 생성하도록 한다. 또한, 어절 정보를 활용하여 형태소 분석 결과 길이를 예측하고 비자동회귀 디코더에 길이를 제공해 형태소 분석 성능을 향상시킨다. 실험 결과, 제안한 방법은 단순 비자동회귀 디코더 기반 형태소 분석기들보다 좋은 결과를 얻었으며, 자동회귀 디코더 기반 분석기보다 비슷한 성능에 최대 14.76배 빠르게 분석함을 보인다.
뉴로 심볼릭 기반 규칙 유도 및 추론 엔진을 활용한 지식 완성 시스템
http://doi.org/10.5626/JOK.2021.48.11.1202
최근 지식 그래프의 불완전성 문제를 해결하기 위한 다양한 지식 완성 연구중 딥러닝 학습 방법과 로직 시스템의 장점을 결합한 NTP(Neural Theorem Prover)와 같은 연구가 기존 연구들에 비해 좋은 성능을 내고 있다. 하지만 NTP는 하나의 입력에 대한 예측 결과를 얻기 위해 지식 그래프의 모든 트리플이 연산에 관여하게 되므로 대용량 지식 그래프 처리에 한계가 있다. 본 논문에서는 NTP의 계산 복잡도 문제를 개선한 모델로부터 심볼의 벡터 표현을 학습하여 규칙을 유도하고, 추론 엔진을 사용하여 유도된 규칙으로부터 지식 추론을 수행할 수 있는 딥러닝 학습 방식과 로직 추론 방식의 통합시스템을 제안한다. 본 논문에서 사용한 규칙 생성모델의 규칙유도 성능 검증을 위해 NTP와 Nations, Kinship, UMLS 데이터 셋을 대상으로 유도된 규칙을 활용한 테스트 데이터 추론가능 여부를 비교하였으며, 대규모 지식그래프인 Kdata와 WiseKB를 사용한 실험에서는 추론 엔진을 통한 지식 추론 결과 실험에 사용된 지식 그래프에 비해 각각 Kdata는 30%, WiseKB는 95%증가된 지식 그래프를 얻을 수 있었다.
주의집중력 향상 목적의 뇌전도 뉴로피드백 방법 조사
http://doi.org/10.5626/JOK.2021.48.10.1105
뉴로피드백은 뇌 상태의 피드백을 통해 사용자 스스로 뇌의 기능 및 상태를 조절할 수 있게 하는 뇌 기능 조절 기술로 뇌 기능의 회복 및 향상에 효과가 있는 것으로 알려져 있다. 본 연구에서는 주의집중력 향상 목적의 뇌전도 뉴로피드백에 관한 연구 108건을 조사 분석하였다. 조사 결과 환자 대상 연구가 건강인보다 약 3.5배 많았고, 유선 습식 뇌파 측정 장비를 활용한 연구가 대부분이었다. 집중력 정량 지표로는 감각운동리듬과 세타파와 낮은 베타파의 비율이, 뇌 영역은 뇌 중앙부의 뇌파가 주로 활용되었으며, 피드백 방식은 시청각 자극이, 신경심리평가는 연속수행검사와 Go/NoGo 검사가 빈번하게 활용됨을 확인하였다. 향후 실용적인 뉴로피드백 애플리케이션 개발을 위해 비환자군 연구 확대, 편의성 및 몰입도 증대를 위한 무선 건식 뇌파 측정 장비 및 가상/증강현실 기술 활용 그리고 뉴로피드백 효과의 재현성 및 사용성 높은 애플리케이션 개발을 위한 기준 마련이 필요할 것으로 전망된다.
공유계층을 이용한 형태소 분석과 개체명 인식 통합 모델
http://doi.org/10.5626/JOK.2021.48.2.167
한국어 형태소 분석은 형태소 분석, 품사 태깅 과정으로 나뉜다. 형태소 분석 과정에서 형태소와 품사 후보 쌍을 추출하고, 품사 태깅 과정에서는 추출된 후보 중 문맥에 알맞은 형태소와 품사를 결정한다. 개체명 인식은 문장 내에서 인명, 지명, 기관명, 날짜, 시간 등과 같이 고유한 의미를 갖는 단어를 찾아 개체명을 부착하는 기술이다. 개체명 인식과 형태소 분석 연구는 주로 독립적으로 수행되며, 많은 개체명 인식 연구에서 품사 정보를 사용한다. 이 과정에서 형태소 분석의 오류가 개체명 인식에 치명적인 오류로 전파된다. 본 논문에서는 오류 전파를 최소화하기 위해 통합 모델을 제안한다. 형태소 분석기의 오류를 줄이기 위해 순차적 레이블 부착 문제에 효과적인 레이블 주의 집중 네트워크를 활용한다. 실험 결과, 개체명 인식과 형태소 분석의 단일 모델보다 통합 모델의 성능이 더 높음을 보였다. 또한 기존의 통합모델 보다 레이블 주의 집중 네트워크를 적용한 제안 모델이 더 높은 성능을 보였다.
트랜스포머와 BERT로 구현한 한국어 형태소 분석기의 성능 분석
http://doi.org/10.5626/JOK.2020.47.8.730
본 논문은 Transformer로 구현한 한국어 형태소 분석기를 다룬다. Transformer는 최근에 가장 널리 사용되는 sequence-to-sequence 모델 중 하나이다. Transformer는 인코더와 디코더로 구성되어 있는데 인코더는 원문을 고정된 크기의 벡터로 압축시키고 디코더는 이 벡터를 이용하여 형태소 분석 결과를 생성해 낸다. 본 논문에서는 또한 Transformer의 인코더를 BERT로 대체해 본다. BERT는 대용량의 학습데이터를 이용하여 미리 학습시켜 놓은 언어 표현 모델이다. 디코더에는 주의 메커니즘과 복사 메커니즘을 도입하였다. 인코더와 디코더에서의 처리 단위는 각각 어절 단위 WordPiece와 형태소 단위의 WordPiece를 사용하였다. 실험을 통해, BERT의 파라미터를 문제에 맞게 재조정했을 때의 성능이 Transformer를 임의의 값으로 초기화하여 사용했을 때에 비해 F1에서 2.9%의 성능 향상을 보임을 알 수 있었다. 또한 학습단계에서 충분히 학습되지 못한 WordPiece의 임베딩이 형태소 분석에 어떤 영향을 미치는지도 살펴보았다.
대용량 표준 말뭉치 구축을 위한 다수 형태소 분석 결과 통합 방법론
http://doi.org/10.5626/JOK.2020.47.6.596
최근 한국어 정보처리를 위한 대용량 언어분석 표준 말뭉치(GS: Gold Standard Set)를 구축하고, 이를 공유 · 확산하기 위한 국가차원의 지원이 이뤄지고 있다. 본 연구는 이러한 말뭉치 구축 사업의 일환으로, 현재 국내에서 개발된 다양한 한국어 언어분석 모듈을 활용하여 공통 정답셋 구축을 위한 방법론을 제안하고자 한다. 특히, 대량의 학습셋을 구축하기 위해 다수의 모듈(N-modules)로부터 제시된 후보정답을 참조, 오류 형태를 분류하여 주요 유형을 반자동으로 보정함으로써 수작업을 최소화하였다. 본 연구에서는 형태소 분석 모듈 적용 결과를 정규화하여 통합 포맷인 U-POS를 기반으로 대용량 한국어 언어분석 표준 말뭉치를 구축하였다. 본 연구를 통해 348,229 문장, 총 9,455,930 어절이 한국어 표준 말뭉치로 구축되었으며, 이는 차후에 한국어 정보처리를 위한 기초 학습자원으로 활용될 수 있다.
신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기
http://doi.org/10.5626/JOK.2020.47.1.70
한국어 커뮤니티 등에서 수집되는 인터넷 텍스트 데이터를 형태소 분석하기 위해서는, 띄어쓰기 오류가 있는 문장에서도 정확히 형태소 분석을 해내야 하고, 신조어 등의 사전 외 어휘 입력에 대한 원형복원 성능이 충분해야 한다. 그러나 기존 한국어 형태소분석기는 원형복원에 사전 또는 규칙 기반 알고리즘을 사용하는 경우가 많다. 본 논문에서는 시퀀스-투-시퀀스 모델을 기반으로 띄어쓰기 문제와 신조어 문제를 효과적으로 처리할 수 있는 한국어 형태소 분석기 모델을 제안한다. 본 모델은 사전을 사용하지 않고, 규칙 기반 전처리를 최소화한다. 일반적으로 사용하는 음절 외에도 음절 바이그램과 자소를 입력자질로 같이 사용하며, 공백을 제거한 데이터를 학습 데이터로 같이 사용한다. 제안 모델은 세종 말뭉치를 이용한 실험에서 사전을 사용하지 않는 기존 형태소 분석기에 비해 뛰어난 성능이 나왔다. 띄어쓰기가 없는 데이터셋 및 인터넷에서 직접 수집한 데이터셋에 대해서도 높은 성능이 나오는 것을 확인하였다.
국방 무기 체계 SW 품질 향상을 위해 Concolic 테스팅을 통한 테스트 자동 생성
http://doi.org/10.5626/JOK.2019.46.9.926
국방 무기 체계 SW 품질 향상을 위해 노동집약적 수작업 SW 테스트 관행이 아닌, 테스트 입력을 자동으로 그리고 체계적으로 생성하는 것이 필요하다. 본 연구는 concolic 테스팅을 국방 무기 체계 SW에 적용해 높은 커버리지의 테스트 입력값을 효과적으로 생성하고, 결함을 발견하여 SW의 품질향상에 기여하였다. 프로그램의 복잡성이 크고 전체 실행 경로가 많은 프로그램의 경우, concolic 테스팅의 효율을 높일 수 있는 방법(4개의 탐색 전략, LIA 로직)을 제안하였다. 또한, 실무자들이 concolic 테스팅을 확장 적용할 수 있도록 심볼릭 모델링 방법을 예시로 제안하였다.