디지털 라이브러리[ 검색결과 ]
대체 토큰 감지 모델을 통한 대체어 추출
http://doi.org/10.5626/JOK.2023.50.4.321
대체어란 한 문장에서 특정 단어를 대신하여 사용해도 문장의 의미를 훼손하지 않는 단어이며, 이를 추출하는 기술은 데이터 증강 등 다양한 자연어처리 문제에 활용할 수 있다. 기존 대체어 추출 방법은 문맥에 부자연스러운 대체어를 추출할 수 있다는 문제가 있다. 이를 해결하기 위해 본 논문에서는 말뭉치에서 목표 단어가 포함된 문장을 샘플링하여 사전학습 BERT 기반 대체어 후보 생성 모델에 입력하고, 대체 토큰 감지 모델로 부적합한 대체어를 제외하여 대체어를 추출하는 방법을 제안한다. 국립국어원 문어 말뭉치 및 ㈜낱말 기본유의어 사전을 통해 검증한 결과, 본 제안 방법은 기존 방법에 비해 더 정확한 대체어를 추출한다. 또한 부적합한 대체어를 제외하는 모델로 사료될 수 있는 문법성 판단 모델보다 본 연구에서 제안한 대체 토큰 감지 모델의 대체어 추출 성능이 더 뛰어난 것을 확인하였다.
고속 이미지 검색을 위한 2진 시각 단어 생성 기법
http://doi.org/10.5626/JOK.2017.44.12.1313
다수의 지역 특징들을 취합하여 하나의 벡터로 표현하는 것은 이미지 검색의 핵심 기술이다. 이 과정에서 경사도 기반 특징에 비해 수십 배 빠르게 추출되는 2진 특징이 활용된다면 이미지 검색의 고속화가 가능하다. 이를 위해서는 2진 특징들을 군집하여 2진 시각 단어를 생성하는 기법에 대한 연구가 선행되어야 한다. 기존의 경사도 기반 특징들을 군집하는 전통적인 방식으로는 2진 특징들을 군집할 수 없기 때문이다. 이를 위해 본 논문은 2진 특징들을 군집하여 2진 시각 단어를 생성하는 기법들에 대해 연구한다. 실험을 통해 2진 특징의 활용이 이미지 검색에 미치는 정확도와 연산효율 사이의 상충관계에 대해 분석한 후, 제안한 기법들을 비교한다. 본 연구는 고속 이미지 검색을 필요로 하는 모바일 응용, 리얼타임 응용, 웹 스케일 응용 등에 활용될 것으로 기대된다.
단어 유사도를 이용한 뉴스 토픽 추출
http://doi.org/10.5626/JOK.2017.44.11.1138
토픽 추출은 문서 집합으로부터 그 문서 집합을 대표하는 토픽을 자동 추출하는 기술이며 자연어 처리의 중요한 연구 분야이다. 대표적인 토픽 추출 방법으로는 잠재 디리클레 할당과 단어 군집화 기반 토픽 추출방법이 있다. 그러나 이러한 방법의 문제점으로는 토픽 중복 문제와 토픽 혼재 문제가 있다. 토픽 중복 문제는 특정 토픽이 여러 개의 토픽으로 추출되는 문제이며, 토픽 혼재 문제는 추출된 하나의 토픽 내에 여러 토픽이 혼재되어 있는 문제이다. 이러한 문제를 해결하기 위하여 본 연구에서는 토픽중복 문제에 대해 강건한 잠재 디리클레 할당으로 토픽을 추출하고 단어 간 유사도를 이용하여 토픽 분리 및 토픽 병합의 단계를 거쳐 최종적으로 토픽을 보정하는 방법을 제안한다. 실험 결과 제안 방법이 잠재 디리클레 할당 방법에 비해 좋은 성능을 보였다.