디지털 라이브러리[ 검색결과 ]
객체 Attention을 이용한 이미지 캡션 생성
http://doi.org/10.5626/JOK.2019.46.4.369
이미지 데이터가 폭발적으로 증가함에 따라 이미지를 자연어로 표현하기 위한 이미지 캡션 생성 기술에 대한 연구도 활발하게 이루어지고 있다. 기존 한국어 이미지 캡션 생성 기술에서는 영어권 데이터를 번역하여 사용함으로 인해 동시 발생 객체들에 의한 오류가 있다. 본 논문에서는 입력 이미지에 대한 캡션을 생성하여 추출한 명사와 이미지의 정답 캡션에서 추출한 명사를 이용하는 attention 함수를 새로운 손실 함수로 사용하는 이미지 캡션 모델을 제안한다. 공개된 실험 데이터를 사용한 실험에서 BLEU1 0.686, BLEU2 0.557, BLEU3 0.456, BLEU4 0.372를 보였다. 이를 이용하여 제안된 모델이 고빈도 동시 발생 객체 오류 해결에 효과적임을 입증하고 기존 연구보다 높은 성능을 얻음을 보이며 중복된 출력 문장을 줄임으로써 이미지 캡션의 다양한 표현들이 생성에 효과적임을 보였다. 또한 본 논문에서 제안하는 방법을 이용하여 이미지 캡션 모델을 학습하기 위한 코퍼스를 생성할 수 있다.
퍼지 범주 표현과 준지도 심층 신경망을 이용한 트위터 혐오 발언 문장 탐지
http://doi.org/10.5626/JOK.2018.45.11.1185
사회관계망 서비스(SNS, Social Network Service)에서 발생하는 혐오 발언 문장으로 인해 피해를 보는 사람이 점점 늘고 있다. 본 논문은 트위터 문장에서 단순 사전 비교를 통한 혐오 발언 탐지를 넘어 문장의 내포된 의미가 혐오성인지 아닌지를 판단하기 위해 대용량의 파일에서 준지도 학습과 심층신경망을 이용한 탐지 방법을 제안한다. 대부분 혐오 단어로 구성된 블랙리스트를 생성하여 이것과 비교하여 판단한다. 하지만 이러한 방법은 혐오 발언의 미묘하고 교묘한 표현을 찾아내지 못한다는 단점이 존재한다. 그리고 한국어 트위터 문장에 대해 혐오 발언 여부에 대한 레이블을 부착한 코퍼스를 생성하였다. 트위터 코퍼스 4만4천문장을 학습하였고, 1만3천여문장을 평가하여 음절 1-layer CNN과 문장 벡터를 사용한 모델의 결과가 명시적 혐오 발언의 F1 Score 86.13% 성능을 보였다. 음절 1-layer CNN과 2-layer CNN 그리고 문장 벡터를 사용한 모델 결과가 암시적 혐오 발언의 F1 Score 25.53%의 성능을 얻었다. 논문에서 제안한 방법을 이용하여 사이버 불링을 탐지하기 위한 방법으로 사용할 수 있다.
워드 임베딩과 유의어를 활용한 단어 의미 범주 할당
http://doi.org/10.5626/JOK.2017.44.9.946
의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.