검색 : [ keyword: 기계 학습 ] (19)

퍼지 범주 표현과 준지도 심층 신경망을 이용한 트위터 혐오 발언 문장 탐지

박다솔, 차정원

http://doi.org/10.5626/JOK.2018.45.11.1185

사회관계망 서비스(SNS, Social Network Service)에서 발생하는 혐오 발언 문장으로 인해 피해를 보는 사람이 점점 늘고 있다. 본 논문은 트위터 문장에서 단순 사전 비교를 통한 혐오 발언 탐지를 넘어 문장의 내포된 의미가 혐오성인지 아닌지를 판단하기 위해 대용량의 파일에서 준지도 학습과 심층신경망을 이용한 탐지 방법을 제안한다. 대부분 혐오 단어로 구성된 블랙리스트를 생성하여 이것과 비교하여 판단한다. 하지만 이러한 방법은 혐오 발언의 미묘하고 교묘한 표현을 찾아내지 못한다는 단점이 존재한다. 그리고 한국어 트위터 문장에 대해 혐오 발언 여부에 대한 레이블을 부착한 코퍼스를 생성하였다. 트위터 코퍼스 4만4천문장을 학습하였고, 1만3천여문장을 평가하여 음절 1-layer CNN과 문장 벡터를 사용한 모델의 결과가 명시적 혐오 발언의 F1 Score 86.13% 성능을 보였다. 음절 1-layer CNN과 2-layer CNN 그리고 문장 벡터를 사용한 모델 결과가 암시적 혐오 발언의 F1 Score 25.53%의 성능을 얻었다. 논문에서 제안한 방법을 이용하여 사이버 불링을 탐지하기 위한 방법으로 사용할 수 있다.

단어 특징의 의미적 보강을 이용한 트위터 뉴스 분류 기법

지선미, 문지훈, 김현우, 황인준

http://doi.org/10.5626/JOK.2018.45.10.1045

최근 많은 사람들이 트위터를 뉴스 플랫폼으로 활용하면서 많은 뉴스 기사가 끊임없이 생성되고, 기사와 관련된 다양한 정보와 의견들이 빠르게 확산되고 있다. 그러나 트위터 뉴스는 동시다발적으로 포스팅되기 때문에 사용자가 원하는 주제의 기사를 선별하여 보기가 어렵다는 문제가 있다. 이를 위해, 트위터 뉴스를 주제별로 분류하기 위한 기계 학습과 딥러닝 기반의 다양한 연구들이 진행되었다. 하지만 통상적인 기계 학습 기법은 트위터 뉴스를 임베딩하는 과정에서 데이터 희소성이나 시맨틱 갭의 문제가 발생할 수 있으며, 딥러닝 기법은 많은 양의 데이터를 필요로 한다. 이러한 단점을 개선하기 위해, 본 논문에서는 적은 양의 데이터로도 데이터 희소성과 시맨틱 갭 문제를 해결할 수 있는 방법으로, 단어 특징의 의미적 보강을 이용한 트위터 뉴스 분류 기법을 제안한다. 구체적으로 먼저, 벡터 공간 모델을 이용하여 수집된 트위터 뉴스 데이터의 특징을 추출하고, DBpedia Spotlight를 통해 DBpedia의 자원과 온톨로지 정보를 반영하여 추출된 특징을 보강한다. 보강된 특징 단어 집합을 이용하여 다양한 기계 학습 기법 기반의 주제별 분류모델을 구성하고, 다양한 실험을 통해 제안하는 모델이 기존의 기법들보다 더 효과적임을 보인다.

지능형 영상 감시 시스템에서 모바일 센서 융합을 이용한 폭력행위 인식

차현인, 송광호, 김유성

http://doi.org/10.5626/JOK.2018.45.6.533

본 논문에서는 지능형 CCTV에서 동시다발적이고 연속적인 행위들로부터 추출한 특성들을 반영하여 폭력행위를 인식하는 방법으로서 그룹 ROI(Region of Interest)를 검출하고 ROI에서의 Dense Optical Flow 알고리즘을 사용해 얻은 움직임 정보와 영상 내 행위자가 소지한 모바일 기기의 관성측정장치로부터 얻은 가속도와 각속도 정보를 융합한 폭력행위 인식모델을 제안한다. 그리고 제안한 모델의 연산시간 감소를 통한 실시간성 확보와 영상만을 사용했을 때의 가려짐에 따른 성능 저하 현상의 성능 개선여부를 평가하기 위한 실험들을 진행하였으며 실행시간 측면에서 약 5.26배 빠른 연산속도를 보였고 정확도 측면에서 11.4% 증진된 결과를 보였다. 이를 통해 제안 모델이 폭력행위 인식에 발생하는 과도한 연산에 따른 실시간성 문제를 보완할 수 있고 영상 내 행위자 사이의 가려짐에 따른 비전 인식 불능에 대한 문제점을 보완할 수 있음을 알 수 있다.

LTRE: Lightweight Traffic Redundancy Elimination in Software-Defined Wireless Mesh Networks

Gwangwoo Park, Wontae Kim, Joonwoo Kim, Sangheon Pack

http://doi.org/10.5626/JOK.2017.44.9.976

낮은 비용으로 무선 네트워킹 인프라를 구축할 수 있는 무선 메쉬 네트워크에서는 제한된 무선 자원을 효율적으로 이용하기 위해 패킷 전송(특히, 불필요하게 중복되는 패킷 전송)을 신중하게 처리해야 한다. 본 논문에서는 컨트롤러를 통한 중앙 집중식의 관리가 가능한 소프트웨어 정의 네트워킹 기반의 무선 메쉬 네트워크에서 불필요하게 중복 전송되는 데이터의 양을 감소시키기 위해 경량화된 중복 제거기법을 제안한다. 제안하는 중복 제거 기법은 감소되는 트래픽 양을 극대화하기 위해 컨트롤러가 1) 기계학습 기반의 정보 요청, 2) ID기반의 소스 라우팅, 3) 인기도 기반의 캐쉬 업데이트를 통해 중복 제거 효과를 극대화시킬 수 있는 최적의 경로를 결정한다. 시뮬레이션 결과는 제안하는 기법을 통해 전체 트래픽 부하를 18.34%-48.89% 만큼 감소시킬 수 있음을 보여준다.

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법

이우인, 송광호, 심규석

http://doi.org/

질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.

컴퓨터 게임의 NPC를 위한 적응적 경로 이동의 구현

김은솔, 김혜연, 유견아

http://doi.org/

컴퓨터 게임에서 NPC(NonPlayer Character)의 획일적인 경로 이동은 게임 플레이어의 흥미를 떨어뜨리는 요인이 된다. 웨이포인트 그래프를 이용한 길찾기의 경우, NPC가 지정된 위치만을 이용하여 이동하게 되므로 이 문제점은 더욱 두드러져 보인다. 본 논문에서는 이 문제의 해결을 위해 플레이어의 이동을 관찰하여 NPC가 적응적으로 경로를 계획할 수 있도록 하는 방법을 제안한다. 제안하는 방법은 우선, 플레이어 이동의 포인트 지정을 관찰하여 웨이포인트를 동적으로 수정하고, 수정된 웨이포인트들을 NPC의 경로 탐색에 이용하는 것이다. 또한 플레이어의 지형 선호도를 학습하여 NPC별로 특성에 맞는 경로를 계획하기 위한 알고리즘을 제안한다. 유니티 4.0으로 제작된 RPG(Role Playing Game) 게임으로 구현된 알고리즘을 시뮬레이션하여 NPC 이동이 다양해지고 플레이어의 이동과 유사한 방향으로 개선됨을 확인한다.

안드로이드 OS에서 앱 설치 의사결정 지원을 위한 악성 앱 분류 시스템

유홍렬, 장윤, 권태경

http://doi.org/

안드로이드 시스템은 권한 기반의 접근제어 기능을 제공하고, 사용자로 하여금 앱 설치시 앱이 가진 권한을 통해 설치여부를 판단하도록 요구하고 있지만, 대부분의 사용자는 이것을 무시하거나 모르고 지나치는 경향이 있다. 따라서 사용자가 이와 같은 중요한 단계에 주어진 역할을 직관적으로 수행할 수 있도록 하기 위한 개선된 방법이 필요하다. 본 논문에서는 퍼미션 기반 접근제어 시스템을 위해 사용자의 의사결정을 즉각 지원할 수 있는 새로운 기법을 기계학습에 기반하여 연구하고 제안한다. 구체적으로 K-최근접 이웃 알고리즘을 목적에 맞게 수정하여 악성앱 가능성 판단에 대한 연구를 진행하였으며, 특성으로 안드로이드의 권한 152개를 사용했다. 실험 결과 약 93.5%의 정확도를 보였으며 유사한 알고리즘, 혹은 특성으로 권한만을 사용한 기존의 연구결과에 비해 우수한 분류 결과를 보였다. 이는 K-최근접 이웃 알고리즘의 범주 선택시 가중합을 반영했기 때문이다. 본 연구결과는 사용자가 권한을 검토하고 설치할 때 의사결정에 도움을 줄 수 있을 것으로 기대된다.

MOnCa2: 지능형 스마트폰 어플리케이션을 위한 사용자 이동 행위 인지와 경로 예측기반의 고수준 콘텍스트 추론 프레임워크

김제민, 박영택

http://doi.org/

MOnCa2는 스마트폰에 장착된 센서와 온톨로지 추론 기반의 지능형 스마트폰 어플리케이션 구축을 위한 프레임워크다. 기존에 연구되었던 MOnCa는 온톨로지 인스턴스로 등록된 센서 값에 대한 정보를 바탕으로 사용자의 현재 상황을 판단 및 추론하였다. 이러한 방식은 사용자의 공간 정보나 주변에 존재하는 객체가 무엇인지 판단하는 것은 가능하나 사용자의 물리적인 콘텍스트(이동 행위, 이동할 목적지 등등) 판단하는 것은 불가능했다. 본 논문에서 설명하는 MOnCa2는 사용자 개개인의 물리적인 콘텍스트를 판단 및 추론하기 위해 스마트폰의 장착된 센서를 바탕으로 행위 및 이동 상황에 대응하는 인지 모델을 구축하고, 구축된 모델을 기반으로 사용자의 실시간 행위 및 이동 상황에 대해 1차적인 추론을 수행하며, 추론된 1차적인 콘텍스트에 대해 온톨로지 기반의 2차 추론을 통해 지능형 어플리케이션에 필요한 고수준 사용자 콘텍스트를 생산한다. 따라서 본 논문은 스마트폰의 가속도 센서를 기반으로 사용자의 이동에 필요한 행위를 인지하는 기법, 스마트폰의 GPS 신호를 바탕으로 이동 목적지와 경로를 예측하는 기법, 온톨로지 실체화를 적용하여 고수준 콘텍스트를 추론하는 과정에 초점을 맞추어 설명을 한다.

한국어 형태소 분석을 위한 음절 단위 확률 모델

심광섭

http://doi.org/

본 논문에서는 음절 단위의 한국어 형태소 분석 방법에 적용할 수 있는 세 가지 확률 모델을 제안하고, 품사 태깅 말뭉치를 이용하여 각 확률 모델의 성능을 평가한다. 성능 평가를 위해 1,000만 어절규모의 세종 말뭉치를 10 개의 세트로 나누고 10 배수 교차 검증 결과 98.4%의 정답 제시율을 얻을 수 있었다. 제안된 확률 모델은 각 음절에 대하여 품사 태그를 먼저 부착한 후 원형 복원 및 형태소 생성을 하기 때문에 원형 복원을 먼저 하는 기존 확률 모델에 비하여 탐색 공간이 크게 줄어들어 형태소 분석 과정이 훨씬 간결하고 효율적이어서 분석 속도가 기존의 초당 수 백 어절에서 14만 7천 어절로 약 174배 가량 향상시킬 수 있었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr