디지털 라이브러리[ 검색결과 ]
링크 속성 기반 분류를 통한 커뮤니티 발견
http://doi.org/10.5626/JOK.2021.48.8.959
빠르고 복잡하게 진화하는 세상을 이해하기 위하여 데이터를 통해 지식을 발견하는 시도는 점차 다양화되고 있다. 개체들이 관계를 갖고 얽혀있는 데이터를 그래프로 모델링하고 분석하는 그래프 데이터 분석은 최신 기계학습 기법과 접목되면서 많은 관심을 끌고 있다. 본 논문에서는 그래프 커뮤니티 구조를 발견하기 위한 새로운 방법론을 제안한다. 커뮤니티 내부 및 외부에 존재하는 링크들이 다른 속성값을 갖도록 하는 유사도, 곡률 기반 속성들에 대해 분석하고, 이를 활용하여 커뮤니티 구조에 영향을 덜 끼치는 링크를 제거하여 더 희소한 그래프에서 더 향상된 커뮤니티 구조를 찾아내는 알고리즘을 설계 및 분석한다.
주제 핵심어 기반 감정 분석을 통한 프로 스포츠 팬 사이트에서의 여론 분류 기술
http://doi.org/10.5626/JOK.2018.45.4.390
본 연구에서는 한국 프로 스포츠 공식 사이트의 팬 게시물을 대상으로, 핵심 키워드를 이용하는 감정 분석 방법에 기반을 둔 여론 분류 방법을 제시하였다. 본 연구팀은 커뮤니티의 특별한 커뮤니케이션 방식이나 단어의 사용을 감안할 수 있는 방법에 대해 연구하였고, 주제의 특징이나 커뮤니티의 은어중 빈도를 기반으로 중요한 단어를 핵심어로 정의하였다. 또한, 우리는 핵심어 단어 풀의 사용 및 핵심어와의 인접 관계를 활용한 새로운 감정 분석 방법을 제시하였고, 실제 커뮤니티의 3년치 데이터셋을 통해 주제 핵심어 기반 감정 분석이 기존의 일반적인 방법에 비해 효과적으로 커뮤니티 환경을 반영하고 있음을 실험을 통해 확인하였다.
온라인 커뮤니티 사용자의 행동 패턴을 고려한 동일 사용자의 닉네임 식별 기법
http://doi.org/10.5626/JOK.2018.45.2.165
온라인 커뮤니티란 SNS와 달리 사용자들이 닉네임을 통해 익명으로 관심사와 취미를 공유하는 가상 그룹 서비스이다. 그런데 이런 익명성을 악의적으로 활용하는 사용자들이 존재하고, 닉네임의 변경으로 인해 동일 사용자의 데이터가 서로 다른 닉네임에 존재하는 데이터 파편화 문제가 발생할 수 있다. 또한 온라인 커뮤니티에서는 닉네임을 변경하는 일이 빈번하므로 동일 사용자를 식별하는데 어려움을 겪는다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 온라인 커뮤니티 특성을 고려한 사용자의 행동패턴 특징 벡터를 제시하며, 관계 패턴이라는 새로운 암시적 행동 패턴을 제안함과 동시에 랜덤 포레스트 분류기를 이용한 동일 사용자의 닉네임을 식별하는 기법을 제안한다. 또한 실제 온라인 커뮤니티 데이터를 수집해 제안한 행동패턴과 분류기를 이용해 동일 사용자를 유의미한 수준으로 식별할 수 있음을 실험적으로 보인다.
소셜 네트워크에서 효율적인 영향력 최대화 방안
http://doi.org/10.5626/JOK.2017.44.10.1105
영향력 최대화란 소셜 네트워크에서 최대의 영향력을 갖는 k개의 시드(seed) 노드로 이루어진 집합을 선출하는 문제이다. 이 문제를 해결한 기존 방법들이 갖는 가장 큰 문제는 시드 집합을 선출하는데 너무 많은 시간이 소요된다는 점이다. 이러한 성능 문제는 미시적, 거시적 두 가지 측면에서 발생한다. 본 논문은 미시적, 거시적 측면의 성능 문제 동시에 해결하는 효율적인 영향력 최대화 방안을 제안한다. 또한, 양질의 시드 집합을 선출하기 위한 새로운 경로 기반 커뮤니티 탐지 기법을 제안한다. 네 가지 실세계 데이터를 이용한 실험을 통해, 제안하는 방안이 미시적, 거시적 측면의 문제를 모두 해결하는 동시에 양질의 시드 집합을 선출함을 확인하였다.
다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템
커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.
유사 단어 커뮤니티 기반의 질의 확장
질의 확장은 입력된 질의와 관련된 키워드를 사용자에게 제시하여 검색 활동에 도움을 주는 방법이다. 최근에는 사용자가 검색한 내용에서 군집화 방법을 이용하여 도메인을 찾고 키워드를 제시하는 연구가 많이 이루어졌다. 하지만 군집화 방법은 군집의 개수를 정해야하기 때문에 다양한 도메인을 나타내는데 적절하지 않다. 따라서 본 논문은 커뮤니티 인지 알고리즘으로 검색 문서에서 질의마다 다양한 수의 도메인을 찾고 키워드로 선택하여 제시하는 방법을 제안한다. 이를 위해 사용자가 검색한 결과 중 상위 30개 문서를 대상으로 단어를 추출하여 그래프 기반의 커뮤니티를 만들고, 각 커뮤니티에서 키워드를 추출하여 이를 질의 확장에 이용하였다. 본 논문에서 제안한 방법은 구글 검색 엔진과 검색된 문서의 tf-idf 를 이용한 키워드 추천 방법과 비교하였다. 제안한 방법이 다른 비교 대상들에 비해 더 다양한 키워드를 추천할 수 있었다.