검색 : [ keyword: review ] (8)

효과적인 개인화 결합 방식 및 BERT를 활용한 리뷰 기반 개인화 추천시스템

국희진, 신유현

http://doi.org/10.5626/JOK.2023.50.8.646

일반적으로 리뷰 텍스트에는 사용자의 주관적인 정보들이 포함되어 있으며 사용자가 작성한 리뷰는 같은 표현이더라도 사용자별로 서로 다른 의미를 가질 수 있다. 이런 리뷰의 특징을 이용하여 데이터 희소에 취약한 협업 필터링의 단점을 보완할 수 있으며 개인화 추천시스템을 위한 정보로도 사용할 수 있다. 하지만 자연어처리 분야에서 사전 학습 언어 모델의 성공에도 불구하고, BERT를 활용하여 리뷰를 통해 개별 사용자 특징을 풍부하게 표현하고자 하는 개인화 추천시스템 연구는 많이 이루어지고 있지 않다. 따라서 본 연구에서는 BERT를 사용하여 리뷰로부터 사용자 및 상품별 특징을 깊이 학습하고, 이를 사용자 및 상품 ID와 긴밀하게 결합함으로써 개인화된 사용자 및 상품 표현을 나타내는 평점 예측 모델을 제안한다. 실험을 통해 아마존 벤치마크 데이터셋에 대해 제안하는 모델이 베이스라인보다 향상된 성능을 얻을 수 있음을 보인다.

어텐션기반 측면추출에 기반한 제품리뷰의 측면 요약

정준녕, 김상영, 김성태, 이정재, 정유철

http://doi.org/10.5626/JOK.2021.48.12.1318

최근 기계학습을 통한 기사, 논문 등과 같은 문서 요약뿐만 아니라 온라인 리뷰에 대한 요약 관련 연구도 활발하다. 본 연구에서는 기존의 단순히 내용을 요약하는 것과는 달리, 제품 리뷰에 존재하는 다양한 측면(aspect)를 고려하여 측면 요약을 생성하는 기법을 다룬다. 학습 데이터 구축을 위해 크롤링한 이어폰 제품리뷰 데이터를 정제하여 4만여개의 리뷰를 획득하였고, 이 중 4천개의 리뷰를 수작업을 통해 측면 요약정답 셋을 구축하였다. 특히, 측면 기반 단어 확장 기법(ABAE)를 활용하여 텍스트 데이터만 있으면 측면 요약이 가능한 모델을 제안한다. 제안 기법의 효율성을 판단하기 위해, 학습 시 측면과 관련된 단어 사용 여부와 마스킹 비율에 따른 실험을 진행하였다. 측면과 관련된 단어 중 25%를 무작위로 마스킹 한 모델이 가장 높은 성능을 보이는 것을 확인하였으며 검증 시 ROUGE는 0.696, BERTScore는 0.879를 획득하였다.

문맥 표현과 셀프 어텐션을 이용한 한국어 영화평 감성 분석

박천음, 이동헌, 김기훈, 이창기, 김현기

http://doi.org/10.5626/JOK.2019.46.9.901

감성 분석은 특정 대상에 대한 의견을 수집하고 분류하는 과정이다. 그러나 자연어에 포함된 사람의 주관을 파악하는 일은 어려운 일로써, 기존의 감성 단어 사전이나 확률 모델은 이러한 문제를 해결하기 어려웠으나 딥 러닝의 발전으로 문제 해결을 시도할 수 있게 됐다. 셀프 어텐션(self-attention)은 주어진 입력열 자신에 대하여 어텐션을 계산하고 가중치 합으로 문맥 벡터를 만들어 모델링하는 방법이며, 문맥상 비슷한 의미를 가진 단어들 간에 높은 가중치가 계산되는 효과가 있다. 본 논문에서는 사전 학습된 문맥 표현을 한국어 감성 분석에 활용하고, 셀프 어텐션으로 모델링하는 방법을 제안한다. 실험 결과, NSMC의 경우 정확도 89.82%, 다음카카오의 경우 92.25%의 성능을 보였다.

LSTM(Long Short-Term Memory)을 이용한 가짜 리뷰 생성과 분석 및 평가

오영교, 구동영

http://doi.org/10.5626/JOK.2019.46.6.515

의견 스팸(opinion spam)은 특정 목적을 가진 집단이 생성한 의견을 통하여 타인 또는 타 집단에 영향을 미치는 행위를 일컫는다. 이는 소셜 네트워크 상에서 특정 대상의 평판에 영향을 미칠 수 있다는 점에서 온라인 서비스가 활발히 이루어지고 있는 현 시점에 큰 문제로 여겨질 수 있으며, 국내외 산업 및 학계에서도 관심을 보이고 있다. 본 연구에서는 의견 스팸 행위 탐지에 앞서 국내 의견 스팸 현황을 확인하고 순환신경망을 이용해 가짜 리뷰를 자동 생성해봄으로써 의견 스팸으로 인한 피해 가능성을 예측해본다. 특히, 순환신경망의 장기 의존성 문제가 개선된 LSTM(long short-term memory)을 기반으로 한글 언어 모델을 학습하고 Word2Vec을 이용하여 생성된 리뷰의 특정 용어를 대체함으로써 품질 개선을 시도한다. 특정 외국어 기반 학습 모델을 한국어에 적용하고 성능 및 적절성을 평가함으로써 향후 한국어 의견 스팸에 대한 대응 방향을 살펴본다.

온라인 리뷰 클러스터를 이용한 추천 시스템 성능 향상

노기섭, 오하영, 이재훈

http://doi.org/10.5626/JOK.2018.45.2.126

추천 시스템은 과도한 정보제공으로 인한 정보 수용자의 결정 제약을 극복하고, 정보 제공자에게는 이윤과 평판을 최대화 시킬 수 있는 해결책으로 등장하였다. 추천 시스템은 다양한 접근법으로 구현이 가능하지만, 추천 대상 객체의 리뷰에서 생성되는 다양한 소셜 정보를 적절히 활용하는 방안은 연구되지 못하였다. 본 논문에서는 기존의 접근법과는 다르게 온라인 리뷰에서 생성되는 클러스터 정보를 이용하여 추천 시스템의 성능을 향상시키는 방식을 제안하였다. 제안하는 방식을 구현하고 실제 데이터를 활용하여 실험한 결과 기존의 방식들보다 성능이 월등히 향상됨을 확인하였다.

국내 쇼핑 사이트 적용을 위한 리뷰 스팸 탐지 방법의 성능 평가

박지현, 김종권

http://doi.org/

상품 또는 상점에 대해 거짓된 후기를 남기는 악의적인 사용자가 증가함에 따라 사용자에게 신뢰성 있는 정보를 제공하는 데 어려움을 겪고 있다. 거짓된 후기는 리뷰 스팸이라고 불리는데, 제품을 홍보하거나, 평판을 훼손하기 위해 작성된다. 이는 제품의 판매량에 직접 영향을 미치기 때문에 이러한 리뷰 스팸을 탐지할 필요가 있다. 국내 쇼핑 사이트에서도 리뷰 스팸은 흔히 접할 수 있으나, 기존 연구에서 제안된 방법은 모두 외국 사이트에서만 평가되었다. 따라서, 본 논문에서는 리뷰 스팸을 탐지하는 기존 방법의 소개와 더불어 네이버 쇼핑의 리뷰 특성을 파악하고, 리뷰 스팸을 탐지하는 여러 가지 방법을 네이버 쇼핑에 적용하여 성능을 평가하였다.

Automatic Product Review Helpfulness Estimation based on Review Information Types

Munhyong Kim, Hyopil Shin

http://doi.org/

온라인 상품평 양의 비약적 증가로 인해 소비자들이 유용한 상품평 만을 찾는 것이 거의 불가능에 가까워졌다. 이 연구는 온라인 상품평의 유용성을 자동적으로 평가할 수 있는 토대를 마련하는데 그 목적이 있다. 이를 위해 상품평을 이루는 문장에 담긴 정보를 설명하는 그 대상에 따라 종류를 나눌 수 있도록 상품평 정보 분류를(Review Information Types) 제안하고, 각 정보 분류 내에서 문장의 주제 벡터 변환 방법과 군집화를 이용하여 더 세부적으로 각 문장이 어떤 정보를 제공하는지를 추출함으로써 각 상품평이 제공하는 정보에 따라 그 유용성을 평가하는 방법을 제안한다. 이러한 시도는 잠재적 소비자들이 상품평에서 상품 자체의 특성이나 상품평 제공자의 경험과 같은 정보를 배송과 같은 정보보다 중요하게 생각할 것이라는 가정에서 시작했다. 자동 상품평 유용성 평가 실험을 통해 본 연구에서 제시하는 방법이 기존의 비교 가능한 연구들에 비해 더 효과적인 것을 밝혀냈다.

인터넷 감정기호를 이용한 긍정/부정 말뭉치 구축 및 감정분류 자동화

장경애, 박상현, 김우제

http://doi.org/

네티즌은 인터넷을 통해서 상품을 구매하고 상품에 대한 감정을 긍정 혹은 부정으로 상품평에 표현한다. 상품평에 대한 분석은 잠재적 소비자뿐만 아니라 기업의 의사결정에 중요한 자료가 된다. 따라서 인터넷의 대량 리뷰에서 의미 있는 정보를 분석하여 의견을 도출하는 오피니언 마이닝 기술의 중요성이 증대되고 있다. 기존의 연구는 대부분이 영어를 기반으로 진행되었고 아직 한글에 대한 상품평 분석은 활발히 이루어 지지 않고 있다. 또한 한글은 영어와 달라 꾸미는 말과 어미가 복잡한 특성을 갖고 있다. 그리고 기존의 연구는 통계적 기법, 사전 기법, 기계학습 기법 등을 사용하여 연구되었으나 인터넷 언어의 특성을 감안하지는 못하였다. 본 연구에서는 감정이 포함된 인터넷 언어의 특성을 분석하여 감정분석의 정확률을 높이는 감정분류 방법을 제안한다. 이를 통해 데이터에 독립적인 인터넷 감정기호를 이용해서 자동으로 긍정 및 부정 상품평을 분류할 수 있었고 높은 정확률, 재현율, Coverage 결과를 통해서 제안 알고리즘의 유효성을 확인할 수 있었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr