검색 : [ keyword: encoding ] (10)

텍스트 부가 정보를 활용한 선형 기반 순차적 추천 모델

이동철, 최민진, 이종욱

http://doi.org/10.5626/JOK.2025.52.6.529

최근 순차적 추천 시스템에서는 부가 정보를 활용한 연구가 활발히 시도되고 있다. 대부분의 접근은 언어 모델과 심층 신경망을 결합에 집중하지만, 이는 높은 연산 비용과 지연 시간 문제를 초래한다. 비신경망 기반의 선형 추천 모델은 효율적인 대안이 될 수 있으나, 부가 정보를 효과적으로 활용하는 방법에 대한 연구는 부족하다. 본 연구는 선형 모델에서 부가 정보를 효과적으로 활용할 수 있는 프레임워크를 제안한다. 텍스트 정보는 선형 모델의 학습에 직접 사용되기 어려우므로, 사전 학습된 텍스트 인코더를 통해 항목의 텍스트를 밀집 벡터로 변환한다. 이들은 풍부한 정보를 담고 있지만 항목 간 연관성은 이해하지 못한다. 이를 해결하기 위해 그래프 합성곱을 적용해 강화된 항목 표현을 얻는다. 얻어진 항목 표현은 사용자-항목 상호작용 행렬과 함께 선형 모델 학습에 활용된다. 광범위한 실험을 통해 제안 방법이 전체 성능을 향상하고, 특히 비인기 항목의 성능 개선에 효과적임을 확인하였다.

지식 추적 모델의 성능 개선을 위한 양자화된 정답률 임베딩 방법

임윤진, 문재완, 최은성, 이종욱

http://doi.org/10.5626/JOK.2023.50.4.329

지식 추적이란 학습자의 문제풀이 기록을 바탕으로 학습 성취도를 추적하는 문제로, 일련의 문제풀이 기록과 목표 문제가 주어질 때 정답 여부를 예측하는 것을 목표로 한다. 본 연구에서는 문제별 난이도를 고려하지 않은 기존 딥러닝 기반 지식 추적 모델이 쉬운 난도의 문제를 틀리거나 어려운 난도의 문제를 맞히는 학습자를 잘 학습하지 못하는 문제를 해결하고자 한다. 이에 각 문제의 정답률을 바탕으로 학습자의 답변 정보를 양자화는 방식을 제안함으로써 문제의 난이도와 학습자의 답변을 함께 학습하도록 유도하여 성능을 개선한다. 결과적으로 본 연구에서는 정답률이 높은 음성 샘플과 정답률이 낮은 양성 샘플에 대하여 모델이 효과적으로 분별할 수 있는 방법을 제안한다. 이를 위해 잠재 공간상에서의 해당 샘플
들에 대한 임베딩 표현의 차이를 최대화할 수 있는 sinusoidal positional encoding 방법을 도입한다. 실험 결과, 제안 방법을 적용하였을 때 기존 방법 대비 AUC 값이 목표 구간에서 최대 17.89%까지 향상되는 것을 확인하였다.

Efficient Approach for Encoding and Compression of RDF Knowledge Bases

Tangina Sultana, Young-Koo Lee

http://doi.org/10.5626/JOK.2022.49.3.241

엔티티 중심 검색 및 자연어 기반 질의의 엄청난 성장으로 인해 활용 가능한 지식 베이스(Knowledge Bases, KBs)의 크기가 기하급수적으로 증가하였다. 따라서 대용량의 데이터를 효율적으로 검색하는 SPARQL 쿼리 검색 엔진이 필요하다. RDF 엔진은 주로 지식 베이스를 관리하기 위해 순서, 좌표, 구문 및 해시 기반 인코딩을 사용한다. 그러나 대부분의 기존 방법에서는 더 좋은 압축률을 보이지 못하고, 적재 시간이 느리며, 질의 성능이 효율적이지 않다. 따라서 본 논문에서는 더 높은 압축률을 달성하고 압축 및 인코딩된 데이터에 대한 SPARQL 쿼리의 성능을 향상시키기 위해 빈발하고 의미적으로 관련된 용어를 감지하는 접근 방식을 제안한다. 이 기법은 통계 정보와 의미론적 접근을 결합한 접근 방식으로 사전 인코딩 알고리즘을 기반으로 한다. 의미론을 기반으로 자주 사용되지 않는 용어를 식별하는 스키마를 도입했다. 그리고 시스템은 의미론적으로 관련된 데이터를 온톨로지 클래스로 조합하여 필요한 메모리 적재를 통해 로딩 시간을 더욱 줄여준다. 우리는 제안된 기법을 기존의 접근 방식과 실험을 통해 비교를 진행하고, 실험 결과 우리가 제안한 접근 방식이 기존 시스템보다 지식 베이스를 훨씬 더 효과적으로 압축하고 인코딩함을 확인한다.

방대한 시공간 IoT 센서 데이터의 효율적인 검색을 위한 트라이 기반 색인 방법

추하원, 서영균, 이용, 박민우, 장래영, 이상환, 송사광

http://doi.org/10.5626/JOK.2020.47.12.1199

통신 기술과 컴퓨팅 능력의 발전으로 인해 사물인터넷 센서가 여러 분야에 보편화되면서 대량의 시공간 사물 데이터가 끊임없이 생성되고 있다. 고차원적인 추가 분석을 위해, 그러한 거대한 시공간 사물 데이터를 저장 시스템에 수집하는 것은 고도화된 저장 기술 덕분에 그리 어렵지 않게 되었다. 그럼에도 불구하고, 사물데이터의 거대한 양과 복잡한 시공간성으로 인해 질의된 사물 데이터를 신속히 찾아내는 것은 여전히 도전적인 문제로 여겨져 왔다. 본 논문은 이러한 문제점을 해결하기 위해 시공간성을 가진 대용량 사물 데이터에 대해 효율적인 검색을 지원하는 색인 방법인 ST-Trie를 제안한다. ST-Trie의 핵심 아이디어는 시공간 지역성을 고려하여 3차원 시공간 정보를 1차원 데이터로 부호화한 다음, 이를 논리적인 트라이(Trie) 구조로 조직하는 것이다. 제안된 방법인 ST-Trie에 대한 실제 사물인터넷 센서로부터 얻은 데이터 셋들을 이용한 실험 결과, ST-Trie가 질의 응답 시간에 관하여 비교된 복합 색인보다 최대 92배 더 높은 성능을 보였다. 특히, 우리는 ST-Trie가 주어진 시간 범위가 커질수록 더 확장성 있는 검색을 수행하였음을 확인하였다.

데이터 분포 관찰을 통한 공간 효율적인 Top-k Query 인코딩

박우영, 스리니바사 라오 사티

http://doi.org/10.5626/JOK.2020.47.3.235

본 논문에서는 주어진 범위에서 인코딩된 데이터로 이차원 원본 배열에 대한 접근 없이 상위 k개의 원소의 위치를 찾는 질의에 답을 하는 문제를 다룬다. 본 논문에서는 데이터 분포 관찰을 통해 일반적인 이차원 배열에 대해서 이전 연구들보다 더 효율적인 Top-k 질의 인코딩 방법을 제안하고 실험 결과를 통해 공간 효율성이 향상됨을 보인다. 또한 데이터로부터 학습한 자료구조 연구를 간결한 자료구조에 활용할 방법을 제시한다.

소량의 대화 말뭉치에서 학습 가능한 효과적인 생성 기반 챗봇 모델

김진태, 이현구, 김학수

http://doi.org/10.5626/JOK.2019.46.3.246

잘 알려진 검색 기반 챗봇 모델과 다르게 생성 기반 챗봇 모델은 사전에 정의된 응답에 의존하지 않고 학습된 신경망 모델을 사용하여 새로운 응답을 생성한다. 하지만 생성 기반 챗봇 모델은 발화-응답 쌍의 형태를 가진 대용량의 대화 말뭉치가 필요하다. 학습 말뭉치가 충분하지 않은 경우 구문론적 오류가 발생한다. 본 논문은 이 문제를 해결하기 위해 인코딩-디코딩 단위를 형태소와 음절이 복합적으로 사용된 시퀀스-투-시퀀스 신경망 기반의 챗봇을 제안한다. 또한 대용량의 비 대화 말뭉치를 이용하여 사전 학습하고 소량의 대화 말뭉치를 이용하여 재학습하는 2단계 학습 방법을 제안한다. 소량의 대화 말뭉치(47,089개의 발화-응답 쌍 학습 데이터와 3,000개의 발화-응답 쌍 평가 데이터)를 사용한 실험에서 제안한 인코딩-디코딩 단위는 미등록어 문제를 감소시키는데 도움을 주었고, 2단계 학습 방법은 BLEU와 ROUGE와 같은 성능 향상에 도움을 주었다.

포지션 인코딩 기반 S³-Net를 이용한 한국어 기계 독해

박천음, 이창기, 김현기

http://doi.org/10.5626/JOK.2019.46.3.234

S³-Net은 Simple Recurrent Unit (SRU)과 자기 자신의 RNN sequence에 대하여 어텐션 가중치(attention weight)를 계산하는 Self-Matching Networks를 기반으로 기계 독해 질의 응답을 해결하는 딥 러닝 모델이다. 기계 독해 질의 응답에서 질문에 대한 답은 문맥 내에서 발생하는데, 하나의 문맥은 여러 문장으로 이뤄지기 때문에 입력 시퀀스의 길이가 길어져 성능이 저하되는 문제가 있다. 본 논문에서는 이와 같이 문맥이 길어져 성능이 저하되는 문제를 해결하기 위하여 문장 단위의 인코딩을 추가한 계층모델과, 단어 순서 정보를 확인하는 포지션 인코딩을 적용한 S³-Net을 제안한다. 실험 결과, 본 논문에서 제안한 S³-Net 모델이 한국어 기계 독해 데이터 셋에서 기존의 S²-Net보다 우수한(single test) EM 69.43%, F1 81.53%, (ensemble test) EM 71.28%, F1 82.67%의 성능을 보였다.

심층신경망에서의 효과적인 문장추상화를 위한 한국어 단위 연구

정상근

http://doi.org/10.5626/JOK.2018.45.5.457

최근 자연어 처리 분야에서 심층신경망의 적용이 활발히 이루어지고 있다. 본 연구의 목적은 한국어 자연어 처리에 있어 심층신경망을 활용하여 문장 추상화를 수행하고, 추상화된 벡터값을 활용해 분류문제를 해결하고자 할 때 가장 적절한 한국어 입력 단위를 찾는 것이다. 문장 추상화에 사용되는 가장 대표적인 심층신경망인 Recurrent Neural Network과 Convolutional Neural Network을 먼저 소개하고, 음절, 형태소-품사, 부단어, 음절조합 등의 다양한 입력단위를 살펴본 뒤, 각 방법론을 감성분류, 주제분류, 의도분류의 문제에 적용해봄으로써 가장 효과적인 한국어 입력단위를 찾아보고자 한다.

추상 도달가능성 그래프 기반 소프트웨어 모델체킹에서의 탐색전략 고려방법

이낙원, 백종문

http://doi.org/10.5626/JOK.2017.44.10.1034

본 연구에서는 추상 도달가능성 그래프(ARG) 기반의 소프트웨어 모델체킹에서 그래프 탐색전략을 설정할 수 있는 새로운 방법을 제시한다. ARG의 여러 실행 경로를 하나로 묶어 모델체킹 성능을 향상시키는 기법인 블록 인코딩(Block Encoding) 기법을 활용하는 경우 기존의 기법들은 인코딩 전의 ARG에서 인코딩을 효과적으로 수행할 수 있는 탐색전략만을 고려하였을 뿐 실제 모델체킹의 성능을 좌우할 수 있는 인코딩 후의 ARG에 대한 탐색전략을 고려하지 못하는 문제가 있었다. 본 연구에서는 기존 연구에서 제시된 탐색 기법을 사용하여 블록 인코딩을 효과적으로 수행하는 동시에 인코딩된 후의 ARG에 대한 탐색 순서를 고려할 수 있는 이중 탐색전략 기법을 제시한다. 또한 탐색 순서의 변화가 모델체킹의 성능에 미치는 영향을 확인하기 위하여 제시하는 기법을 오픈소스 모델체킹 도구에 구현하고 벤치마크 실험을 수행하였으며 탐색전략이 달라지면 모델체킹의 성능이 달라지는 현상을 확인하였다.

지능형 자동차를 위한 조명 변화에 강인한 도로표지판 검출 및 인식

이태우, 임광용, 배건태, 변혜란, 최영우

http://doi.org/

본 논문은 도로주행 영상에서 도로표지판을 인식하는 방법을 제안한다. 지능형 차량에서 얻어지는 도로표지판 영상은 일반적인 사물 영상과는 다른 두 가지 특징이 있다. 첫째는 대상이 되는 사물들은 종류가 제한적이고 형태가 단순한 도형인 경우가 대부분이다. 둘째는 일반적인 도로주행 영상은 다양한 조명 환경과 날씨 상태로 인해서 선명한 영상을 취득하기 어려운 점이다. 본 논문에서는 조명 변화가 심한 도로주행 영상에 대해서 효과적으로 특징을 추출하기 위해서 Modified Census Transform(MCT)을 개선한 특징추출 방법을 제안한다. 추출된 특징들은 히스토그램으로 쌓여지고 영상 전반에 걸쳐 아주 고차원의 기술자(Descriptor)로 변환되며, 변환된 수많은 기술자들은 가우시안 혼합 모델(Gaussian Mixture Model)을 활용한 Fisher-vector 방법에 의해서 저차원으로 변형하여 특징으로 사용한다. 본 논문에서 제안하는 방법은 일반적인 표지판 인식 방법에 비해서 조명변화에 강한 검출 결과를 보여주었으며, 실시간 검출 및 인식도 가능하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr