검색 : [ keyword: ARC ] (63)

생성적 상호참조 해결을 통한 대화형 검색 질의 재작성 개선 방법

유희재, 이상구

http://doi.org/10.5626/JOK.2024.51.11.1028

대화형 검색에서 쿼리 재구성은 맥락 의존적인 쿼리를 맥락에 독립적인 형태로 변환하여 기존의 검색기를 활용하는 방법이다. 기존 접근 방식은 주로 사전 학습된 언어 모델을 인간이 다시 쓴 쿼리를 사용해 파인 튜닝하거나, 대형 언어 모델을 이용해 현재 턴 쿼리의 생략과 모호성을 해결한다. 그러나 본 논문의 실험 결과에 따르면 기존 방법들은 여전히 상호참조 해결에 어려움을 겪는다. 이 논문은 1) 쿼리 내 상호참조 구절을 감지할 수 있는 모델의 훈련 가능성, 2) 감지된 상호참조 구절을 구체화할 수 있는 모델의 훈련 가능성을 연구한다. 각 질문에 답하기 위해 Detector와 Decoder라는 두 구성 요소를 고안하고, 실험을 통해 파인 튜닝된 각 모델이 질문 내의 다양한 형태의 상호참조 구절을 식별하고 이를 구체적인 표현으로 재구성하는 것이 가능함을 보인다. 따라서 본 논문에서는 가벼운 생성 모델을 통해 상호참조를 해결함으로써 대화형 검색 성능을 향상시키는 새로운 패러다임을 제안한다.

차량 애드혹 네트워크에서 오동작 유형 분류를 위한 효과적인 임베딩 방법

김민규, 정재희

http://doi.org/10.5626/JOK.2024.51.11.970

차량들 간의 데이터를 송수신 할 수 있도록 하는 네트워크 기술인 VANET에는 차량, 인프라, 보행자 사이의 통신을 기반으로 차량 외부 정보와 내부 정보를 교환 할 수 있는 통신 기술인 V2X가 있다. 그러나 네트워크에서 결함 및 공격 정보를 포함한 데이터를 방송함으로 인해 치명적인 문제를 일으킬 수 있어 MBD(Misbehavior Detection) 시스템은 VANET에서 필수적인 기술이다. 최근에는 기계학습을 활용한 MBD 연구가 활발하지만, VANET에서의 오동작 유형들의 패턴이 정상 유형과 유사하여, 이를 일괄적으로 학습하여 완벽하게 분류하는 것에는 한계가 존재한다. 기존 연구에서 공격과 결함에 따른 분류 체계를 계층적으로 정의하여 오동작을 분류하는 방식을 제안하고 있다. 본 연구에서는 정확도가 높은 오동작 분류 모델 제안을 위해 계층적 분류 체계를 구축하기 위한 임베딩 표현 방법을 제안한다. 오동작 유형 분류를 사전 학습한 LSTM 모델을 통해 다변량 시계열 데이터에 대한 임베딩 벡터를 추출하여 오동작 유형의 핵심데이터를 압축하고, 계층적 군집화를 사용하여 다양한 공격 유형을 큰 그룹으로 나누는 방식을 제안하였다.

캐시 교체 기법 오버헤드 분석 및 구역 사상 교체 기법

유수원, 이동희

http://doi.org/10.5626/JOK.2024.51.10.849

장치 간에 성능 차이를 보완하기 위하여 캐시가 사용되며, 이를 위한 여러 캐시 교체 기법들이 연구되었다. 이러한 캐시 교체 기법들은 메모리 및 실행 오버헤드를 가지고 있지만, 기법들을 평가할 때 캐 시 히트율이 사용되고 교체 기법의 오버헤드는 주목받지 못했다. 최근 컴퓨터 시스템의 캐시 크기는 지속적 으로 증가하고 있으며, 이에 따라 오버헤드 역시 커지고 있다. 이러한 추세에 따라 본 논문은 교체 기법의 히트율과 함께 오버헤드에도 주목하여 캐시 교체 기법 평가에 새로운 관점을 제공하는 것을 목표로 한다. 본 논문에서는 먼저 LRU, CLOCK, 2Q, ARC, 그리고 RAND 교체 기법의 메모리 및 실행 오버헤드를 분 석한다. 그리고 메모리 및 실행 오버헤드가 작은 구역 사상(RM) 기법을 제시한다. 또한 핫/콜드 데이터를 다르게 취급하는 RM2 기법도 제시한다. 분석 및 실제 시스템에서 측정한 실험 결과에 따르면 RM과 RM2 기법은 오버헤드가 크게 작을 뿐 아니라 최신 기법들과 대등한 성능을 보인다. 또한 메모리 오버헤드가 작 은 기법은 주어진 캐시 크기에 더 많은 데이터를 캐싱하여 전체적인 데이터 접근 시간을 감소시킨다.

인지 및 추론 연구를 위한 테스트베드

김수빈, 프린푸냐 피반, 안동현, 김선동

http://doi.org/10.5626/JOK.2024.51.1.59

프랑소와 숄레(François Chollet)가 제안한 Abstraction and Reasoning Corpus (ARC)는 특정 문제에 매몰되지 않고, 일반화가 가능한 지능의 개발을 위해 디자인된 아이큐 테스트 형태의 벤치마크로, 인간과 컴퓨터 모두의 인지 능력을 측정하기에 적합하다. 대부분의 문제를 풀 수 있는 사람에 반해, 30% 이상의 문제를 풀 수 있는 컴퓨팅 기반 ARC-Solver는 알려지지 않았다. 이 연구에서는 기존 ARC의 난이도를 유지하면서도 모델의 복잡도를 간소화하기 위해 탐색 공간을 최소화한 벤치마크 데이터 Mini-ARC를 소개한다. Mini-ARC의 수집을 위해, 인간의 풀이 과정을 추적할 수 있는 인터페이스인 O2ARC를 고안하였으며, 이를 통해 25명에게 총 3,000여 개의 풀이를 수집하는 데 성공했다. 이 연구는 간소화된 인간의 인지 과정과 그 풀이 과정을 대량으로 확보하는 시스템을 구축하여, 컴퓨팅 기반 ARC-Solver 개발의 새로운 접근법을 제시한다.

계층적 표현 및 레이블 임베딩을 활용한 국내 논문 문장 의미 분류 모델

국희진, 김영화, 윤세휘, 강병하, 신유현

http://doi.org/10.5626/JOK.2024.51.1.41

논문 문장의 의미는 계층적인 구조를 가지며, 하위 카테고리 간에 데이터 불균형이 존재한다. 또한, 논문 문장의 의미는 논문 내에서의 위치와 밀접한 관련이 있다. 기존의 단일 수준 분류 방법은 주로 하위 카테고리만 고려하기 때문에 데이터 불균형으로 인한 분류 정확도 감소 문제가 발생한다. 이에 대응하여, 본 연구에서는 문장의 계층적 의미 분류를 효과적으로 수행하기 위한 계층적 표현 및 레이블 임베딩 방법을 제안한다. 더불어, 논문의 섹션명을 적극적으로 활용하여 논문 문장의 위치 정보를 표현한다. 실험을 통해 KISTI의 국내 논문 문장 의미 태깅 데이터셋에서 계층 정보와 위치 정보를 명시적으로 고려한 제안 방법이 F1 점수에서 우수한 성능을 보임을 확인했다.

계층적인 잠재 표현 기반의 사이버 범죄 신조어 자동 탐지 프레임워크

김용연, 온병원

http://doi.org/10.5626/JOK.2023.50.12.1121

사이버 범죄자들은 의사소통을 위해 기존 단어에 범죄 의미를 추가하거나 유사한 단어로 대체하여 은어를 끊임없이 생산해 사용한다. 이에 대응하기 위해서는 지속적인 모니터링과 수작업이 필요하며 딥러닝을 이용할 경우 레이블 된 많은 양의 학습데이터가 필요하다. 그러나, 사람이 직접 레이블링 하는 것은 시간과 비용이 많이 소요되고 사이버 범죄 특성상 은밀하게 진행되기 때문에 많은 양의 학습데이터를 수집하는 것은 한계 있다. 본 논문에서는 한계를 해결하기 위해 오토인코더를 기반으로 프레임워크를 개발하고 계층적인 잠재 벡터 유사도 비교를 통해 문맥적 사이버 범죄 은어와 신조어를 효과적으로 탐지하는 방안을 제안한다. 사이버 범죄 게시글 데이터셋을 사용하여 실험한 결과, 해당 프레임워크는 유사도 임계값 0.5에서 최대 99.1%의 정확도를 보였다.

RTL 수준 프로세서 구현으로부터의 ISA 명세 자동 추출 기법

하선, 문현곤

http://doi.org/10.5626/JOK.2023.50.10.827

응용 특화 프로세서들은 목표 도메인에서의 성능 극대화를 위해 자주 쓰이는 연산들을 위한 특화 명령어들을 가진다. 응용 특화 프로세서를 위한 프로그램은 특화 명령어를 사용하기 때문에 이들의 의미명세가 있어야 기호 실행기 등 고급 소프트웨어 분석 도구를 적용하는 것이 가능해진다. 이에 이 연구에서는 프로세서 구현 과정에서 반드시 작성해야 하는 레지스터 전송 레벨(RTL) 수준 프로세서 구현으로 부터 명령어의 의미(semantics)을 자동으로 추출하는 시스템인 SemTracter를 개발하였다. SemTracter는 프로세서의 RTL을 기호 실행해서 각 명령어의 의미명세를 얻고 이를 ISA 명세 작성을 위해 개발된 언어인 Sail로 표현한다. 개발된 SemTracter는 간단한 구현된 5-stage RISC-V 프로세서로부터 몇 가지 명령어의 의미명세를 성공적으로 추출하였으며, 이는 직접 사람이 작성한 명세와 비교하여 일치하는 것을 확인하였다.

클립-문장열의 일대일대응 관계를 이용한 동영상 검색 시스템

김두영, 고영중

http://doi.org/10.5626/JOK.2023.50.6.476

동영상 검색은 후보 동영상 중 텍스트 쿼리와 연관된 동영상을 찾는 연구 분야이다. 기존의 동영상 검색 모델은 비디오와 텍스트의 구조적 특징을 고려하지 않고 쌍을 이루는 임베딩이 서로 유사해지도록 학습하는 방식을 사용해왔다. 본 논문에서는 비디오와 텍스트의 구조적 특징 중 하나인 클립 시퀀스와 문장 시퀀스가 일대일대응 관계를 이룬다는 점을 활용하는 새로운 동영상 검색 모델 및 학습 기법을 제안한다. 실험 결과 본 논문에서 제안하는 최종 모델의 성능은 베이스라인 모델 대비 YouCook2 데이터셋에서 문장-클립 검색 R@1과 문단-동영상 검색 R@1에서 각각 0.3%p와 5.4%p의 향상된 성능을 보인다.

PatentQ&A: 트랜스포머 모델을 이용한 신경망 검색 시스템 제안

이윤민, 황태욱, 정상근, 서혜인, 노윤형

http://doi.org/10.5626/JOK.2023.50.4.306

최근 신경망 검색은 통계적 방법에 기반한 검색을 뛰어넘어 의미에 기반한 검색을 가능하게 하며 오타가 있어도 정확한 검색 결과를 찾을 수 있게 한다. 본 논문에서는 특허에 전문 지식이 없는 일반인이 일반 용어를 사용하여 특허 정보를 검색할 경우 사용자 질문 의도에 가장 근접한 답변을 보여주는 신경망 기반 특허 Q&A 검색 시스템을 제안한다. 특허청 홈페이지에 게시된 특허고객 상담 데이터로 특허 데이터 셋을 구축하였다. 사용자가 입력한 질문에 대한 유사한 질문을 추출하고 우선순위를 다시 지정하기 위해 특허 데이터 셋으로 미세조정한 Patent-KoBERT(Triplet)과 Patent-KoBERT(CrossEntropy)를 사용하였다. 실험 결과 Mean Reciprocal Rank(MRR)과 Mean Average Precision(MAP)의 수치는 0.96으로 사용자가 입력한 질문 의도와 가장 유사한 답변을 잘 선정한다는 것을 확인할 수 있다.

회귀 분석을 이용한 고복잡도 소프트웨어의 테스터빌리티 예측 모형 구축

최현재, 채흥석

http://doi.org/10.5626/JOK.2023.50.2.162

테스터빌리티는 소프트웨어가 주어진 테스트 컨텍스트에서 테스트를 지원하는 정도를 말한다. 테스터빌리티를 조기에 예측하면 개발자가 소프트웨어 품질을 보장하기 위해 많은 노력을 수행해야하는 소프트웨어 구성 요소를 조기에 식별하고, 테스트 활동을 계획하고, 시험 노력을 줄이기 위한 리팩터링 필요성을 인식하는 데 도움이 될 수 있다. 소프트웨어 메트릭과 코드 커버리지를 이용하여 회귀 분석을 수행해 테스터빌리티를 예측하는 연구들이 수행되었다. 기존 연구들은 단순한 소프트웨어 구조의 비중이 큰 학습 데이터를 사용하였다. 그러나 단순한 구조의 비중이 큰, 불균형 데이터로 학습한 예측 모형은 고복잡도 소프트웨어의 테스터빌리티 예측 정확도가 낮을 수 있다. 본 연구는 고복잡도 소프트웨어를 고려한 예측모형 구축을 위해 산업 도메인 표준의 메트릭 허용 기준을 기반으로 생성한 학습 데이터를 사용하였다. 3가지 회귀 분석을 사용하여 테스터빌리티 예측 모형을 구축한 결과 약 4.4%의 분기 커버리지 오차와 0.86의 결정계수를 가지는 예측 모형을 구축하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr