디지털 라이브러리[ 검색결과 ]
프롬프트 튜닝 기법을 적용한 한국어 속성기반 감정분석
김봉수, 최승호, 박시현, 왕준호, 김지윤, 전현규, 장정훈
http://doi.org/10.5626/JOK.2024.51.12.1043
속성기반 감정분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성기반 감정분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성기반 감정분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr, 속성기반 감정분석 데이터)에 공개되어 있다.
대화 요약 생성을 위한 한국어 방송 대본 데이터셋의 구축 및 검증
김봉수, 김지윤, 최승호, 전현규, 전혜진, 정혜인, 장정훈
http://doi.org/10.5626/JOK.2024.51.4.311
대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심 내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는데 유용하다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로부터 원천 데이터를 수집하고, 주석자가 수작업으로 주석 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100,000건이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 주석 되었다. 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 주석 가이드를 제안한다. 또한 모델 적합성 검증에 사용될 모델 구조의 선정 방식을 제시함으로써, 데이터 특성을 고려한 모델 개선 방향에 대한 통찰력을 제공한다. 실험을 통해 구축된 데이터의 여러 특성을 조명하고, 후속 연구를 위한 기준 성능을 제시한다. 데이터와 베이스라인 모델은 aihub.or.kr에 배포 되었다.
증거능력 확보를 위한 수사용 사이버 공개정보 포렌식 도구 아키텍처 연구
http://doi.org/10.5626/JOK.2022.49.6.494
인터넷 기술의 발전으로 인해 우리의 삶은 과거에 비해 매우 윤택해지고 많은 순기능 들이 늘어나고 있으나, 이와 동시에 인터넷을 기반으로 하는 사이버범죄와 같은 역기능 또한 증가하고 있다. 이러한 인터넷 기반의 사이버범죄를 효과적으로 수사하기 위해서는 디지털 포렌식 관점의 사이버 공개정보 수집 및 저장・가공이 반드시 필요하다. 하지만 현행 형사소송법 등 관련 법률은 아직까지 사이버 공개정보 포렌식에 대하여 명시적으로 규정하고 있지 않고, 수사상에 확보한 디지털 증거의 원본 데이터 삭제로 인해 증거능력이 상실되어 범죄 혐의를 입증하는데 어려움을 겪고 있다. 따라서 본 논문에서는 사이버범죄에 대한 효과적인 수사와 수사 간 수집된 사이버 공개정보의 법정 증거능력 확보를 위해 수사용 사이버 공개정보 포렌식 도구의 아키텍처를 제안한다. 또한 제안 도구를 이용한 사이버 공개정보 수집 및 저장 시 지켜져야 할 디지털 증거의 무결성 및 동일성, 재현성 및 진정성을 입증하기 위한 디지털 포렌식 관점의 기술적 접근방법을 제시한다.
효과적인 내장형 소프트웨어의 정수 확장 (Integer Promotion) 버그 검출 기법
세탁기, 냉장고 등의 가전제품에 탑재되는 8-bit MCU용 C 컴파일러는 소프트웨어 실행 속도를 높이기 위해 표준 C 언어 규칙을 따르지 않고 컴파일을 수행할 수 있다. 개발자가 일반 C 컴파일러와 8-bit MCU용 C 컴파일러의 차이를 정확하게 이해하지 못할 경우 표준 C 언어 환경에서는 발생하지 않으나 8-bit MCU를 사용하는 내장형 시스템에서는 발생하는 버그를 야기할 수 있으며 이런 버그는 표준 C언어 환경을 가정하는 버그 검출 도구로는 찾기 어렵다. 본 논문에서는 표준 C 정수 확장 규칙을 따르지 않는 8-bit MCU용 컴파일러를 사용할 때 발생하는 정수 확장 버그를 소개하고 정수 확장 버그를 탐지하기 위한 다섯 종류의 버그 패턴을 제안한다. 정수 확장 버그 패턴 검출 도구를 개발하여 LG전자 세탁기 소프트웨어를 분석한 결과 컴파일러 옵션을 잘못 선택한 경우 발생하는 27개의 정수 확장 버그를 발견하였다.