검색 : [ keyword: MAC ] (115)

해석가능한 머신러닝을 위한 시각적 분석 시스템 제안

박찬희, 이경원

http://doi.org/10.5626/JOK.2023.50.1.57

해석가능한 머신러닝은 머신러닝 시스템의 행동과 예측을 사람이 이해할 수 있도록 돕는 기술을 말한다. 본 연구는 사용자가 쉽고 명확하게 머신러닝 모델을 해석할 수 있도록 지원하기 위하여 머신러닝 모델이 입력 데이터로부터 출력 결과를 어떻게 연결 짓는지에 대한 관계성을 해석하는 시각적 분석 시스템을 제안한다. 본 연구가 제안한 시각적 분석 시스템은 머신러닝 수행 결과를 입력 변수, 목표 변수, 예측 값에 따라 필터링하고 그룹 지어 해석할 수 있는 반복적인 조정 절차를 통해 효과적으로 머신러닝 모델을 해석할 수 있는 접근 방식을 취한다. 유스 케이스 분석과 사용자 심층 인터뷰를 통해 본 연구에서 제시한 시각적 분석 시스템이 머신러닝 모델의 복잡한 동작에 대한 통찰을 얻고, 입력 변수와 목표 변수 및 모델 예측에 대한 과학적 이해를 확보하고, 모델의 안정성과 신뢰성을 파악하는데 도움을 제공함을 확인했다.

기계학습 및 필터링 방법을 결합한 경쟁관계 인식

이충희, 서영훈, 김현기

http://doi.org/

본 논문은 기계학습 방법과 필터링 방법을 결합해서 경쟁관계를 인식하는 방법에 대한 연구이다. 기존 연구들은 기계학습 방법에만 의존해서 관계유형을 인식하는 연구들이 대부분이며. 사용되는 자질도 일반적인 관계유형에 적합한 자질을 사용하고 특히 구문분석 정보가 매우 중요한 자질로 사용된다. 본 논문에서는 구문분석 등의 언어분석 결과를 이용하지 않고, 단순한 자질들(어휘, 거리, 위치, 단서단어)만을 사용해도 경쟁관계 인식에 효과적임을 확인하였다. 또한, 경쟁관계인식 긍정 정확도를 향상시킬 수 있는 문장별 경쟁유무 분류방법, 스팸분류 방법, 거리제약 기반 자질필터링 방법을 기계학습 방법과 결합한 방법론을 제안한다. 방법론 검증을 위해서 뉴스분야 2,565개 문장을 평가셋으로 구축하였고, 비교 평가를 위해서 규칙기반 경쟁관계 인식기와 기존연구의 관계추출 방법론에 기반한 일반 관계추출기를 적용해서 비교하였다. 성능평가 결과로 규칙기반 엔진이 긍정정확도와 전체정확도(accuracy)가 81.2%와 56.8% 성능을 보였고, 일반 관계추출기는 61.2%와 56.3%를 보였다. 그에 비해서 본 논문에서 제안하는 방법은 긍정 정확도 92.2%와 전체정확도 71.3% 성능을 보여서 경쟁관계 인식에 효과적임을 확인하였다.

MOnCa2: 지능형 스마트폰 어플리케이션을 위한 사용자 이동 행위 인지와 경로 예측기반의 고수준 콘텍스트 추론 프레임워크

김제민, 박영택

http://doi.org/

MOnCa2는 스마트폰에 장착된 센서와 온톨로지 추론 기반의 지능형 스마트폰 어플리케이션 구축을 위한 프레임워크다. 기존에 연구되었던 MOnCa는 온톨로지 인스턴스로 등록된 센서 값에 대한 정보를 바탕으로 사용자의 현재 상황을 판단 및 추론하였다. 이러한 방식은 사용자의 공간 정보나 주변에 존재하는 객체가 무엇인지 판단하는 것은 가능하나 사용자의 물리적인 콘텍스트(이동 행위, 이동할 목적지 등등) 판단하는 것은 불가능했다. 본 논문에서 설명하는 MOnCa2는 사용자 개개인의 물리적인 콘텍스트를 판단 및 추론하기 위해 스마트폰의 장착된 센서를 바탕으로 행위 및 이동 상황에 대응하는 인지 모델을 구축하고, 구축된 모델을 기반으로 사용자의 실시간 행위 및 이동 상황에 대해 1차적인 추론을 수행하며, 추론된 1차적인 콘텍스트에 대해 온톨로지 기반의 2차 추론을 통해 지능형 어플리케이션에 필요한 고수준 사용자 콘텍스트를 생산한다. 따라서 본 논문은 스마트폰의 가속도 센서를 기반으로 사용자의 이동에 필요한 행위를 인지하는 기법, 스마트폰의 GPS 신호를 바탕으로 이동 목적지와 경로를 예측하는 기법, 온톨로지 실체화를 적용하여 고수준 콘텍스트를 추론하는 과정에 초점을 맞추어 설명을 한다.

긍정 데이터 분포를 반영한 다중 인스턴스 지지 벡터 기계 학습

황중원, 박성배, 이상조

http://doi.org/

본 논문에서는 데이터 분포를 고려한 다중 인스턴스 지지 벡터 기계 학습 알고리즘을 제안한다. 기존의 방법은 긍정 가방 안에서 “가장 긍정”인 인스턴스만 고려하여 마진을 찾는다. 일반적으로 다중인스턴스로 표현된 데이터에서, 긍정 가방에 포함된 인스턴스들 중 실제로 긍정을 나타내는 인스턴스들은 자질 공간 상에서 서로 유사한 곳에 위치해 있다. 제안한 방법은 기존의 다중 인스턴스 지지 벡터 기계학습 알고리즘 중에서 긍정 인스턴스들의 교차점을 찾아 이 교차점과 거리를 계산하여 “가장 긍정”인 인스턴스를 선택한다. 긍정 인스턴스들의 교차점인 피벗 포인트를 구하는 방식은 두 가지이다. 먼저, 학습과정 중 추정된 긍정 인스턴스들의 중심점을 사용하는 방법과 학습 시작 시에 가장 긍정일 것으로 예상되는 긍정 인스턴스들의 중심점을 찾는 방법으로 나뉜다. 총 12개의 벤치마크 다중 인스턴스 데이터 셋을 통해 제안한 방법이 기존의 학습 알고리즘에 비해 더 좋은 성능을 보임을 보인다.

Creating Level Set Trees Using One-Class Support Vector Machines

Gyemin Lee

http://doi.org/

레벨 셋 트리는 다차원에 정의된 확률 밀도 함수를 표현하는데 유용하다. 복잡한 데이터의 구조를 트리 형태로 시각화하여 데이터의 형태를 효율적으로 파악할 수 있으며 클러스터링 분석에 효과적으로 이용할 수 있다. 본 논문에서는 미지의 확률 밀도 함수에서 생성된 데이터 샘플로부터 레벨 셋 트리를 생성하는 알고리즘을 제안한다. 제안된 알고리즘은 레벨을 0에서부터 무한대로 증가시키며 밀도 함수의 각 레벨 셋을 추정하고, 이로부터 레벨 셋 트리를 생성한다. 이를 위해 본 논문에서는 one-class 서포트 벡터머신 (OC-SVM)을 이용하여 직접적으로 레벨 셋을 추정한다. 이때 다양한 레벨 값에 대해 OC-SVM 학습을 반복해야 하는데, OC-SVM 솔루션 path 알고리즘을 통해 빠른 시간 안에 모든 레벨값에 해당하는 레벨 셋를 추정할 수 있다.

이종 소셜 네트워크 상에서 친구계정의 이름을 이용한 사용자 식별 기법

김동규, 박석

http://doi.org/

온라인 소셜 네트워크 서비스(online social network service)를 사용하는 사용자의 증가와 더불어 Twitter, LinkedIn, Tumblr 등 다양한 주제의 SNS들이 등장하고 있다. 사용자들은 SNS에 자신의 정보를 자발적으로 제공하고 서비스를 사용하나, 대용량 데이터 처리 기술의 발전과 프라이버시에 대한 인식이 고취됨에 따라 SNS 이용에 따른 프라이버시 침해가 문제점으로 부각되고 있다. 이를 해결하기 위해 기계 학습에 기반을 둔 SNS 상의 프라이버시 보호 기법들이 연구되어왔으며, 지금도 활발히 연구가 진행중이나 새로운 SNS의 등장에 따른 프라이버시 침해 사례들이 지속적으로 제기되고 있다. 본 논문은 SNS에서 써드 파티 애플리케이션 개발자, 혹은 서비스 제공자가 악의를 가지고 SNS 사용자의 프라이버시를 침해하는 상황에서 사용자가 프라이버시 유출을 사전 탐지하는 기법을 제안한다.

기계학습을 이용한 중등 수준의 단문형 영어 작문 자동 채점 시스템 구현

이경호, 이공주

http://doi.org/

본 논문은 기계학습을 기반으로 하는 중등수준의 단문형 영어작문 자동채점시스템에 대해 제안한다. 본 논문에서는 기계학습을 이용한 영어 자동채점의 전반적인 수행 방법과 시스템의 구성 및 동작 방식, 채점자질의 고려사항에 대해 논한다. 학생 답안의 내용 완성도를 평가하기 위하여 문서의 내용을 요약한 “개념답안”을 제안하여 사용하였다. 본 연구에서는 여러 개의 기계학습 알고리즘을 사용하여 자동평가를 수행한다. 자동평가의 성능을 향상시키기 위해 여러 개의 기계학습 알고리즘의 결과를 최적으로 결합하여 하나의 최종 결과를 도출할 수 있는 “최적조합” 결정과정을 제안한다. 실제 학생들의 작문 데이터를 이용하여 시스템을 구축하고 자동채점 시스템의 성능 평가를 수행하였다.

이벤트 의존성을 이용한 상태 머신 다이어그램의 강건성 테스팅 연구

이선열, 채흥석

http://doi.org/

상태 머신 다이어그램 결함 주입을 통하여 강건성 테스트 케이스를 생성하기 위한 연구가 수행되고 있다. 그러나 기존의 연구들은 상태 머신 다이어그램의 구조적인 측면만을 단순 고려하고 있기 때문에 작은 크기의 모델임에도 불구하고 많은 결함이 주입될 수 있다. 본 논문에서는 강건성 테스트의 효과성은 유지한 채, 주입될 결함의 수를 줄이기 위한 결함 주입 방법을 제안한다. 제안 방법은 전자레인지 상태 머신 다이어그램을 이용하여 설명되었으며, 유효성을 검증하기 위하여 해쉬 테이블 상태 머신 다이어그램에 제안 방법을 적용하였다. 해쉬 테이블에 적용된 실험 결과, 제안 연구는 강건성 테스트의 효과성은 유지하였으며, 주입된 결함의 수는 43%, 생성한 테스트 케이스의 수는 63% 감소시킨 것을 확인할 수 있었다.

한국어 형태소 분석을 위한 음절 단위 확률 모델

심광섭

http://doi.org/

본 논문에서는 음절 단위의 한국어 형태소 분석 방법에 적용할 수 있는 세 가지 확률 모델을 제안하고, 품사 태깅 말뭉치를 이용하여 각 확률 모델의 성능을 평가한다. 성능 평가를 위해 1,000만 어절규모의 세종 말뭉치를 10 개의 세트로 나누고 10 배수 교차 검증 결과 98.4%의 정답 제시율을 얻을 수 있었다. 제안된 확률 모델은 각 음절에 대하여 품사 태그를 먼저 부착한 후 원형 복원 및 형태소 생성을 하기 때문에 원형 복원을 먼저 하는 기존 확률 모델에 비하여 탐색 공간이 크게 줄어들어 형태소 분석 과정이 훨씬 간결하고 효율적이어서 분석 속도가 기존의 초당 수 백 어절에서 14만 7천 어절로 약 174배 가량 향상시킬 수 있었다.

돌연변이 단백질에 대한 사전 학습 대규모 언어 모델 기반 약물-표적 결합 친화도 예측

송태웅, 김진혁, 박현준, 최종환

http://doi.org/10.5626/JOK.2025.52.6.539

신약 개발은 높은 비용과 긴 시간이 소요되며, 특히 단백질 돌연변이가 약물-표적 결합 친화도에 미치는 영향을 정량적으로 예측하는 것은 중요한 과제이다. 기존 연구에서는 아미노산 서열 처리를 위해 LSTM과 트랜스포머 모델이 활용되었으나, LSTM은 장기 의존성 문제, 트랜스포머는 높은 연산 비용의 한계를 가진다. 반면, 사전 학습된 거대 언어 모델(pLLM)은 긴 시퀀스 처리에 강점을 가지지만, 프롬프트 기반 접근만으로는 정확한 결합 친화도 예측이 어렵다. 본 연구에서는 pLLM을 활용하여 단백질 구조 데이터를 임베딩 벡터로 변환하고, 별도의 머신러닝 모델로 결합 친화도를 예측하는 방법을 제안한다. 실험 결과, 제안된 방법은 기존 LSTM 및 프롬프트 접근법보다 우수한 성능을 보였으며, 돌연변이 특이적 예측에서도 낮은 RMSE와 높은 PCC를 기록하였다. 또한, pLLM 모델의 양자화에 따른 성능 분석을 통해 낮은 연산 비용으로도 충분한 성능을 발휘할 수 있음을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr