디지털 라이브러리[ 검색결과 ]
개인형 이동장치 주행 보조의 도로 분류를 위한 신경망 모델 탐색: 정확도 및 연산 효율성에 대한 비교 연구
http://doi.org/10.5626/JOK.2023.50.12.1083
개인형 이동장치 이용량과 함께 교통 사고 빈도가 증가하고 있다. 대부분의 사고는 자동차 또는 보행자와의 사고였으며 주행도로에 대한 준수율이 낮다. 주행도로를 인식해 알려주는 보조 시스템은 이 문제를 개선시킬 수 있다. 도로 이미지는 재질 특성이 강하기 때문에 Image classification 분야에서 연구되는 모델들을 적용하기에 적절하다. 이 논문에서는 도로 이미지 분류 모델을 상황에 따라 선택할 수 있도록 파라미터의 수가 200만개에서 3,000만개 사이인 여러가지 모델을 성능을 비교하고 있으며, 대부분의 모델은 95%이상의 정확도를 보였고 top2 accuracy는 대부분의 모델이 99%이상을 보이는 것을 실험으로 설명했다. 본 논문의 실험 결과에 따라 가장 가중치수가 적으면서도 좋은 성능을 보인 모델은 mobilenet v2이었으며, 모든 클래스에 대해 90%이상 정확도를 달성해 클래스 별 정확도가 안정적인 모델은 EfficientNet이었다.
이진 분류 데이터 세트 내 편향 제거를 위한 다차원 서브셋 기반 시스템
http://doi.org/10.5626/JOK.2023.50.5.383
인공지능 기술이 발전함에 따라 인공지능 관련 공정성 문제가 주목받고 있다. 이에 따라 관련 연구가 많이 진행되었으나 모델 및 학습 방법 연구가 주를 이루고 있으며 근본적인 원인인 학습에 쓰이는 데이터 내에 존재하는 편향을 제거하기 위한 연구는 아직 미흡하다. 따라서 이 논문에서는 데이터 내에 존재하는 편향을 레이블 편향과 서브 그룹 편향으로 구분하고 편향을 제거함으로써 공정성이 향상된 데이터셋을 생성하는 시스템을 설계 및 구현한다. 제안하는 시스템은 서브셋 생성 단계와 편향 제거 단계로 구성된다. 먼저 서브셋 생성기는 기존 데이터 세트 내 각 값의 조합이 형성하는 고윳값들에 따라 단일 값만을 가지는 서브셋으로 나눈다. 이후 검증 데이터셋을 기반으로 기존 데이터셋을 검증하여 얻은 공정성 지표값을 기준으로 우세그룹과 약세그룹으로 서브셋을 구분한다. 다음으로 편향 제거기는 각 서브셋의 우세그룹을 대상으로 순차 추출 및 검증을 병행하여 약세그룹과의 차이를 줄이는 과정을 반복하여 서브셋에서 나타난 편향을 줄인다. 이후 편향이 제거된 서브셋들을 병합하며 공정한 데이터셋을 반환한다. 검증에 사용된 공정성 지표는 F1 score와 균등 확률(equalized odd)을 사용한다. 실제 Census income 데이터, COMPAS 데이터 및 Bank marketing 데이터를 검증 데이터로 사용한 포괄적인 실험을 통해 제안된 시스템이 더 나은 공정성 개선율을 산출하고 대부분의 기계 학습 알고리즘에서 더 높은 정확성을 제공함으로써 기존 기술을 능가한다는 것을 보여준다.
AI에 적합한 일반 상식 추론 대화의 자동 생성을 위한 정량적, 정성적 연구
http://doi.org/10.5626/JOK.2023.50.5.407
인간과 비슷한 정도의 일반 상식 추론 능력은 최근 챗봇 및 대화형 에이전트를 위한 자연어 생성의 품질을 향상시키기 위한 필수적인 요소로 인정받고 있다. 그러나 인공지능 시스템에 요구되는 일반상식의 범위에 대한 명확한 합의는 존재하지 않는다. 본 논문은 인공지능에 적합한 일반 상식에 대한 성별과 연령에 따른 태도의 차이와 대화 주제에 따른 반응의 변이를 살펴보기 위한 실험 조사를 수행하고 정량적, 정성적 분석을 통해 인공지능 챗봇 시스템에 필요한 일반 상식이 무엇인지 논의하였다. 이 논문의 의의는 유용한 정보를 제공하면서 적절한 수준의 공감을 보이는 챗봇 대화에 대한 선호도를 구체화하였다는 것이다.
지식 추적 모델의 성능 개선을 위한 양자화된 정답률 임베딩 방법
http://doi.org/10.5626/JOK.2023.50.4.329
지식 추적이란 학습자의 문제풀이 기록을 바탕으로 학습 성취도를 추적하는 문제로, 일련의 문제풀이 기록과 목표 문제가 주어질 때 정답 여부를 예측하는 것을 목표로 한다. 본 연구에서는 문제별 난이도를 고려하지 않은 기존 딥러닝 기반 지식 추적 모델이 쉬운 난도의 문제를 틀리거나 어려운 난도의 문제를 맞히는 학습자를 잘 학습하지 못하는 문제를 해결하고자 한다. 이에 각 문제의 정답률을 바탕으로 학습자의 답변 정보를 양자화는 방식을 제안함으로써 문제의 난이도와 학습자의 답변을 함께 학습하도록 유도하여 성능을 개선한다. 결과적으로 본 연구에서는 정답률이 높은 음성 샘플과 정답률이 낮은 양성 샘플에 대하여 모델이 효과적으로 분별할 수 있는 방법을 제안한다. 이를 위해 잠재 공간상에서의 해당 샘플
들에 대한 임베딩 표현의 차이를 최대화할 수 있는 sinusoidal positional encoding 방법을 도입한다. 실험 결과, 제안 방법을 적용하였을 때 기존 방법 대비 AUC 값이 목표 구간에서 최대 17.89%까지 향상되는 것을 확인하였다.
탐색적 데이터 분석과 기계학습을 통한 상부 요로감염 환자 Ciprofloxacin 항생제 내성 예측 연구
http://doi.org/10.5626/JOK.2023.50.3.263
응급의학과 의사는 요로감염 환자에 대해 임상적으로 감염 병원균 또는 항생제 내성 프로파일이 확인되기 전에 항생제를 선택해야 하는 경험적 치료전략을 사용한다. 지역사회의 요로 병원균의 항생제 내성 증가를 우려하였을 때 경험적 치료는 도전적인 과업이다. 본 연구는 단일 기관 후향적 연구로써, 응급실에서 상부 요로 감염 진단을 받은 환자를 대상으로 기계학습 알고리즘을 통한 항생제 내성 예측 방법을 제안한다. 먼저, 통계적 검정 방법과 게임 이론적 방식 기반의 SHAP(SHapley Additive exPlanation)을 수행하여 유의미한 예측 변수를 선택한다. 그리고 4개의 분류기의 성능을 비교하고 예측 확률 임계치 조절을 통해 의사의 경험적 치료를 보조할 수 있는 알고리즘을 제안한다. 결과적으로, SHAP를 통해 선별된 전체 예측 변수의 65%만을 사용한 SVM 분류기는 실험에 사용된 모든 분류기 중에 AUROC 0.775로 가장 높은 성능을 보였고, 모든 예측 변수를 사용했을 때보다 AUROC 0.015 증가했다. 그리고 예측 확률 임계치를 조절 과정을 통해 의사의 경험적 치료의 민감도를 98% 수준으로 유지하면서 특이도가 3.9배 향상된 분류 정확도를 달성했다.
공정성과 정확성을 고려한 그래프 링크 예측 지표와 모델
양희윤, 강용훈, 김가형, 임지영, 윤수현, 김호승, 이지형
http://doi.org/10.5626/JOK.2023.50.2.179
여러 사회 분야에서 빅데이터와 컴퓨팅 기술의 발전을 기반으로 인공지능 기술의 도입이 활발히 이루어지고 있다. 하지만 빅데이터에 내재되어 있는 사회적인 차별요소로 인하여 인공지능의 예측이 편향된 경우가 많아 공정성 논란이 발생하고 있다. 특히, 소셜 네트워크 데이터를 다루기에 적당한 그래프 신경망에서는 유사한 노드들을 연결하려는 동질성 효과(Homophily effect) 때문에 성별, 종교 등과 같은 민감한 속성(Sensitive Attribute)에 편향된 예측이 이루어지기 쉬워서 공정성 문제가 더욱 심각하다. 이러한 공정성 문제를 해결하기 위하여, 공정한 모델 연구와 편향된 정도를 평가하기 위한 공정성 지표들이 제안되고 있다. 그러나 관련 연구들에서 각기 다른 지표를 사용해 공정성을 평가하기 때문에 통일된 기준이 없고, 모델의 정확성과 공정성이 상충관계(trade-off)에 있음을 고려하지 않아 두 성능 모두를 고려한 판단 지표가 필요하다. 본 논문은 공정성과 정확도의 관계를 고려한 지표인 Fairβ-metric을 제안하고, 이 지표에서 우수한 성능을 내는 그래프 링크 예측 모델 FairU를 제안한다.
설명 가능한 인공지능을 사용한 학습 데이터 전처리 방법
http://doi.org/10.5626/JOK.2023.50.2.133
인공지능 모델 생성은 학습 데이터 가공, 모델 학습, 모델 평가의 단계로 진행된다. 양질의 학습 데이터를 만드는 데이터 전처리 기법은 모델 정확도를 향상시키기 위한 방법 중 많은 기여를 한다. 기존의 전처리 기법은 모델 생성자의 경험에 많이 의존하는 경향이 있다. 경험을 기반으로 전처리를 수행하면 해당 전처리 기법을 선택한 근거를 설명하기 힘들다. 하지만 설계자가 경험에 의존할 수밖에 없는 이유는 학습 모델이 거대해지고 인간이 해석하기 힘든 수준으로 복잡해지기 때문이다. 따라서, 설명 가능한 인공지능을 도입하여 모델의 동작 방식을 설명하는 연구가 진행되고 있다. 본 논문에서는 설명 가능한 인공지능을 사용한 학습 데이터 전처리 시스템을 제안한다. 시스템 동작 과정은 전처리가 수행되지 않은 데이터로 학습시키며, 학습된 모델을 설명 가능한 인공지능 기법을 사용하여 동작 방식을 분석하여 그 정보를 기반으로 데이터 전처리 수행을 반복한다. 최종적으로 모델 성능을 향상시키고 전처리 신뢰성을 설명하며 시스템의 실용성을 보이겠다.
적대적 예제 생성을 통한 반사실적 예제 생성
http://doi.org/10.5626/JOK.2022.49.12.1132
인공지능 기술은 많은 편의를 가져다주었지만, 인공지능 모델의 복잡한 구조는 그 작동 원리를 이해하기 어렵게 만들었다. 반사실적 설명은 인공지능을 설명하는 방법으로, 인간이 인지할 수 있는 최소한의 변화가 반영되어 분류 결과를 바꾸는 반사실적 예제를 통해 설명한다. 적대적 예제는 인공지능 모델의 분류 결과를 바꿀 목적으로 변형된 데이터이며, 반사실적 예제와 다르게 반영된 변화를 인간이 인지하기 어렵다. 단순한 모델에서는 적대적 예제가 반사실적 예제처럼 생성될 수 있지만, 딥러닝 모델에서는 인간과 인공지능의 인지 차이가 크기 때문에 어렵다. 하지만, 우리는 일부 딥러닝 모델에서 생성된 적대적 예제가 반사실적 예제처럼 생성되는 것을 확인하였다. 본 논문에서, 우리는 적대적 예제가 반사실적 예제처럼 생성되는 딥러닝 모델의 모델 구조와 조건들을 분석한다. 우리는 부분 집중 변화도 메트릭을 제안하고 기존의 메트릭과 함께 활용해 서로 다른 모델에서 생성되는 적대적 예제를 비교해본다.
의료 과학 연구를 위한 설명가능 그래프 인공 신경망
http://doi.org/10.5626/JOK.2022.49.11.999
설명가능 인공지능(Explainable AI, XAI)은 알고리즘의 예측 결과를 사용자 관점에서 이해할 수 있도록 설명력을 제공하는 기술이다. 의료 분야는 인공지능의 의사결정에 대한 신뢰도가 보장되어야 하므로, 의사 결정의 도출 과정을 설명하는 XAI의 활용이 필수적이다. 하지만 대부분의 XAI 기술은 이미지나 텍스트 데이터를 대상으로 개발되었기 때문에 다양한 상호작용을 기반으로 하는 그래프 구조의 의료 데이터에 그대로 적용하기에는 한계가 존재한다. 따라서 데이터의 복잡한 관계성을 효과적으로 파악할 수 있는 그래프 인공 신경망(Graph Neural Network, GNN) 기반의 XAI 연구가 요구되고 있다. 본 논문에서는 GNN 기반 XAI 기술의 적용 방식과 알고리즘에 따른 분류 체계를 제안하고, 의료 분야의 네 가지 세부 영역에서 XAI를 활용한 연구 동향과 사례를 소개한다. 마지막으로 생명 의료 분야에 적용된 XAI 연구의 한계점과 향후 발전 방향을 제시한다.
GPT-2를 이용한 지식 그래프 완성
http://doi.org/10.5626/JOK.2021.48.12.1281
지식 그래프는 많은 인공지능 작업에서 중요한 자원이 된다. 불완전한 지식 그래프를 지식 완성을 하는 많은 연구들이 진행되고 있으며, 그 중에서도 링크 예측, 관계 예측 등을 하여 지식 완성을 하는 연구에 대한 관심이 높아지고 있다. 인공지능의 자연어 처리에서 가장 화제가 되는 언어 모델에는 BERT, GPT-2가 있으며 그 중 BERT로 지식 완성 문제를 해결하고자 하는 KG-BERT가 있다. 본 논문에서는 최근 인공지능의 언어 모델에서 가장 큰 화제인 GPT-2를 활용하여 지식 완성 문제를 해결해 보고자 한다. 언어 모델인 GPT-2를 활용하여 지식 완성 문제를 해결하기 위한 방법으로 트리플 정보 기반지식 완성, 경로 및 트리플 기반 지식 완성을 제안하고 설명하였다. 이 본 논문에서 제안하는 모델은 KG-GPT2로 정의하였으며, 지식 완성 성능을 평가하기 위하여 TransE, TransR, KG-BERT, KG-GPT2의 링크 예측, 관계 예측 결과를 비교하는 방식으로 실험을 진행하였다. 링크 예측의 경우 WN18RR, FB15k-237, UMLS 데이터셋을 사용하였고, 관계 예측의 경우 FB15K를 사용하였다. 실험 결과로, KG-GPT2의 경로 및 트리플 기반 지식 완성에서 링크 예측의 경우 UMLS를 제외한 모든 실험 데이터셋에 대하여 가장 우수한 성능을 기록하였다. KG-GPT2의 경로 및 트리플 기반 지식 완성에서 모델의 관계 예측 작업 또한 FB15K 데이터셋에 대하여 가장 우수한 성능을 기록하였다.