디지털 라이브러리[ 검색결과 ]
돌연변이 단백질에 대한 사전 학습 대규모 언어 모델 기반 약물-표적 결합 친화도 예측
http://doi.org/10.5626/JOK.2025.52.6.539
신약 개발은 높은 비용과 긴 시간이 소요되며, 특히 단백질 돌연변이가 약물-표적 결합 친화도에 미치는 영향을 정량적으로 예측하는 것은 중요한 과제이다. 기존 연구에서는 아미노산 서열 처리를 위해 LSTM과 트랜스포머 모델이 활용되었으나, LSTM은 장기 의존성 문제, 트랜스포머는 높은 연산 비용의 한계를 가진다. 반면, 사전 학습된 거대 언어 모델(pLLM)은 긴 시퀀스 처리에 강점을 가지지만, 프롬프트 기반 접근만으로는 정확한 결합 친화도 예측이 어렵다. 본 연구에서는 pLLM을 활용하여 단백질 구조 데이터를 임베딩 벡터로 변환하고, 별도의 머신러닝 모델로 결합 친화도를 예측하는 방법을 제안한다. 실험 결과, 제안된 방법은 기존 LSTM 및 프롬프트 접근법보다 우수한 성능을 보였으며, 돌연변이 특이적 예측에서도 낮은 RMSE와 높은 PCC를 기록하였다. 또한, pLLM 모델의 양자화에 따른 성능 분석을 통해 낮은 연산 비용으로도 충분한 성능을 발휘할 수 있음을 확인하였다.
유사 패치 기반 자동 프로그램 수정 기법
http://doi.org/10.5626/JOK.2025.52.2.152
휴리스틱 기반 자동 프로그램 수정(Automated Program Repair, APR) 기술의 주요 관심사는 탐색 공간의 크기 문제이다. 본 연구에서는 버그를 생성한 수정(Bug Introducing Change)의 유사성을 활용하여 탐색 공간을 줄이고, 적절한 수정 연산자를 제안하는 새로운 접근 방식인 Similar Patch Identifier(SPI)를 제안한다. 이 접근법을 평가하기 위해, 기존의 문맥 기반 APR 도구인 ConFix와 자바 결함 벤치 마크인 Defects4J를 활용했다. 실험을 통해 SPI가 탐색 공간을 각 결함에 적합한 10개의 버그 수정 커밋 후보로 줄였음에도, 기존 APR 도구인 ConFix가 고치지 못했던 4개의 버그에 대한 수정을 만들어내는 유의미한 결과를 확인할 수 있었다.
EnhPred: 인핸서 위치 정밀 탐색 딥러닝 모델
http://doi.org/10.5626/JOK.2025.52.1.35
인핸서(Enhancer)는 유전자의 발현을 조절하는 중요한 조절 요소로, 유전체 내 인핸서의 위치 파악은 유전자 발현 이해에 필수적이다. 그러나 인핸서는 길이가 가변적이고 표적 유전자와 멀리 떨어져 있어 정확한 위치 예측이 어렵다. 또한 기존 인공 지능 기반 인핸서 예측 방법론은 인핸서의 존재 여부만을 예측하며 경계 식별이 어렵다. 본 연구에서는 CNN(Convolutional Neural Network)과 양방향 GRU(Gated Recurrent Unit)를 활용한 딥러닝 모델 EnhPred를 개발하여, 유전체 지역 내 세부 구역의 인핸서 존재 확률을 예측하였다. 3개의 인간 세포주를 대상으로 한 성능평가에서 EnhPred는 인핸서 예측의 정확성 및 인핸서 경계 예측의 정밀성 측면에서 다른 기계 학습 및 딥러닝 기반 방법론보다 우수한 성능을 보였다.
이종 그래프 간의 융합 모듈을 활용한 목적 지향 대화 응답 시스템
http://doi.org/10.5626/JOK.2024.51.10.882
목적 지향 대화 시스템(Task-Oriented Dialogue System)은 특정 업무를 달성하기 위해 시스 템이 대화를 통해 사용자에게 도움을 주는 것을 목적으로 하는 자연어 처리의 분야이다. 최근에는 목적 지 향 대화 시스템의 성능 향상을 위해 트랜스포머(Transformer) 기반의 사전 학습 언어 모델이 널리 활용 되고 있다. 본 논문에서는 보다 전문적인 응답을 생성하기 위해서 사전 학습 언어 모델에 외부지식을 통합 하여, 트랜스포머 기반의 언어 모델에 그래프 어텐션 네트워크를 사용하여 지식 그래프 형태의 데이터를 추가적으로 융합하는 시스템을 제안한다. 또한 두 개 이상의 그래프에 대해 연구를 확장하여 이종 그래프 의 정보를 사용한 대화 응답 생성을 실험했다. 본 논문에서는 제안 시스템을 검증하기 위해 2,076개 대화 와 226,823개의 음악 도메인 그래프 트리플로 이루어진 음악 도메인 기반의 대화 데이터를 구축하고 공개 했다. 실험으로 살펴본 최종 제안 모델의 성능은 KoBART 모델을 미세조정(Fine-tuning)한 응답 생성 방 식에 비해 ROUGE-1 13.83%p, ROUGE-2 8.26%p, ROUGE-L 13.5%p의 성능 향상을 보였다.
SSD의 수명 및 성능 향상을 위한 F2FS 파일 시스템의 DISCARD 명령어 관리 기법
http://doi.org/10.5626/JOK.2024.51.8.669
DISCARD 명령어는 유효하지 않는 파일 시스템의 블록 정보를 SSD에 전달함으로써 SSD의 수명과 성능을 향상시키는데 도움이 되는 인터페이스이다. 그러나, F2FS 파일 시스템에서 DISCARD 명 령어는 유휴 시간에만 처리되기 때문에 수명과 성능의 향상에 한계를 보인다. 본 논문에서는 짧은 유휴 시 간에 DISCARD 명령어를 효율적으로 처리하기 위한 EPD 기법과 DISCARD 명령어를 덮어쓰기 명령으 로 대체하기 위한 세그먼트 할당 기법인 PSA기법을 제안한다. 제안 기법의 효과를 평가하기 위해 다양한 워크로드를 기반으로 실험을 진행하였으며 실제 SSD에서의 수명과 성능을 확인하였다. 그 결과, 제안 기 법이 기존 F2FS 대비 Write Amplification Factor (WAF)를 최대 40%, 처리량을 최대 160% 향상시킬 수 있음을 확인하였다.
자기 교사 학습 모델의 특장점 분석과 사진 분류 및 객체 탐지 성능 분석 연구
http://doi.org/10.5626/JOK.2024.51.7.609
최근, 교사 학습 기반의 인공지능 분야가 급속도로 발전하고 있다. 그러나 교사 학습은 정답 값이 지정된 데이터집합에 의존하기 때문에, 정답 값을 확보하기 위한 비용이 커진다. 이러한 문제점을 해 결하기 위해 정답 값없이 사진의 일반적인 특징을 학습할 수 있는 자기 교사 학습(Self-supervised learning)이 연구되고 있다. 본 논문에서는 다양한 자기 교사 학습 모델을 학습 방식과 백본 네트워크 기 준으로 분류하고, 각 모델의 장단점, 성능을 비교 분석하였다. 성능 비교를 위해 사진 분류 작업을 사용하 였다. 또한 전이 학습의 성능을 비교하기 위해 세밀한 예측 과업의 성능 또한 비교 분석하였다. 그 결과, 긍정적 쌍만 사용하는 모델이 노이즈를 최소화하여 부정적인 쌍을 같이 사용하는 모델들보다 높은 성능을 달성하였다. 또한 세밀한 예측의 경우 이미지를 마스킹하여 학습하거나 멀티스테이지 모델 등을 활용하여 지역적인 정보를 추가로 학습하는 방식이 더욱 높은 성능을 달성한 것을 확인하였다.
ETF 가격 방향성 예측을 위한 그래프 구조 학습 기반 신경망
http://doi.org/10.5626/JOK.2024.51.5.473
상장지수펀드(ETF)는 특정 지수를 추종하는 인덱스 펀드로, 개별 종목에 대한 위험도 및 운용 보수가 낮다는 특징을 가지고 있다. ETF 예측을 위해 다양한 방법들이 개발되었으며 최근 인공지능 기반 기술들이 개발되고 있다. 대표적인 방법은 시계열 기반 인공신경망을 활용하여 ETF의 가격 방향성을 예 측하는 것이다. 이는 ETF의 과거 가격 정보들을 효과적으로 반영하여 ETF의 등락을 예측할 수 있다는 장점이 있다. 하지만 개별 ETF의 과거 정보만 사용할 뿐 서로 다른 ETF 간의 관계를 반영하지 못하는 한계점을 지닌다. 이러한 문제를 해결하기 위해 본 논문에서는 ETF 간의 관계를 반영할 수 있는 모델을 제안한다. 제안 모델은 그래프 구조 학습을 통해 다양한 ETF 간의 관계를 표현하는 그래프를 추론하고, 이를 기반으로 그래프 신경망 모델을 통해 ETF 가격 방향성을 예측한다. 실험을 통해, 제안 모델이 개별 ETF 정보만 사용한 시계열 모델보다 우수한 예측 성능을 보이는 것을 확인하였다.
CSDVirt: 연산 스토리지 에뮬레이터
http://doi.org/10.5626/JOK.2024.51.1.1
연산 스토리지(CSD: Computational Storage Device) 개념이 등장한 이후로 학계와 업계에서 여러 형태의 연산 스토리지를 발표하고 있다. 연산 스토리지 인터페이스에 대한 표준화 논의는 현재 진행중이지만 아직 초기 단계이다. 따라서 발표된 연산 스토리지들은 인터페이스와 디바이스의 내부 구조가 통일되어 있지 않은 실정이다. 이는 연산 스토리지 연구를 위해서 디바이스 내부 구조부터 응용까지 많은 개발 작업이 필요하다는 것을 의미한다. 본 연구에서는 연산 스토리지 연구의 편의성 및 실제 디바이스와 비슷한 환경 제공을 위해 CSDVirt를 제안한다. CSDVirt는 NVMeVirt를 확장하여 연산 스토리지 기능을 제공하는 에뮬레이터이다. 본 에뮬레이터를 이용하여 기존 연구에서 제공되는 다양한 워크로드의 특성을 쉽게 확인할 수 있다.
자이로 센서 데이터를 활용한 양치 위치 추정 및 비지도 학습 클러스터링을 통한 검증
김도윤, 권민욱, 백승주, 윤혜린, 임대연, 조은아, 류승재, 김영욱, 김진현
http://doi.org/10.5626/JOK.2023.50.12.1143
구강 건강은 수명과도 직접적 관련을 갖는 중요한 건강 지표다. 이러한 이유로 영유아부터 노인에 이르기까지 구강 건강은 국민 건강의 핵심으로 자리를 잡았다. 이러한 구강 건강의 기본은 올바른 양치 습관이다. 하지만 권장되는 올바른 양치 방법은 습관화하기 쉽지 않으며, 그러한 이유로 구강 건강에 해로운 영향을 준다. 본 논문은 올바른 양치 방법을 추적하기 위한 저비용의 IMU 센서를 통해 양치 구역을 구별하는 방법을 제안하고, 머신러닝의 클러스터링 알고리즘으로 양치 구역의 추정 방법의 정확성을 평가한다. 본 논문에서는 IMU 센서의 자이로 센서만을 사용하여 칫솔 자세만으로 양치 구역을 판단하는 방법을 제안한다. 이 논문에서는 비교적 저렴한 6축 IMU 자이로 센서 데이터만으로도 80.6%의 정확도로 사용자 양치 부위를 추정할 수 있음을 보였다. 또한, 이러한 데이터에 클러스터링 알고리즘을 적용하고 클러스터링 된 데이터를 활용하여 Logistic regression을 훈련하여 양치 구역을 추정한 결과 86.7%의 정확도로 얻을 수 있었으며 이를 통해 클러스터링이 효과적임과 함께 본 논문에서 제안한 칫솔 자세 기반의 양치 구역 추정이 효과가 있음을 보였다. 결론적으로 본 양치 구역 추정 알고리즘이 비교적 적은 비용의 칫솔로 기능이 구현될 수 있으며, 이를 통해 개인 양치 습관을 분석하고 개선함으로써 구강 건강 유지하는데에 도움이 될 것으로 기대할 수 있다.
코드 변경에 대한 검출 기법과 사람의 묘사 차이 분석
http://doi.org/10.5626/JOK.2023.50.2.150
본 연구에서는 코드 변경 검출 기법과 사람이 코드 변경을 묘사하는 방식을 조사하고, 둘을 비교하여 그 차이를 확인하였다. 대표적인 두 가지 코드 변경 검출 기법을 수집된 다량의 코드 변경에 적용한 결과, 두 기법은 같은 코드 변경을 다른 방식으로 묘사하는 경우가 매우 많으며, 3% 미만의 코드 변경에 대해서만 완전히 일치하는 결과물을 내놓는다는 것을 확인하였다. 반면 사람의 경우 제시된 코드 변경을 묘사할 때 약 50%의 의견 일치율을 보였다. 또한 코드 변경을 다른 방식으로 묘사하는 경우의 상당 부분은 실수에 의한 것이고, 이를 감안하였을 때는 71%의 코드 변경에 대해 동일한 방식으로 묘사하는 것을 확인할 수 있었다. 사람과 검출 기법의 비교 결과에서는 검출 기법이 사람이 코드 변경을 묘사한 방식과 일치하는 결과를 내놓는 경우가 변경의 종류 및 변경된 코드의 종류만을 비교할 때 8.20~35.65%에 불과하여 사람과 유사한 결과를 얻기 위해 개선이 필요하다는 것을 알 수 있다.