디지털 라이브러리[ 검색결과 ]
Polyphonic Music Generation with Sequence Generative Adversarial Networks
Sang-gil Lee, Uiwon Hwang, Seonwoo Min, Sungroh Yoon
http://doi.org/10.5626/JOK.2024.51.1.78
본 논문에서는 sequence generative adversarial networks (SeqGAN)을 활용하여 다성음악 시퀀스 생성 방법을 제안한다. 우리는 코드와 멜로디를 모두 고려한 다성 MIDI 파일을 표현하는 기법을 제안하며, 이 표현법은 멜로디와 코드의 음의 길이, 옥타브, 및 조표를 하나의 단어 벡터로 압축한다. 생성자는 순환 신경망으로 구성되었으며, 음악 시퀀스의 분포를 예측하도록 학습되었다. 또한, 모델의 학습을 안정화하기 위해 판별자에 최소 제곱 손실함수를 사용하였다. 제안하는 모델은 음악적으로 일관된 시퀀스를 생성하며, 정량적 및 정성적으로 생성 성능이 향상됨을 확인하였다.
에너지 효율 증대를 위한 강화학습 기반 태양광 패널 장착형 이동 기지국 경로 최적화
http://doi.org/10.5626/JOK.2023.50.10.899
5G와 B5G 무선 통신 시스템에서는 사용자의 요구사항을 만족하기 위해 mm-Wave와 같은 높은 주파수를 갖는 대역을 사용한다. 이는 기존의 주파수 대역보다 낮은 회절과 투과율 그리고 강한 직진성으로 인한 제약들이 존재한다. 이 제약을 해결하기 위해 Unmanned Aerial Vehicle(UAV)의 지원을 받는 셀룰러 통신 패러다임은 기존 지상 기지국 보다 통신 서비스를 보다 유연하게 해준다. 하지만 UAV는 제한된 배터리 용량을 가지고 있어서 통신 서비스의 수명에 영향을 준다. 이를 해결하기 위해 본 논문에서는 태양광 패널이 장착된 UAV를 고려한다. UAV의 태양광으로 인한 에너지 생성과 유저 평균 Data rate를 최대화를 위한 UAV의 움직임은 많은 에너지를 소모한다. 에너지 생성 및 유저 평균 Data rate 최대화와 에너지 소모는 트레이드오프 관계를 갖는다. 이에 본 연구에서는 강화 학습 알고리즘 ‘Proximal Policy Optimization(PPO)’을 사용하여 학습한 에이전트를 이용하여 위 트레이드오프 관계를 최적화하는 UAV의 경로를 찾는 시스템을 제안하고 에너지 소모를 고려하지 않은 것과 본 논문에서 제안한 시스템을 비교하였고 에너지 소모까지 고려한 시스템이 더 UAV의 에너지 제약에서 뛰어난 성능을 보이는 것을 확인되었다.
분포 강화학습을 위한 위험도 스케줄링 기반의 낙천적 탐색 방법
http://doi.org/10.5626/JOK.2023.50.2.172
분포 강화학습은 행동 공간을 탐색하는데 사용될 수 있는 분산과 위험도(risk)의 특징을 통해 연속 및 이산 제어에서 괄목할 성능을 보이고 있다. 하지만, 위험도의 성질을 활용해서 탐색하는 방법은 분산을 활용한 탐색 방법에 대한 연구에 비해 발전되지 못했다. 이와 같은 한계를 극복하기 위해 이 논문에서는 분포 강화학습의 특징인 위험도를 활용하여 위험도 스케줄링(risk-scheduling) 방법을 제안한다. 위험도 스케줄링 방법은 학습하는 에이전트가 다양한 위험도를 경험하게 하고, 낙천적인 (optimistic) 행동을 선택하도록 도움으로써 성능을 개선시킬 수 있다. 다중 에이전트 시스템에서의 분포 강화학습 알고리즘인 DMIX, DDN, DIQL에 위험도 스케줄링을 적용했을 때 성능이 크게 향상되는 것을 확인하였다.
LNGC 환경 예측 모델을 이용한 심층 강화학습 기반 에너지-효율적 공조 제어 방법
http://doi.org/10.5626/JOK.2022.49.12.1062
본 논문은 건조 중인 LNG 화물창 환경을 안정적으로 유지하고 에너지를 최소화하기 위한 심층 강화학습 기반 공조 제어 방법을 제안한다. 건조 중인 화물창 내부와 같은 특수한 환경은 여러 요인에 의해 영향받기 쉬우므로, 정보를 정확히 예측하여 에너지 소모가 많은 공조 시스템을 자동으로 제어하기 어렵다. 이러한 문제를 완화하기 위해, 우리는 심층 강화 학습 모델을 통해 훈련된 공조 제어 에이전트를 통해 실내 환경을 안정적으로 제어하는 최신 방법을 제안한다. 이 방법에서는 운영 상황에 대한 전문지식 없이, 수집된 데이터의 상관 분석을 기반으로 실내 환경 상태 예측 모델을 구성하고, 모델을 기반으로 상태와 행동을 정의한 후 보상 기능을 통해 정책으로 훈련된 에이전트를 구축한다. 제안한 방법의 유효성을 확인하기 위하여, 우리는 실제 LNG 화물창 내부 공조 시스템에서 수집한 데이터를 이용하여 구축한 시뮬레이션 환경에서 HVAC 제어 성능 평가를 수행한다. 우리의 시뮬레이션 결과는 본 논문에서 고려하였던 3종의 강화학습 모델 중 Double DQN 모델이 공조 제어에 가장 효과적임을 보인다. 또한, 그 결과는 학습된 에이전트가 사용자-지정 온도 내에서 화물창 내부 환경을 안정적으로 유지 시키면서 일 평균 28.2%까지 전력 소모를 줄일 수 있음을 보인다.
멀티코어 기반 차량용 임베디드 시스템의 타임-트리거드 아키텍처 설계와 구현
http://doi.org/10.5626/JOK.2022.49.12.1043
최근 차량용 임베디드 시스템은 안전성과 성능 향상을 위해 멀티코어를 사용한다. 하지만 코어간 데이터 통신 시 발생하는 Spinning 시간은 태스크의 응답시간 지연을 초래한다. 이에 본 논문에서는 Time Triggered Architecture (TTA)를 이용하여 AUTOSAR 멀티코어 환경에서 스케줄링 최적화하는 방법을 제시한다. 각 태스크의 스케줄링 가능성을 확보하기 위해, DQN (Deep Q-Network) 강화학습을 이용한 태스크 할당 알고리즘을 제시하여 코어 간 부하 균등화를 최적화한다. 또한 태스크 Harmonic Period 설정하는 방법과 태스크 Offset, Deadline 설정 알고리즘을 설명한다. 이후 런타임에서 다른 코어의 타이밍 오류로 인한 문제 발생을 감지하는 방법에 대해 설명한다. 연료전지제어기 모델에 적용 결과, 부하 균등화 정도가 94% 개선되었으며 태스크의 실행구간이 상호 배제가 강제됨과 각 알고리즘이 잘 적용됨을 확인하였다. 또한 태스크 할당 알고리즘은 최적의 값 대비 약 78% 이상의 확장성을 보였다.
심층강화학습 기반 MCS 결정 알고리즘
http://doi.org/10.5626/JOK.2022.49.8.663
무선 이동 통신 시스템에서는 채널의 처리량, 주파수 효율 등을 높이기 위해 링크 적응 기법을 적용하여 채널 상태의 변화에 따라 전송 파라미터를 적응적으로 조절한다. 적응적 변조 및 코딩은 채널의 상태에 따라 미리 정의된 변조 및 코딩 방식을 결정하는 링크 적응 기법으로 단말이 보고한 CQI와 패킷 전송에 대한 HARQ 피드백을 기반으로 수행된다. 본 논문에서는 적응적 변조 및 코딩에 심층강화학습을 적용한 MCS 결정 모델을 제안한다. 제안하는 모델은 동적으로 변화하는 네트워크 망에서 적응적으로 MCS 레벨을 결정하여 단말의 전송 효율을 높인다. 본 논문에서는 제안하는 모델의 성능을 단말 로그 기반의 시뮬레이션을 통해 평가하였으며, 이를 통해 제안하는 모델이 기존의 외루프 전송률 제어 기법보다 높은 성능을 보인다는 것을 확인하였다.
사이버물리 시스템의 안전한 강화학습을 위한 안전가드와 가상경험주입 기법
http://doi.org/10.5626/JOK.2022.49.2.145
현실세계와 가상세계를 연결하는 CPS(Cyber-Physical System)는 다양한 분야에서 활용된다. 한편 CPS와 인공지능의 한 분야인 강화학습의 도입은 최근 연구의 관심사이다. 그러나 강화학습 특유의 탐색 과정에서 발생하는 무작위성은 안전필수인 CPS를 위험한 상태로 전이시킬 수 있다. 본 논문에서는 CPS의 안전한 강화학습을 위한 안전가드와 가상경험주입 기법을 제시한다. 안전가드는 CPS가 학습 도중 위험한 상태로 전이하는 것을 방지하지만 위험한 상태의 학습 경험을 갖지 않게 한다는 단점을 갖는다. 이러한 단점은 위험 상태에서의 가상 경험을 학습 과정에 주입하는 가상경험 주입을 통해 최소화시킨다. 제시된 방법은 CPS의 안전한 강화학습을 보장하며, 위험 상태로 전이된 경우에도 안전한 상태로 복귀할 수 있는 일차적인 안전망을 제공해준다. 또한 시뮬레이션을 통해 연구 결과의 효용성을 입증하였다.
대기행렬 모델을 활용한 강화학습 기반 파드 오토스케일링 기법
http://doi.org/10.5626/JOK.2022.49.2.106
최근 환경 변화에 적응적이고 목적에 맞는 최적의 오토스케일링 정책을 사용하기 위해 강화학습 기반 오토스케일링 정책에 대한 연구가 이루어지고 있다. 그러나 강화학습 기반 오토스케일링 정책을 학습하고, 각각의 강화학습 기반 오토스케일링 정책 간의 성능 비교를 수행하는 과정에서 많은 시간과 자원이 요구된다는 문제가 발생한다. 본 논문에서는 대기행렬 모델 기반 시뮬레이션 기법을 제안하여 오토스케일링 정책 간의 성능 비교를 시뮬레이션을 통해 수행할 수 있게 하고, 시뮬레이션 실험을 통해 여러 강화학습 기반 파드 오토스케일링 기법을 비교한다.
현실 제약 조건을 반영한 강화학습 기반 교통 신호 제어
http://doi.org/10.5626/JOK.2021.48.8.871
교통 신호 제어는 도로의 한정된 용량을 효율적으로 사용하기 위해 중요한 역할을 한다. 전통적인 교통 신호 제어 방법은 미리 설정된 신호를 기반으로 운영되기 때문에 수시로 변하는 교통 상황에 대응하기 어렵다. 최근에 복잡한 문제를 해결하기 위한 방법으로 강화학습이 주목을 받으면서 효율적인 교통 신호 제어를 위해 강화학습을 사용하는 연구가 진행되고 있다. 전통적인 방법과 비교하여 대기 시간이나 여행 시간이 개선되는 것을 시뮬레이션을 통해 입증하였으나 대부분의 연구가 실제 신호의 제약조건을 반영하지 않아 현실에 적용하기에는 부적합하게 설계되어 있다. 본 논문에서는 현실에 존재하는 신호 운영체계의 제약조건을 반영하여 비교적 현실 적용 가능하며 교통량 변화에 대응할 수 있는 강화학습 기반의 신호 제어 방법을 제안한다.
멀티코어 환경을 위한 강화학습 기반 캐시 파티셔닝
http://doi.org/10.5626/JOK.2021.48.6.618
많은 상용 프로세서들은 LLC(last-level cache)를 모든 코어들이 공유하여 사용하기 때문에 LLC가 병목이 되어 전체 시스템 성능이 저하된다. 하드웨어 캐시 파티셔닝 기법을 적용하여 이런 문제를 해결할 수 있지만, 적절한 캐시 파티션을 결정하는 것은 지능적인 알고리즘을 필요로 한다. 강화학습을 사용한 캐시 파티셔닝은 애플리케이션의 수가 증가함에 따라 모델 복잡도가 폭발적으로 증가한다. 본 논문은 캐시 파티셔닝 문제의 강화학습 적용을 위해 모델 복잡도의 폭발적 증가를 억제하고 다중 애플리케이션에 대해 확장 가능한 강화학습 기반 캐시 파티셔닝을 제안한다. 먼저 적은 수의 애플리케이션에 대해 캐시 파티셔닝을 하는 강화학습 모델을 학습한다. 그 후 캐시 사용 특성 예측 지도학습 모델을 통해 얻은 정보로 애플리케이션들을 클러스터링하여 강화학습 모델을 확장 적용한다. 이를 통해 더 많은 애플리케이션에 대해서도 캐시 파티셔닝을 하여 최대 19.75%의 성능 향상을 얻을 수 있었다.