디지털 라이브러리[ 검색결과 ]
동적 해양 환경에서 자율 수중 차량 임무 수행을 위한 강화학습 기반 경로 최적화 기법
안효준, 안신천, 노지민, 송일석, 권주은, 권세이, 김영대, 박수현, 김중헌
http://doi.org/10.5626/JOK.2025.52.6.519
본 논문은 동적 해양 환경에서 AUV (Autonomous Underwater Vehicle)의 자율 임무 수행 및 경로 최적화를 위해 AOPF (Autonomous Underwater Vehicle Optimal Path Finder) 알고리즘을 제안한다. 제안한 알고리즘은 PPO (Proximal Policy Optimization) 기반 강화학습 기법과 3-degree-of freedom (DOF) 모델을 적용하여 장애물 회피와 목표 도달의 균형을 달성하며, 기존 DDPG (Deep Deterministic Policy Gradient) 알고리즘 대비 빠른 수렴과 높은 임무 성능을 보인다. 실험 결과, 제안 기법은 안정적 학습과 효율적 경로 생성을 확인하였다. 본 연구는 동적 해양 환경에서 AUV의 자율 임무 수행을 위한 새로운 강화학습 기반 제어 방법을 제시하며, 실제 해양 적용 및 다중 AUV 협력 제어와 같은 확장 가능성에 관해 논의한다.
한계효용 체감의 법칙을 적용한 강화학습: 다중 에이전트의 효율적이고 평등한 자원 분배
http://doi.org/10.5626/JOK.2025.52.5.374
한계효용 체감의 법칙은 재화를 추가로 소비함에 따라 그로 인해 얻는 효용이 점차 적어진다는 경제학 이론이다. 본 연구는 한정된 자원을 분배하는 다중 에이전트 강화학습의 보상에 한계효용 체감의 법칙을 적용하여 상호 간의 소통 없이 최적의 분배가 이루어질 수 있음을 보인다. 이는 각자의 이기적 행동이 총효용을 극대화한다는 시장 원리를 다중 에이전트 학습에 적용한 것이다. 실험 결과, 그리드 월드에서 두 에이전트가 두 자원을 각자 획득하는 환경에서 한계효용 체감의 법칙을 적용하면 더욱 자원을 평등하고, 파레토 최적에 가깝게 분배한다.
강화학습 기반 자율이동체의 학습 효율 향상을 위한 유사도 기반 다중 지식 전이 알고리즘
http://doi.org/10.5626/JOK.2025.52.4.310
본 논문은 강화학습 기반 자율이동체의 학습 효율을 향상시키기 위해 유사도 기반 다중 지식 전이 알고리즘(similarity-based multi-knowledge transfer, SMTRL)을 제안한다. SMTRL은 사전 학습된 모델과 현재 모델의 유사도를 계산하고, 그 유사도에 기반하여 지식 전이의 비율을 동적으로 조절하여 학습 효율을 극대화하는 방법론이다. 복잡한 환경에서 자율이동체가 단독으로 학습할 경우 많은 시간이 소요되므로, 지식 전이는 필수적이다. 하지만 사전 학습 모델과 실제 환경 간 차이가 클 경우, 학습 성능이 저하되는 부정 전이 현상이 나타날 수 있다. SMTRL은 이러한 부정 전이를 최소화하기 위해 유사도가 높은 사전 학습 모델의 지식을 반영 비율을 동적으로 조정함으로써 안정적으로 학습 속도를 가속화한다. 실험 결과, 제안된 알고리즘은 기존의 단일 지식 전이 및 전통적 강화학습 방법과 비교하여 수렴 속도 및 성능에서 우수한 결과를 나타냈다. 본 연구는 자율이동체의 효율적인 학습을 위한 새로운 지식 전이 방법을 제시하며, 복잡한 이동체 환경으로의 적용 가능성과 향후 연구 방향에 관해 논의한다.
정책 기반 강화학습에서의 효율적 탐색을 위한 행동 선택 기법 및 동적 밀집 보상 적용 연구
http://doi.org/10.5626/JOK.2025.52.4.293
오늘날 강화학습은 자율주행, 로봇, 게임 등 다양한 분야에서 연구 및 활용되고 있다. 강화학습은 에이전트가 환경과 상호작용하며 최적의 행동 정책을 찾는 것을 목표로 하며, 환경과 문제에 따라 정책 기반 알고리즘과 가치 기반 알고리즘 중 더 적절한 알고리즘이 선택되어 사용된다. 정책 기반 알고리즘은 연속적이고 고차원적인 행동 공간에서 효과적인 학습이 가능하지만, 학습률 파라미터가 학습에 미치는 영향이 크고, 복잡한 환경일수록 최적화된 정책의 수렴 난도가 상승하는 문제점이 존재한다. 본 논문에서는 이러한 문제점을 해결하고자 어닐링 알고리즘을 기반한 행동 선택 기법 및 동적 밀집 보상 설계를 제안한다. 제안된 방식을 두 가지 대표적인 정책 기반 알고리즘인 A2C 알고리즘과 PPO 알고리즘에 적용하여 실험을 진행하였고, 실험 결과, 제안된 방식을 적용한 두 강화학습 알고리즘이 기존 강화학습 알고리즘 대비, 더 높은 성능을 보였다.
CraftGround: 최신 마인크래프트 기반의 유연한 강화학습 환경
http://doi.org/10.5626/JOK.2025.52.3.189
본 논문은 최신 마인크래프트 버전(1.21)을 기반으로 한 새로운 강화학습 환경 CraftGround를 소개한다. CraftGround는 유연한 실험 설정을 제공하며, 복잡한 3D 환경에서의 강화학습을 지원한다. 시각적 데이터, 소리 신호, 생물 군계 정보, 게임 내 통계와 같은 다양한 관측 정보를 제공하여 에이전트의 성능을 다각도로 평가할 수 있다. 본 연구는 나무 채취, 적대적 몬스터 회피, 낚시와 같은 여러 태스크에서 VPT, PPO, RecurrentPPO, DQN 에이전트를 평가하였다. VPT는 사전 학습 덕분에 높은 성능과 효율성을 보였으며, PPO 및 RecurrentPPO와 같은 온라인 학습 알고리즘은 환경 변화에 적응하며 시간이 지남에 따라 성능이 향상되었다. 이 결과는 CraftGround가 동적 3D 시뮬레이션에서 적응적 에이전트 행동 연구를 촉진할 가능성을 보여준다.
피드백 강화학습을 통한 검색 모델 개선
http://doi.org/10.5626/JOK.2024.51.10.900
오픈 도메인 질의응답 작업은 검색을 통해 단서를 얻고 문제를 해결하는 과정이다. 이러한 작 업에서 검색 모델이 적절한 단서를 제공하는 것은 매우 중요하며, 이는 최종 성능에 직접적인 영향을 미친 다. 또한, 정보 검색은 일상 생활에서도 빈번히 사용되는 중요한 기능이다. 본 논문에서는 이러한 문제의 중요성을 인식하고, 검색 모델의 성능 향상을 목표로 한다. 최근 디코더 모델에서 Reinforcement learning from human feedback(RLHF)을 통해 출력을 조정하는 방식이 자주 사용되고 있는 것처럼, 본 연구에서 는 강화학습을 활용하여 검색 모델을 강화하고자 한다. 구체적으로, 답변 모델의 손실과 검색 문서와 정답 문서 간의 유사도라는 두 가지 보상을 정의하고, 이를 바탕으로 강화학습을 적용하여 검색 모델의 문서 확 률 분포에서 1위 문서의 확률 점수를 조정한다. 이러한 방법을 통해 강화학습 방법의 일반성과 이를 통한 추가적인 성능 향상을 확인한다.
모방학습 기반 개인화된 자율주행 에이전트 개발
http://doi.org/10.5626/JOK.2024.51.6.558
자율주행의 출현으로 인간과 로봇은 같은 도로를 공유하게 되었다. 자율주행 차량이 기존 도로 에 조화롭게 편입하기 위해서는 인간 운전자처럼 (human-like) 주행하며 서로 간의 간극을 줄여야 할 필 요가 있다. 나아가 높아지는 개인화 요구에 맞추어 개인의 선호가 반영된(personalized) 자율주행에 대한 요구를 충족할 필요도 있다. 본 논문에서는 전문가 데이터를 복제하는 모방학습 기법을 탐구하고, 나아가 전문가 데이터를 기반으로 다양한 주행 패턴에 대한 선호를 만족하는 자율주행 정책을 생성하는 조정 가 능한 다중목적 모방학습 방식을 제안한다. 또한, 제안하는 방식으로 생성된 자율주행 정책들을 자율주행 Carla 시뮬레이터를 이용하여 다양한 시나리오에서 실험한다.
에피소드 랜덤화 및 액션 노이즈를 통한 강화학습 기반의 포트폴리오 최적화 성능 향상
http://doi.org/10.5626/JOK.2024.51.4.370
포트폴리오 최적화는 투자 관리 위험을 감소시키고 수익을 극대화하기 위해 필수적이다. 최근 인공 지능 기술이 급격히 발달하면서 다양한 분야에서 이를 활용하기 위해 연구 중이며, 특히 금융 분야에서는 강화학습을 적용하기 위한 연구가 활발히 진행되고 있다. 그러나 대부분의 연구들이 과거 금융 데이터의 반복 학습으로 인한 에이전트 과적합 문제를 해결하지 못하고 있다. 이에 본 연구에서는 강화학습 기반의 포트폴리오 최적화에서 에피소드 랜덤화 및 액션 노이즈를 통해 과적합을 완화하는 기법을 제안한다. 제안된 기법은 에피소드마다 학습 데이터 기간을 랜덤화하여 다양한 시장 상황을 경험하게 함으로써 데이터 증폭의 효과와 액션 노이즈 기법을 활용하여 에이전트가 특정 상황에 대응할 수 있게 탐색을 촉진한다. 실험 결과 제안 기법을 적용하였을 때 기존 강화학습 에이전트보다 성능이 향상되었음을 확인할 수 있었으며 비교 실험을 통해 다양한 조건에서 제안하는 기법 모두 성능 향상에 기여하였음을 확인하였다.
FaaS 플랫폼에서 콜드 스타트 감소를 위한 강화학습 기반 적응적 컨테이너 스케줄링 대기 기법
http://doi.org/10.5626/JOK.2024.51.3.191
FaaS(Function as a Service)는 컴퓨팅 자원을 가상화하여 함수 단위로 제공하는 클라우드 컴퓨팅 서비스 모델로 탄력적이고 간편한 서비스 전개가 가능해 클라우드 네이티브(cloud native) 아키텍처에서 빠르게 사용이 증가하고 있다. 하지만 FaaS 플랫폼에서 사용자가 요청한 함수의 최초 실행에는 몇몇 초기화 단계가 필수적으로 수반되며 이러한 초기화 오버헤드, 즉 콜드 스타트(cold start)는 함수 실행의 지연을 발생시킨다. 우리의 아이디어는 FaaS 플랫폼에서 실행중인 함 수와 동일한 함수실행 요청이 있을 때 해당 요청을 즉시 처리하지 않고 기다리는 것이 콜드 스타트 발생을 줄일 수 있다는 것이다. 본 논문에서는 강화학습을 기반으로 함수실행 요청의 전송과 대기 중 최선의 선택을 추구하는 FaaS 리퀘스트대기 정책 모델을 제안한다. Azure Public Dataset을 이용한 Openwhisk 비교실험 결과 콜드 스타트 발생빈도를 최대 57% 낮추고, 함수의 평균 실행시간을 최대 81%까지 줄일 수 있음을 확인하였다.
UnityPGTA : 강화학습을 이용한 유니티 플랫포머 게임의 테스팅 자동화 도구
http://doi.org/10.5626/JOK.2024.51.2.149
수십억 명 규모의 거대한 비디오 게임 산업에서 게임 테스트 비용은 절반에 달할 정도로 상당하여 테스팅 비용 절감을 위한 자동화 연구들이 이루어지고 있다. 그러나 기존 테스트 자동화 기존 연구들은 스크립트 작성 등의 사람의 개입을 요구하는 수동 작업이 남아 있어 테스트 비용이 많이 든다. 또는 VGDL과 GVG-AI의 가상 환경으로 구현되어 실제 게임 테스팅에 활용하기 어렵다. 본 논문에서는 유니티 플랫포머 게임을 대상으로 유니티와 유니티 머신러닝 에이전트를 활용하여 시스템 결함 탐지를 목적으로 게임 테스팅을 자동화하는 도구를 제안한다. 제안하는 도구는 실제 상용 게임 엔진 기반이며 사람의 개입 없이 게임을 스스로 분석하여 게임 자동 테스팅 환경을 구축한다. 그리고 실제 오픈소스 게임들을 대상으로 제안하는 도구와 랜덤 베이스라인 모델의 에러 탐지 결과를 비교 분석하여 제안하는 도구가 효율적으로 자동 게임 분석과 테스팅 환경 구축을 수행하여 테스트 비용을 줄이고 품질과 안정성을 개선할 수 있음을 보인다.