디지털 라이브러리[ 검색결과 ]
C3DSG: 실내 환경 포인트 클라우드를 이용한 3차원 장면 그래프 생성 모델
http://doi.org/10.5626/JOK.2023.50.9.758
포인트 클라우드로부터 3차원 장면 그래프를 생성하는 효과적인 심층 신경망 모델을 설계하기 위해서는 3가지 중요한 도전과제들을 해결해야 한다. 첫 번째 도전과제는 3차원 포인트 클라우드에 대한 효과적인 기하학적 특징 추출 방식을 결정하는 일이다. 두 번째 도전과제는 물체들 간의 3차원 공간 관계를 효과적으로 파악하기 위해서는 어떤 비-기하학적 특징들을 추가적으로 이용할 것인가를 결정하는 일이다. 세 번째 도전과제는 효과적인 공간적 맥락 추론 방식을 결정하는 일이다. 본 논문에서는 이와 같은 도전과제들에 대응하기 위해, 실내 환경 포인트 클라우드로부터 3차원 장면 그래프 예측을 위한 새로운 심층신경망 모델을 제안한다. 제안 모델은 Point Transformer를 이용해 추출하는 3차원 포인트 클라우드의 기하학적 특징뿐만 아니라, 물체들 간의 3차원 공간 관계 예측에 도움을 줄 수 있는 언어적 특징과 상대적 비교 특징 등 다양한 비-기하학적 특징들도 함께 활용한다. 또한 제안 모델은 물체들 간의 공간적 맥락정보를 효과적으로 이끌어내기 위해, 물체 노드들과 이들을 연결하는 간선들 모두에 주의집중을 적용할 수 있는 새로운 NE-GAT 그래프 신경망을 이용한다. 본 논문에서는 3DSSG 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 제안 모델의 효과와 우수성을 입증한다.
시각-언어 공동 임베딩과 지식 그래프 임베딩을 이용한 영상 기반 상식 추론
http://doi.org/10.5626/JOK.2020.47.10.985
본 논문에서는 영상 기반 상식 추론(VCR) 작업을 위한 새로운 모델을 제안한다. 제안 모델에서는 영상과 자연어 질문, 답변 리스트 등과 같은 멀티 모달 입력 데이터들 간의 상호 정렬을 요구하는 시각적 접지 문제에 효과적으로 대응하기 위해, 사전 학습된 시각-언어 모델에 시각적 바인딩 모듈을 추가하여 이들을 함께 임베딩한다. 또한, 제안 모델은 영상 기반 상식 추론에 필요한 공통 개념지식들을 공개 지식 베이스인 ConceptNet에서 추출하여 그래프 합성곱 신경망(GCN)을 이용해 임베딩한다. 본 논문에서는 제안 모델인 VLKG_VCR의 세부 설계사항들을 소개하고, 증진된 VCR 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해 제안 모델의 성능을 입증한다.
지식 그래프를 이용한 오픈 도메인 질문 응답
http://doi.org/10.5626/JOK.2020.47.9.853
본 논문에서는 오픈 도메인의 복잡한 질문들에 효과적으로 응답하기 위한 새로운 지식 그래프 추론 모델 KGNet을 제안한다. 본 모델에서는 질문 응답에 이용할 지식 베이스의 불완전성 문제에 주목한다. 이를 위해 본 모델에서는 서로 다른 형태의 두 가지 지식 자원인 지식 베이스와 문서 집합 모두를 하나의 지식 그래프로 통합하여 답변 생성에 활용한다. 또한 본 모델에서는 지식 그래프 상에서 복잡한 멀티 홉 질문들에 관한 답변을 보다 효과적으로 유도해내기 위해, 그래프 신경망을 이용한 새로운 지식 임베딩과 추론 기법을 적용한다. 본 논문에서는 대표적인 질문 응답 벤치마크 데이터 집합인 WebQuestionsSP와 MetaQA를 이용한 다양한 실험들을 통해, 제안 모델의 효과와 우수성을 입증한다.
영상 기반 대화를 위한 모듈 신경망 학습
http://doi.org/10.5626/JOK.2019.46.12.1304
본 논문에서는 영상 기반 대화를 위한 새로운 모듈 신경망 모델을 제안한다. 영상 기반 대화는 몇 가지 어려운 도전적 과제를 가지고 있다. 첫 번째는 자연어 질문에서 언급하는 개체들을 주어진 입력영상의 어떤 물체들과 연관 지어 이해해야 하는가에 관한 시각적 접지 문제이다. 그리고 두 번째는 새로운 질문에 포함된 명사구나 대명사가 과거 질문이나 답변에 등장하는 어떤 개체를 가리키며, 결국 입력영상의 어떤 물체를 의미하는 지를 알아내는 시각적 상호 참조 해소 문제이다. 이러한 문제들을 해결하고자, 본 논문에서는 질문 맞춤형 모듈 신경망과 참조 풀을 이용하는 새로운 영상 기반 대화 모델을 제안한다. 본 논문의 제안 모델은 비교 질문들에 효과적으로 답하기 위한 새로운 비교 모듈을 포함 할뿐만 아니라, 이중 주의 집중 메커니즘을 적용해 성능을 향상시킨 새로운 탐지 모듈, 참조 풀을 이용해 시각적 상호참조를 해소하는 참조 모듈 등을 포함한다. 제안 모델의 성능 평가를 위해, 대규모 벤치마크 데이터 집합인 VisDial v0.9와 VisDial v1.0을 이용한 다양한 실험들을 수행하였다. 그리고 이 실험들을 통해, 기존의 최신 영상 기반 대화 모델들에 비해 본 논문에서 제안한 모델의 더 뛰어난 성능을 확인할 수 있었다.
고밀도 비디오 캡션 생성을 위한 의미 특징 학습
http://doi.org/10.5626/JOK.2019.46.8.753
본 논문에서는 고밀도 비디오 캡션 생성을 위한 새로운 심층 신경망 모델을 제안한다. 고밀도 비디오 캡션 생성은 하나의 입력 비디오로부터 다수의 이벤트 구간들을 찾아내고, 이들 각각에 관한 자연어 설명 문장을 생성하는 작업이다. 기존의 모델들에서는 합성곱 신경망을 통해 입력 비디오의 시각 특징만을 추출하여 사용한 것과는 달리, 본 논문에서 제안하는 모델에서는 행위, 물체, 배경, 사람 등 중요한 이벤트 구성 요소들을 효과적으로 표현할 수 있는 고수준의 의미 특징들을 추가적으로 활용하였다. 또한 제안 모델에서는 순환 신경망인 LSTM을 이용하여 비디오 안에 포함된 이벤트 시간 영역들을 탐지하였다. 또, 제안 모델에서는 중요도에 따라 선택적으로 입력 특징들에 집중할 수 있도록, 캡션 생성 과정에 주의집중 메커니즘을 적용하였다. 고밀도 비디오 캡션 생성을 위한 대용량 벤치마크 데이터 집합인 ActivityNet Captions 데이터 집합을 이용한 다양한 실험을 통해, 본 논문에서 제안한 모델의 높은 성능과 우수성을 확인할 수 있었다.
맥락 정보를 이용한 시각 장면 이해
http://doi.org/10.5626/JOK.2018.45.12.1279
본 논문에서는, 시각 장면 이해의 한 문제로서, 입력 영상들로부터 장면 그래프와 영상 캡션을 동시에 생성하는 문제를 다룬다. 장면 그래프는 영상 내 물체들과 그들 간의 관계들을 나타내는 정형 지식 표현이며, 영상 캡션은 주어진 영상에 담긴 장면을 서술하는 자연어 문장이다. 본 논문에서는 이러한 문제를 효과적으로 해결하기 위해, 맥락 정보를 서로 교환함으로써 서로 다른 두 가지 표현을 상호보완적으로 생성하는 새로운 심층 신경망 모델을 제안한다. 제안 모델은 물체 탐지, 관계 탐지, 캡션 생성 등 각기 다른 세 가지 계층들로 구성되며, 각 계층은 그 계층에 부여된 작업을 성공적으로 수행하기 위해 맥락정보를 적절히 활용한다. 제안 모델의 성능을 평가하기 위해, 대규모 벤치마크 데이터 집합인 Visual Genome을 이용한 다양한 실험들을 수행하였다. 이러한 실험들을 통해, 맥락 정보를 활용하는 제안 모델이 기존의 경쟁 모델들에 비해 높은 성능 향상이 있었음을 확인할 수 있었다.
의미 특징과 시간 영역 제안을 이용한 비분할 비디오에서의 행동 탐지
http://doi.org/10.5626/JOK.2018.45.7.678
본 논문에서는 비분할 비디오에 담긴 사람의 행동을 효과적으로 탐지해내기 위한 심층 신경망 모델을 제안한다. 한 비디오의 연속된 영상 프레임들에서 학습하는 시간적 시각 특징들은 동적 행동 그 자체를 인식하는데 도움을 주는 반면, 각 영상 프레임에서 학습하는 공간적 시각 특징들은 행동과 연관된 물체들을 탐지하는데 도움을 줄 수 있다. 따라서 비디오로부터 행동을 효과적으로 탐지해내기 위해서는 시간적 시각 특징들뿐만 아니라, 공간적 시각 특징들도 함께 고려되어야 한다. 또한, 이러한 시각 특징들 외에, 비디오의 내용을 고수준의 개념들로 표현할 수 있는 의미 특징들도 행동 탐지 성능 향상에 도움을 줄 수 있다. 한편, 비디오로부터 행동의 종류뿐만 아니라 행동의 시간적 영역도 정확히 탐지해내기 위해서는 행동 후보 영역들을 미리 제안하는 하는 방법이 필요하다. 본 논문에서 제안하는 비디오 행동 탐지 모델은 심층 합성곱 신경망을 이용해 시각 특징과 의미 특징을 함께 학습할 뿐만 아니라, 순환 신경망을 이용해 효과적으로 후보 영역 제안과 행동 분류 작업을 수행한다. ActivityNet과 THUMOS와 같은 대규모 벤치마크 데이터 집합을 이용한 다양한 실험을 통해, 본 논문에서 제안하는 행동 탐지 모델의 높은 성능을 확인할 수 있었다.
실내 서비스 로봇을 위한 방향 관계 표현과 추론
http://doi.org/10.5626/JOK.2018.45.3.211
본 논문에서는 실내 서비스 로봇들을 위한 로봇 중심의 방향 관계 표현과 추론 방법을 제안한다. 정성적 공간 관계 추론에 관한 많은 기존 연구들에서는 기준 물체를 중심으로 대상 물체의 상대적 방향관계를 판별할 때, 두 물체의 위치 정보만을 이용해왔다. 이러한 방향 관계 추론 방법들은 로봇 스스로가 기준 물체가 되어 다른 대상 물체들과의 방향 관계를 판별할 때, 로봇이 바라보고 있는 방향을 제대로 고려하지 않음으로써, 대상 물체의 방향 관계를 잘못 판별하는 사례들이 발생할 수 있다. 본 논문에서는 실내환경에서 로봇을 중심으로 물체들의 상대적인 방향 관계를 판별할 때, 로봇의 위치 정보뿐만 아니라 로봇이 향하고 있는 방향 정보도 이용하는 로봇 중심의 방향 관계 표현과 방향 관계 추론 방법들을 제시한다. 로봇중심의 방향 관계 추론 방법들은 두 물체의 위치 정보만을 이용해왔던 기존의 콘 기반 추론, 행렬 기반 추론, 그리고 혼합 추론 방법을 확장하여 구현하였다. 터틀봇과 시뮬레이션 로봇을 이용한 다양한 실험들을 통해, 본 논문에서 제안하는 방향 관계 표현과 추론 방법들의 높은 성능과 적용 가능성을 확인할 수 있었다.
지능형 서비스 로봇을 위한 온톨로지 기반의 동적 상황 관리 및 시-공간 추론
일상생활 환경 속에서 자율적으로 동작하는 서비스 로봇에게 가장 필수적인 능력 중 하나가 동적으로 변화하는 주변 환경에 대한 올바른 상황 인식과 이해 능력이다. 다양한 센서 데이터 스트림들로부터 신속히 의사 결정에 필요한 고수준의 상황 지식을 생성해내기 위해서는, 멀티 모달 센서 데이터의 융합, 불확실성 처리, 기호 지식의 실체화, 시간 의존성과 가변성 처리, 실시간성을 만족할 수 있는 시-공간 추론 등 많은 문제들이 해결되어야 한다. 이와 같은 문제들을 고려하여, 본 논문에서는 지능형 서비스 로봇을 위한 효과적인 동적 상황 관리 및 시-공간 추론 방법을 제시한다. 본 논문에서는 상황 지식 관리와 추론의 효율성을 극대화하기 위해, 저수준의 상황 지식은 센서 및 인식 데이터가 입력될 때마다 실시간적으로 생성되지만, 반면에 고수준의 상황 지식은 의사 결정 모듈에서 요구가 있을 때만 후향 시-공간 추론을 통해 유도되도록 알고리즘을 설계하였다. Kinect 시각 센서 기반의 Turtlebot를 이용한 실험을 통해, 제안한 방법에 기초한 동적 상황 관리 및 추론 시스템의 높은 효율성을 확인할 수 있었다.
혼합 공간 추론 알고리즘의 설계 및 구현
미국의 Jeopardy! 퀴즈쇼와 같은 DeepQA 환경에서 인간을 대신해 컴퓨터가 효과적으로 답하기 위해서는, 광범위한 지식 베이스와 빠른 시공간 추론 능력이 요구된다. 본 논문에서는 방향 및 위상 관계 추론을 위한 효율적인 공간 추론 방법 중 하나로, 혼합 공간 추론 알고리즘을 제안한다. 본 알고리즘은 전향 추론과 후향 추론을 결합한 혼합 추론 방식을 취함으로써, 불필요한 추론 계산을 줄여 질의 처리 속도도 향상될 뿐 아니라 공간 지식 베이스의 변화에 효과적인 대처가 가능하도록 설계하였다. 본 연구에서는 이 알고리즘을 기반으로 구현한 혼합 공간 추론기와 샘플 공간 지식베이스를 이용하여 성능 분석 실험들을 수행하였고, 이를 통해 본 논문에서 제안한 혼합 공간 추론 알고리즘의 높은 성능을 확인할 수 있었다.