시청각 정보 융합을 통한 혼합된 음원의 위치 파악 


52권  9호, pp. 762-770, 9월  2025
10.5626/JOK.2025.52.9.762


PDF

  요약

다중 음원 위치 파악은 시각적 장면 내에서 여러 음원이 혼합되어 있는 오디오를 활용하여 개별 음원의 위치를 파악하는 연구 주제이다. 기존의 연구들은 청각 정보를 시각 정보의 공간 영역을 보조하는 역할로 활용하며 소리를 내는 객체가 여러 개인 경우 객체의 수에 대한 사전 정보가 주어져야 한다는 한계가 존재한다. 본 논문은 공간 정보 통합 모듈을 도입하여 시청각 정보를 융합하고 공간적 단서가 존재하는 청각 정보를 시각 정보와 동등하게 활용한다. 또한 객체 반복 검출 모듈을 도입하여 반복적으로 소리를 내는 객체를 검출함으로써 객체 수에 대한 사전 정보 없이도 여러 음원의 위치를 효과적으로 찾고 분리할 수 있다. 제안한 방법은 기존 연구의 한계를 극복하고 보다 강력한 음원 위치 파악을 수행할 수 있다. 또한 우리는 VGGSound dataset에서 실험을 수행하였고, 기존 접근 방법보다 우수한 성능을 달성하였다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

Y. Lee, S. J. Um, J. U. Kim, "Mixed Sound Source Localization via Audio-Visual Information Fusion," Journal of KIISE, JOK, vol. 52, no. 9, pp. 762-770, 2025. DOI: 10.5626/JOK.2025.52.9.762.


[ACM Style]

YuEun Lee, Sung Jin Um, and Jung Uk Kim. 2025. Mixed Sound Source Localization via Audio-Visual Information Fusion. Journal of KIISE, JOK, 52, 9, (2025), 762-770. DOI: 10.5626/JOK.2025.52.9.762.


[KCI Style]

이유은, 엄성진, 김정욱, "시청각 정보 융합을 통한 혼합된 음원의 위치 파악," 한국정보과학회 논문지, 제52권, 제9호, 762~770쪽, 2025. DOI: 10.5626/JOK.2025.52.9.762.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr