Utilizing External Knowledge in Natural Language Video Localization 


49권  12호, pp. 1097-1107, 12월  2022
10.5626/JOK.2022.49.12.1097


PDF

  요약

최근 자연어 기반 비디오 탐색 알고리즘 연구들은 대부분 이미 존재하는 레이블들을 활용한 데이터셋을 바탕으로 완전지도학습 혹은 준지도학습의 알고리즘들을 기반으로 하고 있다. 그러나 이러한 데이터셋의 구축에는 많은 비용이 들어가며, 레이블을 만들기 어려운 현실 세계에서 사용하기 적합하지 않다. 그렇기에 본 연구에서는 외부지식을 활용한 자연어 기반 비디오 탐색 알고리즘(EK-NLVL)을 제안하며, 사전 학습된 캡셔닝 모델과 비지도 기반의 비디오 영역 탐색 기법을 통해 효과적인 pseudo-supervision을 모델에 줄 수 있는 프레임워크를 제안한다. 거기에 더해 대규모 데이터셋에 사전 학습된 멀티 모달 표현 학습 모델인 CLIP을 활용하여 기존의 자연어 증강 기법인 역번역기법을 바탕으로 시각 정보와 텍스트 정보를 동기화 시켜 pseudo-sentence의 정보의 품질을 향상 시키는 Visual-Aligned Sentence Filtering(VAF) 데이터 필터링 기법을 제안한다. 이렇게 외부지식을 통해 생성된 데이터를 효과적으로 활용할 수 있는 Query-Attentive on Segmentation(QAS) 모델 또한 제안하며 Charades-STA 데이터셋에서의 실험을 통해 EK-NLVL 방법론의 효과를 볼 수 있다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

D. Kim, D. Ahn, J. Choi, "Utilizing External Knowledge in Natural Language Video Localization," Journal of KIISE, JOK, vol. 49, no. 12, pp. 1097-1107, 2022. DOI: 10.5626/JOK.2022.49.12.1097.


[ACM Style]

Daneul Kim, Daechul Ahn, and Jonghyun Choi. 2022. Utilizing External Knowledge in Natural Language Video Localization. Journal of KIISE, JOK, 49, 12, (2022), 1097-1107. DOI: 10.5626/JOK.2022.49.12.1097.


[KCI Style]

Daneul Kim, Daechul Ahn, Jonghyun Choi, "Utilizing External Knowledge in Natural Language Video Localization," 한국정보과학회 논문지, 제49권, 제12호, 1097~1107쪽, 2022. DOI: 10.5626/JOK.2022.49.12.1097.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr