ViSMaP: 메타 프롬프팅과 짧은 형식 데이터셋을 사용한 1시간 길이의 비디오의 비지도 요약

발행일: 2025년 4월 28일 오후 4시 24분

비디오 캡션 모델은 일반적으로 짧은 비디오(일반적으로 3분 미만)와 해당 캡션과 함께 구성된 데이터셋에서 학습됩니다. 이를 통해 이 모델들은 산책이나 대화와 같은 기본적인 동작을 설명하는 데 용이하지만, Vlog, 스포츠 이벤트, 영화 등과 같은 긴 형식의 비디오의 복잡성에는 어려움을 겪습니다. 이러한 긴 비디오들은 여러 주제와 상황이 혼합되어 있고, 캡션 모델은 이를 요약하거나 해석하는 데 한계가 있습니다. ViSMaP는 이러한 문제를 해결하기 위해 메타 프롬프팅과 짧은 형식 데이터셋을 활용하여 1시간 길이의 비디오를 비지도 방식으로 요약하는 기술을 제시합니다. 이를 통해 긴 비디오의 요약 및 해석이 용이해지며, 더 많은 응용 분야에서 활용될 수 있을 것으로 기대됩니다.