삼성 연구원, 텍스트-비디오 확산 모델 개선을 위한 ANSE 소개

비디오 생성 모델은 텍스트 프롬프트를 고품질 비디오 시퀀스로 변환하여 동적 콘텐츠를 만드는 핵심 기술이 되었다. 특히 확산 모델은 이 작업을 위한 선도적인 접근 방식으로 자리매김했다. 이 모델들은 무작위 노이즈에서 시작하여 현실적인 비디오 프레임으로 반복적으로 정제함으로써 작동한다. 텍스트-비디오(T2V) 모델은 이를 확장하여 텍스트 프롬프트를 비디오 시퀀스로 변환하는 과정에서 주목할 만한 성과를 거두고 있다. ANSE(Active Noise Selection for Generation)는 이러한 확산 모델의 성능을 향상시키기 위한 모델-인식 프레임워크로, 주의 기반 불확실성 추정을 통해 작동한다. 이를 통해 텍스트-비디오 확산 모델의 성능을 더욱 향상시킬 수 있다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자