명시적 3D 모델링을 통한 세계 일관성 있는 비디오 확산

확산 모델이 시각적 콘텐츠 생성을 주도하는 가운데, 이러한 모델을 3D 콘텐츠를 만들기 위해 다중 뷰 이미지 생성에 적응시키는 노력이 이루어졌다. 기존에는 RGB 프레임만 생성함으로써 3D 일관성을 암묵적으로 학습하는 방법이 널리 사용되었지만, 이는 훈련 중에 아티팩트와 비효율성을 초래할 수 있다. 이에 반해 저희는 RGB 프레임과 함께 정규화된 좌표 공간(Normalized Coordinate Space, NCS) 프레임을 생성하는 것을 제안한다. NCS 프레임은 각 픽셀의 전역 좌표를 캡처하여 강력한 픽셀 대응과 3D 일관성을 위한 명시적 지도를 제공한다. 또한, RGB 및 NCS 프레임을 동시에 추정함으로써 모델은 훈련 중에 3D 일관성을 더 효과적으로 학습할 수 있게 된다.
출처: Apple
요약번역: 미주투데이 서현진 기자