2025년 4월 29일 화요일
오늘의 신문
2025년 4월 29일 화요일 오늘의 신문
DART: 확장 가능한 텍스트-이미지 생성을 위한 Denoising Autoregressive Transformer
발행일: 2025년 4월 16일 오전 12시 00분

최근에는 시각적 생성을 위한 주요 접근 방식으로 확산 모델이 주목받고 있다. 이 모델들은 점차 입력에 노이즈를 추가하는 Markovian 프로세스를 노이즈 제거로 훈련시킨다. 그러나 우리는 Markovian 특성이 모델의 생성 궤적을 완전히 활용하는 능력을 제한하며 훈련 및 추론 중 비효율성을 유발한다고 주장한다. 본 논문에서는 비-Markovian 프레임워크 내에서 자기 회귀(AR)와 확산을 통합하는 transformer 기반 모델인 DART를 제안한다. DART는 표준적인 AR 모델과 동일한 아키텍처를 가진 이미지 패치를 공간적, 스펙트럼적으로 반복적으로 노이즈 제거하여 텍스트에서 이미지를 생성한다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자