
바이트댄스 연구진이 자기회귀 이미지 생성을 위한 1차원 코어스 투 파인 프레임워크 ‘디테일플로우’를 소개했다. 이 방법은 이미지를 한 토큰씩 생성함으로써 구조적 일관성을 유지하면서 이미지를 생성하는 혁신적인 방법이다.
바이트댄스 연구진이 자기회귀 이미지 생성을 위한 1차원 코어스 투 파인 프레임워크 ‘디테일플로우’를 소개했다. 이 방법은 이미지를 한 토큰씩 생성함으로써 구조적 일관성을 유지하면서 이미지를 생성하는 혁신적인 방법이다.
삼성 연구원이 텍스트 프롬프트를 고품질 비디오 시퀀스로 변환하는 핵심 기술인 비디오 생성 모델을 향상시키기 위한 ANSE(Active Noise Selection for Generation)을 소개했다. 확산 모델은 무작위 노이즈에서 시작하여 현실적인 비디오 프레임으로 반복적으로 정제하는 방식으로 작동한다. 텍스트-비디오 모델은 이를 확장한다.
싱가포르 국립대학 연구진은 최근 확산 모델을 자연어 처리 작업에 적용하는 관심이 증가함에 따라 이를 텍스트 생성의 노이즈 제거 과정으로 취급하는 이산 확산 언어 모델(DLMs)을 개발했다. DLMs는 전통적인 자기회귀 모델과 달리 병렬 디코딩을 가능하게 하며 더 나은 제어를 제공한다.
롱-컨텍스트 모델링의 발전으로 LLM 및 대형 비전-언어 모델의 새로운 기능이 개방되었고, 이에 효과적인 평가 벤치마크인 ‘MMLONGBENCH’가 소개되었다.
LightLab은 단일 이미지에서 미세한 빛 조절을 위한 새로운 AI 방법이다. 기존 방법은 여러 촬영으로부터 장면의 기하학과 속성을 재구성한 후 물리적 조명 모델을 사용하여 새로운 조명을 시뮬레이션하는 3D 그래픽 방법을 사용하는데, 이러한 기술은 빛 원본에 대한 명확한 제어를 제공하지만 단일 이미지로부터 정확한 3D 모델을 복원하는 것은 여전히 문제로 남아있다.
DanceGRPO는 시각적 콘텐츠 생성을 위한 강화 학습에 대한 통합 프레임워크로, 여러 패러다임과 작업에 걸쳐 시각 생성을 혁신적으로 다룬다. 최근의 생성 모델 발전을 통해 시각적 콘텐츠 생성이 향상되었으며, 훈련 중 인간 피드백 통합이 중요하다.
인공지능은 언어 중심 시스템을 넘어서 여러 입력 유형(텍스트, 이미지, 오디오, 비디오)을 처리할 수 있는 모델로 발전했습니다. 멀티모달 학습은 다양한 감각 데이터를 통합하고 해석하는 인간의 능력을 모방하는 것을 목표로 합니다. 단일 모달리티를 다루는 전통적 AI 모델과 달리, 멀티모달 종합주의자들은…
영상-LLMs은 전체 사전 녹화된 비디오를 한꺼번에 처리합니다. 그러나 로보틱스 및 자율 주행과 같은 응용 프로그램은 시간적으로 이해와 응답이 중요한 스트리밍 시나리오에서 작동하도록 설계되지 않은 현재 비디오-LLMs의 한계를 보여줍니다. 애플 연구자들이 StreamBridge를 소개하여 오프라인에서 실시간 스트림으로의 전환을 가능하게 했습니다.
Google 연구원들은 REFVNLI를 소개하여 텍스트 프롬프트와 함께 참조 이미지를 통합하는 표준 T2I 모델을 강화하는 주제 중심의 방법을 통해 텍스트-이미지(T2I) 생성을 강화했다. 현재의 메트릭은 주로 텍스트 프롬프트에 초점을 맞추거나 주제 중심 T2I 생성에 대한 신뢰할 수 있는 자동 평가 방법이 부족한 도전에 직면하고 있다.
CLIP 프레임워크는 이미지-텍스트 검색과 같은 다중 모달 표현 학습에서 중요한 역할을 하고 있지만, 텍스트 입력에 제한이 있고 이미지와 텍스트 처리를 분리하는 이중 인코더 설계 등 몇 가지 한계가 있습니다. UniME는 이러한 한계를 극복하고 세분화된 표현을 캡처하는 데 효과적입니다.
고해상도 이미지에 대한 AR 모델의 확장은 계산 비용이 급증하는 문제를 제기하고 있는데, Meta AI가 이미지 토큰을 줄이는 간단한 AI 접근 방법인 Token-Shuffle을 소개했다.
Skywork AI는 강점인 특화된 추론 능력을 강화하면서도 다양한 작업에 대한 일반화를 유지하는 것에 대한 도전에 집중하고 있습니다. 최근의 연구에서, 시각적 이해 작업에 대한 성능 저하와 시각적 환각 증세 증가로 인해 ‘느린 사고’ 모델이 제안되었습니다.
NVIDIA가 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 모델인 ‘Describe Anything 3B’를 발표했다. 시각-언어 모델에서 이미지나 비디오의 특정 영역을 설명하는 것은 어려운 문제인데, 이 모델은 세부적이고 지역별 설명을 생성하는 데 탁월한 성과를 보여준다.
디커플드 디퓨전 트랜스포머는 이미지 생성 작업에서 우수한 성능을 보이며 기존 GAN 및 자기 회귀 아키텍처를 능가한다. 이미지에 점진적으로 노이즈를 추가하고 이 과정을 거꾸로 되돌리는 방식으로 작동하여 데이터 분포를 근사하는 모델을 구현한다.
Eagle 2.5는 GPT-4o와 같은 비디오 작업에서 8B 매개변수를 사용하여 일반적인 비전-언어 모델로 작동하며, 긴 문맥 다중모달 데이터를 효과적으로 처리하는 능력을 갖추고 있음.
비디오 생성은 시간에 걸쳐 움직임과 시각적 현실을 시뮬레이트하는 이미지 시퀀스를 만드는 컴퓨터 비전 및 머신 러닝 분야다. 스탠포드 대학 연구진은 FramePack라는 압축 기반 AI 프레임워크를 제안하여 장기 시퀀스 비디오 생성 시 발생하는 Drifting과 Forgetting 문제를 효율적인 컨텍스트 관리와 샘플링을 이용해 해결하는 방안을 제시했다.
Meta AI가 소개한 Perception Encoder는 이미지와 비디오에 걸쳐 다양한 시각 작업을 뛰어나게 처리하는 대규모 비전 인코더다. AI 시스템이 점점 다중 모달로 발전함에 따라 시각 지각 모델의 역할은 더 복잡해지고 있다. 기존의 비전 인코더는 물체와 장면을 인식하는 것뿐만 아니라 캡션, 질문 응답, 세부 인식, 문서 구문 분석, 이미지와 비디오 모두에 걸쳐 공간 추론을 지원해야 한다.
MLLM은 최근 세밀한 픽셀 수준 시각적 이해를 다루는 데 진전되어 정확한 영역 기반 편집 및 분할과 같은 작업에 확장되었습니다. 기존 방법들은 복잡한 아키텍처에 의존하는데, 이를 극복하기 위해 바이트댄스와 WHU의 연구자들이 픽셀-SAIL을 소개하며 7B MLLMs를 능가했습니다.