
비디오 생성을 위한 세밀한 제어는 광고, 영화 제작, 대화형 엔터테인먼트 시장에서의 확산을 위해 중요한 장벽이다. 텍스트 프롬프트는 제어의 주요 수단이지만 동적인 움직임을 명확히 하는 데 한계가 있다.
비디오 생성을 위한 세밀한 제어는 광고, 영화 제작, 대화형 엔터테인먼트 시장에서의 확산을 위해 중요한 장벽이다. 텍스트 프롬프트는 제어의 주요 수단이지만 동적인 움직임을 명확히 하는 데 한계가 있다.
VLM-R³는 시각과 언어 정보를 통합하여 기계가 다이어그램 내의 수학 문제 해결, 사진에서의 표지판 해석, 과학적 차트 해석 등 다중 모달 추론 능력을 갖추도록 돕는 프레임워크이다. 이는 인간의 사고과정을 모방하는데 도움이 되며 시각적 해석과 논리적 진행이 필요한 작업에 적합하다.
MIT 연구팀이 디지털로 제작된 필름을 사용해 원본 그림을 물리적으로 복원하는 새로운 방법을 개발했다. 필름은 원하는 경우 제거할 수 있다.
VeBrain은 로봇 팔과 다리로 등장하는 기계들이 주변 환경을 인식하고 상황을 해석하며 의미 있는 조치를 취할 수 있도록하는 ML 모델의 통합을 통해 로봇 공학 분야를 발전시키고 자율적인 기계로 나아가고 있다.
MIT 동문 두 명에 의해 설립된 Coactive는 AI 플랫폼을 구축하여 모든 유형의 콘텐츠로부터 새로운 통찰을 얻을 수 있게 함.
알케미스트는 텍스트-이미지(T2I) 생성 분야에서 일관된 출력 품질을 달성하는데 도움을 주는 감독 미세 조정 데이터셋으로, 대규모 사전 훈련만으로는 높은 품질과 정렬을 달성하기 어렵다는 도전에 대응한다. DALL-E 3, Imagen 3, Stable Diffusion 3과 같은 모델의 발전에도 불구하고, 미학적 및 정렬 측면에서 일관된 출력 품질을 달성하는 것은 여전히 과제다.
2025년 6월 11일부터 15일까지 테네시 주 내슈빌에서 개최되는 IEEE/CVF 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스에 Apple이 후원사로 참여할 예정이다. 이 컨퍼런스는 주요 컨퍼런스와 여러 공동 워크샵 및 단기 과정으로 구성된 매년 열리는 컴퓨터 비전 행사이다.
확산 모델은 고품질 이미지 생성에서 성공을 거두었으며, 이제는 다양한 데이터 유형 처리의 기초로 탐구되고 있습니다. 이 능력은 텍스트와 이미지와 같은 이산 데이터와 연속 데이터를 포함한 멀티모달 작업에 유망한 확산 모델을 만듭니다.
다중 모달 대형 언어 모델(Multi-modal large language models, MLLMs)은 다양한 시각적 작업을 처리할 수 있는 다재다능한 AI 어시스턴트로 큰 발전을 이루었다. 그러나 이러한 MLLM들을 격리된 디지턀 엔티티로 배치하는 것은 그들의 잠재력을 제한한다. Meta AI는 Multi-SpatialMLLM을 소개하며 현재 MLLMs의 공간적 추론 결함을 극복하고 실제 응용프로그램에 통합하는 데 도움이 되는 것을 목표로 한다.
MLLM은 시각적 콘텐츠의 풍부함과 언어의 논리를 결합하는 모델을 만드는 것이 핵심. 그러나 두 영역을 효과적으로 연결하는 것에 어려움을 겪어 복잡한 추론 작업에서 성능 제한. 이 논문은 GRIT라는 방법을 소개하여 이미지와 텍스트를 교차시켜 복잡한 추론 작업에서의 성능을 향상시킴.
BLIP3-o는 CLIP 임베딩과 플로우 매칭을 활용한 멀티모달 모델로, 이미지 이해 및 생성에 사용됩니다. 시각과 언어를 연결하는 관심이 높아지면서, 이미지 인식과 생성 기능을 통합한 시스템에 대한 연구가 확대되고 있습니다.
VLM은 일반 목적의 AI 시스템 구축에 중요하며, 시각적 및 텍스트 데이터를 통합함으로써 다중 모달 추론, 이미지 편집, GUI 에이전트, 로봇공학 등을 발전시키고 있음. 그러나 인간의 능력에 아직 미치지 못하는 부분이 있음.
UCLA, UW-Madison, Adobe 연구진이 ‘X-Fusion’을 소개하며 언어 모델에 시각 정보를 추가하는 연구를 발표. 텍스트 이해 능력을 잃지 않으면서 시각 정보를 통합하는 AI 모델의 중요성 강조.
CausVid 생성 AI 도구는 확산 모델을 사용하여 자동회귀(프레임별) 시스템을 가르쳐 안정적이고 고해상도 비디오를 신속하게 생성한다.
미래 불확실성을 보다 정확하게 전달하는 새로운 방법은 연구자와 의료진이 더 나은 결정을 내릴 수 있도록 도울 수 있습니다.
ViSMaP는 짧은 비디오와 캡션으로 구성된 데이터셋에서 학습된 비디오 캡션 모델이 일반적으로 산책이나 대화와 같은 기본 동작을 설명하는 데는 용이하지만, Vlog, 스포츠 이벤트, 영화와 같이 긴 형식의 비디오의 복잡성에는 어려움이 있습니다. ViSMaP는 메타 프롬프팅과 짧은 형식 데이터셋을 사용하여 이러한 문제를 해결합니다.
Microsoft Research가 MMInference를 소개하여 장문 맥락 비전-언어 모델의 사전 채우기 속도를 가속화했다. 이는 로봇공학, 자율 주행, 의료 분야에서 특히 성능을 향상시키는데 도움이 된다.
Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.
연구진은 두 가지 인기 있는 방법을 결합하여 에너지를 적게 사용하고 노트북이나 스마트폰에서 로컬로 실행할 수 있는 이미지 생성기를 만들었다.
교수 Luca Carlone은 로봇에게 인간과 유사한 환경 인식 능력을 부여하기 위해 노력하고 있습니다.