2025년 4월 28일 월요일
오늘의 신문
2025년 4월 28일 월요일 오늘의 신문
MM-Ego: Egocentric Multimodal LLMs 구축을 향하여
발행일: 2025년 4월 11일 오전 12시 00분

이 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델인 MM-Ego에 대해 철저히 탐구한다. 에고센트릭 비디오 이해를 위한 QA 데이터 부족 문제를 해결하기 위해, 연구진들은 인간이 주석을 단 자료를 기반으로 30초부터 1시간까지의 에고센트릭 비디오에 대한 7백만개의 고품질 QA 샘플을 자동으로 생성했다. 이는 가장 큰 에고센트릭 QA 데이터셋 중 하나로, 모델 학습에 중요한 자원을 제공한다. 또한, 연구진들은 629개의 비디오와 7,026개의 질문으로 구성된 어려운 에고센트릭 QA 벤치마크를 제공하여 모델의 인식 능력을 평가했다. 이를 통해 MM-Ego 모델의 성능을 평가하고, 에고센트릭 비디오 이해 분야에 새로운 지평을 열 수 있을 것으로 기대된다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자