2025년 4월 29일 화요일
오늘의 신문
2025년 4월 29일 화요일 오늘의 신문
대규모 모델이 필요하지 않는 긴 문맥 다중모달 이해: NVIDIA AI, Eagle 2.5 소개
발행일: 2025년 4월 22일 오전 2시 36분

최근들어 비전-언어 모델(VLMs)은 이미지, 비디오, 텍스트 모달을 연결하는 데 크게 발전해왔다. 그러나 고해상도 이미지나 확장된 비디오 시퀀스와 같은 긴 문맥 다중모달 데이터를 효과적으로 처리하지 못하는 한계가 남아있다. 많은 기존 VLMs는 짧은 문맥 시나리오에 최적화되어 있고, 성능 저하, 비효율적인 메모리 사용 또는 손실 등에 어려움을 겪는다. NVIDIA의 Eagle 2.5는 8B 매개변수를 사용하여 GPT-4o와 비슷한 비디오 작업에서 작동하며, 긴 문맥 다중모달 데이터를 효과적으로 처리할 수 있는 일반적인 비전-언어 모델로 개발되었다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자