멀티 이미지 추론에 준비됐는가? VHs: 비주얼 헤이스택 벤치마크 출시!
인간은 거대한 양의 비주얼 정보를 처리하는 능력이 있지만, 현재의 인공 일반 지능(AGI)을 달성하는 데 필수적인 기술적인 한계가 남아있다. AI 연구자들은 시각 질문 응답(VQA) 시스템을 개발하여 단일 이미지 내의 장면을 해석하고 관련 질문에 대답할 수 있도록했다. 그러나 최근의 기초 모델의 발전을 통해 인간과 기계의 시각 처리 간 격차가 크게 줄어들었지만, 기존의 VQA는 전체 시각 데이터 집합이 아닌 한 번에 하나의 이미지에 대해 추론하는 데 제한되어 있다. 이러한 제한은 보다 복잡한 시나리오에서 도전을 제기한다. 예를 들어 의료 이미지 모음에서 패턴을 식별하거나 위성 이미지를 통해 산림 파괴를 모니터링하거나 자율 항법 데이터를 사용하여 도시 변화를 매핑하거나 대규모 미술 컬렉션에서 테마 요소를 분석하거나 소매 감시 영상에서 소비자 행동을 이해하는 등의 도전이 있다. 이 프로젝트는 기존의 VQA 시스템의 범위를 뛰어넘는 “멀티 이미지 질문 응답” (MIQA) 작업에 초점을 맞추고 있다. 이 작업은 기존의 VQA 시스템이 다수의 시각 데이터 집합을 처리하는 것을 초월한다. 더 많은 내용을 보고 싶다면 [링크](http://bair.berkeley.edu/blog/2024/07/20/visual-haystacks/)를 클릭해주세요.
요약번역: 미주투데이 임한결 기자