컴퓨터 비전 연구자들은 모든 픽셀이 이야기를 할 수 있다고 믿습니다. 하지만 대형 이미지를 처리할 때 어려움이 있습니다. 현재 우리가 사용하는 카메라는 대형 이미지를 촬영하는데, 이는 현재 최고의 모델과 하드웨어를 한계까지 끌어올리는데 어려움을 주고 있습니다. 보통 이미지 크기의 함수로 메모리 사용량이 제곱적으로 증가하는 문제가 발생합니다. 현재는 대형 이미지를 처리할 때 대부분 다운샘플링 또는 크롭핑 두 가지 중 하나의 선택을 합니다. 이러한 두 가지 방법은 이미지에 포함된 정보와 컨텍스트의 손실이 큽니다. $x$T는 이러한 방법을 재검토하고 현대적인 GPU에서 대규모 이미지를 모델링하기 위한 새로운 프레임워크로, 전역 컨텍스트와 로컬 세부 사항을 효과적으로 집계합니다. $x$T는 거대한 이미지를 작은 조각으로 분할하여 계층적으로 처리합니다. 이는 단순히 크기를 줄이는 것이 아니라, 각 부분을 자체적으로 이해하고, 이러한 부분이 어떻게 큰 규모에서 서로 연결되는지를 파악하는 것입니다. $x$T의 핵심은 중첩 토크나이제이션 개념에 있습니다. 간단하게 말해, 컴퓨터 비전에서의 토크나이제이션은 모델이 소화하고 분석할 수 있는 이미지 조각(토큰)으로 이미지를 분할하는 것과 같습니다. 그러나 $x$T는 이를 한 단계 더 나아가서 이 과정에 계층성을 도입합니다. 이 계층적 분해는 지역 인코더라고 하는 비전 백본이 예상하는 입력 크기에 따라 이미지를 패치화하여 처리하기 전에 이미지를 영역으로 분할합니다. 이 중첩 접근법을 통해 우리는 지역 수준에서 다양한 규모의 특징을 추출할 수 있습니다. 이미지를 토큰으로 세분화하면, $x$T는 이러한 부분들을 이해하기 위해 두 가지 타입의 인코더를 사용합니다: 지역 인코더와 컨텍스트 인코더. 지역 인코더는 독립적인 지역을 자세히 표현으로 변환하는 “지역 전문가”입니다. 그러나 각 지역이 독립적으로 처리되기 때문에 이미지 전체에 걸쳐 정보가 공유되지 않습니다. 컨텍스트 인코더는 상세한 표현을 가져오고 이를 연결하여 각 토큰의 통찰을 다른 토큰의 컨텍스트에서 고려합니다. $x$T의 마법은 중첩 토크나이제이션, 지역 인코더 및 컨텍스트 인코더가 어떻게 결합되는지에 있습니다. 이미지를 관리 가능한 조각으로 나눈 다음 체계적으로 이러한 조각을 독립적으로 분석하고 함께 분석하여 $x$T는 원본 이미지의 세부 사항의 충실성을 유지하면서도 거대한 이미지를 처리합니다. $x$T는 iNaturalist 2018, xView3-SAR 및 MS-COCO와 같은 어려운 벤치마크 작업에 대해 $x$T를 평가합니다. 결과적으로, $x$T는 모든 하향 작업에서 더 적은 매개변수로 더 높은 정확도를 달성할 수 있습니다. 우리는 40GB A100에서 29,000 x 25,000 픽셀 크기의 이미지를 모델링할 수 있었지만, 비교 대조군은 2,800 x 2,800 픽셀에서 메모리 부족으로 작업을 멈추었습니다. 이러한 방식은 과학자들이 기후 변화를 추적하거나 의사들이 질병을 진단할 때 게임 체인저가 될 수 있습니다. 이것은 전체 이야기를 이해하는 모델을 만드는 것을 의미합니다. 이는 환경 모니터링에서 넓은 지역의 변화와 특정 지역의 세부 사항을 동시에 볼 수 있도록 함으로써 기후 영향의 큰 그림을 이해하는 데 도움이 될 수 있습니다. 의료 분야에서는 질병을 조기에 발견하는 차이를 만들 수 있습니다.
xT로 매우 큰 이미지 모델링하기
요약번역: 미주투데이 임한결 기자