2025년 4월 29일 화요일
오늘의 신문
2025년 4월 29일 화요일 오늘의 신문
Meta AI가 소개하는 Perception Encoder: 이미지와 비디오에 걸쳐 여러 시각 작업에서 뛰어난 성과를 내는 대규모 비전 인코더
발행일: 2025년 4월 18일 오전 11시 23분

AI 시스템이 다중 모달로 발전함에 따라 시각 지각 모델의 역할은 더 복잡해지고 있다. 이러한 환경에서 기존의 비전 인코더는 물체와 장면을 인식하는 것뿐만 아니라 캡션, 질문 응답, 세부 인식, 문서 구문 분석, 이미지와 비디오 모두에 걸쳐 공간 추론을 지원해야 한다. 이에 Meta AI는 Perception Encoder를 소개했다. 이 인코더는 다양한 시각 작업을 뛰어나게 처리하며 이미지와 비디오에 걸쳐 사용되는 대규모 비전 인코더다. Perception Encoder는 이미지와 비디오 모두에 대해 뛰어난 성능을 보이며, 더 복잡한 시각 작업을 수행할 수 있다. 이를 통해 AI 시스템의 시각적 이해력을 향상시키고 다양한 활용 가능성을 제시하고 있다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자