미주투데이

언어 모델에 시각 추가하는 ‘X-Fusion’ 소개하는 UCLA, UW-Madison, Adobe 연구진

발행일: 2025년 5월 8일 오후 9시 13분

언어 모델은 대화형 AI, 추론, 코드 생성과 같은 언어 관련 작업에서 큰 발전을 이루었지만, 인간의 의사소통은 종종 시각적 요소를 포함하여 이해를 높입니다. 이에 텍스트와 시각 정보를 동시에 처리하고 생성하는 AI 모델이 필요한데, 이를 위해 전체적인 시각-언어 모델을 처음부터 훈련시키는 것이 중요합니다. UCLA, UW-Madison, Adobe 연구진은 ‘X-Fusion’을 도입하여 언어 모델에 시각 정보를 통합하는 방법을 제시했습니다. 이를 통해 텍스트 이해 능력을 잃지 않으면서 시각 정보를 추가함으로써 보다 다재다능한 AI 모델을 만들 수 있게 되었습니다.

#AI논문요약 #기술뉴스 #응용프로그램 #인공지능 #컴퓨터비전

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자

본 기사에 대한 의견을 공유해주세요.