언어 모델에 시각 추가하는 ‘X-Fusion’ 소개하는 UCLA, UW-Madison, Adobe 연구진

언어 모델은 대화형 AI, 추론, 코드 생성과 같은 언어 관련 작업에서 큰 발전을 이루었지만, 인간의 의사소통은 종종 시각적 요소를 포함하여 이해를 높입니다. 이에 텍스트와 시각 정보를 동시에 처리하고 생성하는 AI 모델이 필요한데, 이를 위해 전체적인 시각-언어 모델을 처음부터 훈련시키는 것이 중요합니다. UCLA, UW-Madison, Adobe 연구진은 ‘X-Fusion’을 도입하여 언어 모델에 시각 정보를 통합하는 방법을 제시했습니다. 이를 통해 텍스트 이해 능력을 잃지 않으면서 시각 정보를 추가함으로써 보다 다재다능한 AI 모델을 만들 수 있게 되었습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자