다대다 언어 모델이 영어 강세인가? 다국어 LLM의 자연함 평가와 개선

현재 대규모 언어 모델(Large Language Models, LLMs)은 주로 영어를 기본 언어로 사용하고 있습니다. 심지어 몇몇 다국어 모델조차도 영어 중심적인 편향을 보이는데, 이는 다국어 모델이라고 해도 영어를 우선적으로 다루기 때문입니다. 이는 제2언어를 배우는 사람들이 어색한 표현을 내놓을 수 있는 것과 유사한 현상으로, LLMs는 종종 영어가 아닌 언어에서 비자연스러운 결과물을 생성하며, 어휘와 문법에서 영어 중심적인 패턴을 보여줍니다. 이러한 문제의 중요성에도 불구하고, 다국어 LLM 결과물의 자연함은 제한적으로 주목받았습니다. 이 논문에서는 이러한 공백을 채우기 위해 새로운 자동화된 방법을 도입하여 다국어 LLM 결과물의 자연함을 평가하고 개선합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자