
아마존 세이지메이커 하이퍼팟에서 일본어 능력을 향상시킨 일본 주권 LLM인 Training Llama 3.3 Swallow 훈련
도쿄 과학 연구소가 아마존 세이지메이커 하이퍼팟을 사용하여 70억 개의 파라미터를 가진 일본어 능력이 향상된 대형 언어 모델 Llama 3.3 Swallow을 성공적으로 훈련시켰다. 이 모델은 GPT-4o-mini 및 다른 선두 모델을 능가하는 일본어 작업에서 우수한 성능을 보여준다. 이 기술 보고서는 프로젝트 중 개발된 훈련 인프라, 최적화 및 모범 사례를 상세히 설명한다.