아마존 세이지메이커 하이퍼팟에서 일본어 능력을 향상시킨 일본 주권 LLM인 Training Llama 3.3 Swallow 훈련

도쿄 과학 연구소가 아마존 세이지메이커 하이퍼팟을 활용하여 70억 개의 파라미터를 가진 대규모 언어 모델인 Llama 3.3 Swallow을 성공적으로 훈련시켰다. 이 모델은 일본어 능력이 향상되어 일본어 작업에서 우수한 성능을 발휘하며, GPT-4o-mini 및 다른 선두 모델을 앞서고 있다. 이 프로젝트를 통해 개발된 훈련 인프라, 최적화 및 모범 사례에 대한 기술적인 세부 정보가 담긴 기술 보고서가 발표되었다. 이 보고서는 프로젝트 진행 중 발생한 기술적 도전과 해결책에 대해 상세히 기술하고 있다.
#AWSParallelCluster #고급기술(300) #고등교육 #고성능컴퓨팅 #공공부문 #기술적방법론 #생성모델 #아마존FSxforLustre #아마존세이지메이커하이퍼팟 #연구 #인공지능 #전문가(400)
출처: AWS Blog
요약번역: 미주투데이 최정민 기자