2025년 4월 29일 화요일
오늘의 신문
2025년 4월 29일 화요일 오늘의 신문
LoRAX를 사용하여 동시 LLM 호스팅하기

Low-Rank Adaptation (LoRA)를 사용하여 동시성 모델 호스팅의 도전을 효과적으로 해결하는 방법을 살펴본다. LoRA 서빙과 LoRA 교환을 함께 사용하여 Amazon EC2 GPU 인스턴스로 LoRAX를 실행함으로써 조직이 세밀하게 조정된 모델 포트폴리오를 효율적으로 관리하고 제공하는 방법을 논의한다.

2025년 4월 16일 오후 3시 53분AWS Blog
Amazon SageMaker에서 AWS Inferentia2를 사용하여 Mixtral 8x7B 최적화하기

이 포스트는 비용 효율적이고 고성능 추론을 위해 AWS Inferentia2 인스턴스에 Mixtral 8x7B 언어 모델을 배포하고 제공하는 방법을 보여줍니다. Hugging Face Optimum Neuron을 사용한 모델 컴파일 및 Text Generation Inference (TGI) Container를 통해 LLMs를 배포하고 제공하는 방법을 안내합니다.

2025년 4월 15일 오후 1시 47분AWS Blog