2025년 6월 9일 월요일
오늘의 신문
2025년 6월 9일 월요일 오늘의 신문
Rufus가 AWS AI 칩과 병렬 디코딩으로 추론 속도를 두 배로 높이고 프라임 데이 트래픽을 처리하는 방법
발행일: 2025년 5월 28일 오전 9시 00분

Rufus는 AI 기반 쇼핑 어시스턴트로, 응답 생성을 위한 LLM과 질의 분류 및 검색 향상을 위한 쿼리 플래너(QP) 모델과 같은 여러 구성 요소에 의존합니다. 이 게시물은 QP 모델이 AWS AI 칩과 병렬 디코딩을 활용하여 프라임 데이의 수요를 충족하는 방법에 초점을 맞춥니다. 병렬 디코딩을 AWS Trainium 및 Inferentia 칩과 결합함으로써 Rufus는 응답 시간을 2배로 빠르게 하고, 추론 비용을 50% 절감하며, 피크 트래픽 중에도 원활한 확장성을 달성했습니다.

<AWS Blog 뉴스 본문 전체읽기>

출처: AWS Blog
요약번역: 미주투데이 최정민 기자

본 기사에 대한 의견을 공유해주세요.