
AWS GPU 인스턴스에서 대형 언어 모델을 배포할 때, GPU 고대역폭 메모리에 모델을 로딩하는 시간이 길어지는 문제를 해결하기 위한 방법이 소개됐다.

AWS GPU 인스턴스에서 대형 언어 모델을 배포할 때, GPU 고대역폭 메모리에 모델을 로딩하는 시간이 길어지는 문제를 해결하기 위한 방법이 소개됐다.
오라클과 양자 소프트웨어 개발 플랫폼인 클래식이 자연어 AI 생성과 대규모 고전 시뮬레이션 클러스터를 연결하는 HPC 개념 증명을 성공적으로 완료했습니다. 이 소프트웨어 워크플로우는 AI 에이전트가 복잡한 양자 코드를 생성하는 과정을 보여줍니다.
IQM 양자 컴퓨터가 HPC 통합 서비스를 공식 출시했습니다. 이 서비스는 IQM의 초전도 양자 컴퓨터를 고성능 컴퓨팅 환경에 통합하기 위한 턴키 솔루션입니다.

이 글에서는 Amazon S3에 업로드된 오디오 파일을 자동으로 처리하는 확장 가능한 전사 파이프라인 구축 방법을 소개합니다. 또한, 비용 절감을 위한 Amazon EC2 스팟 인스턴스와 버퍼링 스트리밍 추론 사용법도 설명합니다.

유발 보거가 하이페리온 리서치의 밥 소렌슨과 양자 컴퓨팅과 고성능 컴퓨팅의 융합에 대해 이야기합니다. 이들은 HPC 센터를 위한 문제 중심의 채택 전략을 제시합니다.
파스칼이 NVIDIA의 CUDA-Q 플랫폼을 자사의 양자 자원 관리 인터페이스와 통합하여, 표준 고성능 컴퓨팅 환경에서 양자 프로세서를 네이티브 가속기로 활용할 수 있게 되었습니다.

도쿄 과학 연구소가 아마존 세이지메이커 하이퍼팟을 사용하여 70억 개의 파라미터를 가진 일본어 능력이 향상된 대형 언어 모델 Llama 3.3 Swallow을 성공적으로 훈련시켰다. 이 모델은 GPT-4o-mini 및 다른 선두 모델을 능가하는 일본어 작업에서 우수한 성능을 보여준다. 이 기술 보고서는 프로젝트 중 개발된 훈련 인프라, 최적화 및 모범 사례를 상세히 설명한다.