2025년 6월 15일 일요일
오늘의 신문
2025년 6월 15일 일요일 오늘의 신문
SpeakStream: 인터리브된 데이터로 스트리밍 텍스트 음성 변환
발행일: 2025년 5월 30일 오전 12시 00분

최근에는 음성 프론트엔드와 대형 언어 모델 (LLM)의 통합이 증가함에 따라, 이러한 모달리티를 통합하는 아키텍처를 탐구해야 합니다. 최근에는 엔드 투 엔드 모델이 광범위하게 탐구되었지만, LLM에서 TTS로 출력을 스트리밍하는 캐스케이드 모델은 놀랍게도 잘 탐구되지 않았습니다. 그러나 LLM 출력을 오디오로 변환하기 위해 전통적인 텍스트 음성 변환 시스템을 사용하는 것은 전체 발화가 필요하기 때문에 기술적 문제가 발생합니다. 이 논문에서는 LLM 출력을 오디오로 변환할 수 있는 ‘스트리밍’ TTS를 제시합니다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자

본 기사에 대한 의견을 공유해주세요.