소리 – 미주투데이

Omni-R1: 텍스트 주도 강화 학습과 자동 생성 데이터를 활용한 오디오 질문 응답 발전

연구는 강화 학습이 LLM의 추론 능력을 향상시킬 수 있다는 최근 발전을 기반으로, 오디오 LLMs를 개선하는 것을 목표로 한다. MMAU 벤치마크는 소리, 음성에 관한 객관식 질문을 포함한 데이터셋으로 이 모델들을 평가하는 데 사용된다.

2025년 5월 19일 오후 8시 29분

Stability AI, Adversarial Relativistic-Contrastive (ARC) 후 훈련 및 안정적인 오디오 오픈 스몰 소개: 다양하고 효율적인 텍스트에서 오디오 생성을 위한 다양한 방법

텍스트에서 오디오 생성 기술이 음악 제작, 게임, 가상 경험 등에서 혁신적인 방법으로 부각되고 있으며, 이 기술은 일반적으로 확산 또는 정류된 플로우와 같은 가우시안 플로우 기반 기법을 활용하여 구조화된 오디오로의 점진적인 전환 단계를 모델링한다.

2025년 5월 15일 오후 2시 31분

NVIDIA AI, 오디오-SDS 소개: 특별한 데이터셋 없이 프롬프트 안내 오디오 합성 및 소스 분리를위한 통합 확산 기반 프레임워크

NVIDIA AI는 오디오 확산 모델을 도입하여 텍스트에서 3D 및 이미지 편집을 지원한 Score Distillation Sampling (SDS)을 활용해 오디오 합성 및 소스 분리 작업을 효율적으로 수행한다. 특별한 데이터셋이 필요하지 않고 명시적이고 해석 가능한 매개변수를 조정할 수 있는 모델이 필요한데, 이를 통해 음악, 효과음 등의 고품질 소리를 생성할 수 있다.

2025년 5월 12일 오전 2시 09분

최신뉴스 전체보기