레이블 없이 학습 가능한 LLMs: Tsinghua 대학과 상해 AI 연구소 연구진, 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 하는 테스트 시간 강화 학습(TTRL) 소개

최근 강화 학습(RL)을 통해 추론 능력이 크게 발전했지만, 대부분의 대형 언어 모델(LLMs)은 여전히 감독된 데이터 파이프라인에 근본적으로 의존하고 있다. RLHF와 같은 RL 프레임워크는 모델 정렬과 지시 따르기 성능을 향상시켰지만, 인간 피드백과 레이블이 달린 데이터에 크게 의존한다. LLMs가 점점 더 동적 환경에서 적용되고 있는 가운데, 교육 환경부터 다양한 환경까지 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 하는 새로운 방법이 소개되었다. Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 이러한 혁신적인 접근 방식을 제시했다. TTRL은 LLMs에게 레이블이 없는 데이터를 통해 스스로 학습하고 발전할 수 있는 기회를 제공한다. 이는 기존의 감독 학습 방법을 보완하고, 실제 환경에서 더 효과적으로 적용할 수 있는 가능성을 열어준다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자