LLMs는 정말 추론을 통해 판단할 수 있을까? 마이크로소프트와 청화 연구자들이 동적으로 스케일되는 테스트 시간 컴퓨팅을 위한 보상 추론 모델을 소개합니다

강화학습(RL)은 LLM 사후 훈련에서 기본적인 방법으로 등장했는데, 인간 피드백(RLHF) 또는 검증 가능한 보상(RLVR)에서 감독 신호를 활용한다. RLVR은 수학적 추론에서 유망한 가능성을 보여주지만, 검증 가능한 답변을 갖춘 훈련 쿼리에 의존하는 제약에 직면한다. 이 요구사항은 검증 가능한 답변이 있는 대용량 일반 쿼리에 대한 훈련 응용을 제한한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자