2025년 6월 14일 토요일
오늘의 신문
2025년 6월 14일 토요일 오늘의 신문
LLMs는 정말 추론을 통해 판단할 수 있을까? 마이크로소프트와 청화 연구자들이 동적으로 스케일되는 테스트 시간 컴퓨팅을 위한 보상 추론 모델을 소개합니다
발행일: 2025년 5월 26일 오후 2시 17분

강화학습(RL)은 LLM 사후 훈련에서 기본적인 방법으로 등장했는데, 인간 피드백(RLHF) 또는 검증 가능한 보상(RLVR)에서 감독 신호를 활용한다. RLVR은 수학적 추론에서 유망한 가능성을 보여주지만, 검증 가능한 답변을 갖춘 훈련 쿼리에 의존하는 제약에 직면한다. 이 요구사항은 검증 가능한 답변이 있는 대용량 일반 쿼리에 대한 훈련 응용을 제한한다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자

본 기사에 대한 의견을 공유해주세요.