LLMs는 한 예제로부터 복잡한 수학을 배울 수 있습니다: 워싱턴 대학, 마이크로소프트, USC의 연구진들이 1회 강화 학습과 검증 가능한 보상으로 강력한 성능 발휘

최근 LLMs의 발전으로 OpenAI-o1, DeepSeek-R1, Kimi-1.5 등이 복잡한 수학적 추론 작업에서 성능을 크게 향상시켰다. 이러한 개선의 주요 요인 중 하나는 검증 가능한 보상을 사용하는 강화 학습(Reinforcement Learning with Verifiable Reward, RLVR)이다. RLVR은 모델의 문제 해결 방법이 올바른지를 나타내는 바이너리 신호와 같은 규칙 기반 보상을 사용한다. 이는 LLMs가 한 예제만을 통해 복잡한 수학 문제를 학습할 수 있도록 돕는다. RLVR은 모델이 올바른 결과를 내놓을 때까지 계속해서 보상을 조정하면서 학습하는 방식으로 작동한다. 이를 통해 LLMs가 더 정확하고 효율적으로 수학적 추론을 수행할 수 있게 되었다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자