2025년 6월 14일 토요일
오늘의 신문
2025년 6월 14일 토요일 오늘의 신문
Enigmata의 다단계 및 혼합 훈련 강화 학습 레시피가 LLM 퍼즐 추론에서의 획기적인 성과를 이끕니다
발행일: 2025년 6월 1일 오전 10시 14분

대규모 추론 모델(LRMs)은 강화 학습(RL)을 사용하여 LLMs에서 훈련되어 수학, STEM 및 코딩과 같은 복잡한 추론 작업에서 뛰어난 성능을 발휘했습니다. 그러나 기존의 LRMs는 순수한 논리 추론 기술이 필요한 다양한 퍼즐 작업을 완료하는 데 어려움을 겪고 있습니다. 현재 퍼즐을 대상으로 한 방법은 벤치마크를 설계하는 데만 초점을 맞추고 있습니다. Enigmata의 새로운 훈련 방법은 LLM 퍼즐 추론에서의 획기적인 성과를 이루고 있습니다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자

본 기사에 대한 의견을 공유해주세요.