
대단한 순간을 넘어서: 대형 언어 모델에서 추론 구조화
대형 추론 모델인 OpenAI의 o1, o3, DeepSeek-R1, Grok 3.5, Gemini 2.5 Pro는 자체 수정, 되감기, 검증과 같은 고급 행동을 보여주며 “aha moments”로 알려진 강력한 능력을 나타냈다. 이러한 행동들은 지도된 미세 조정 없이 결과 중심 강화 학습을 통해 나타났다.