사고의 환상: 문제 복잡성의 렌즈를 통해 추론 모델의 강점과 한계 이해하기

최근 등장한 최신 언어 모델들은 세부적인 사고 과정을 생성한 후 답변을 제공하는 대규모 추론 모델(LRMs)을 소개했습니다. 이러한 모델들은 추론 벤치마크에서 성능을 개선하였지만, 그들의 기본적인 능력, 확장성, 그리고 한계에 대한 이해는 여전히 충분하지 않습니다. 현재의 평가는 주로 수학적이고 코딩 벤치마크에 초점을 맞추며, 주로 최종 답변 정확도를 강조합니다. 그러나 이러한 평가 패러다임은 종종 데이터 오염 문제에 시달리며 추론 과정에 대한 통찰을 제공하지 않습니다. 더 많은 정보가 필요하시다면 [링크](https://machinelearning.apple.com/research/illusion-of-thinking)를 참고하세요.
출처: Apple
요약번역: 미주투데이 서현진 기자