규모의 감독은 보장되지 않습니다: MIT 연구진, 새로운 Elo 기반 프레임워크로 중첩 AI 감독의 취약성 측정

최첨단 AI 기업들은 인공 일반 지능(AGI)으로 나아가면서, 이러한 강력한 시스템이 조절 가능하고 유익하게 유지되도록 보장하는 기술이 필요하다. 이러한 도전 과제에 대한 주요 접근 방식 중 하나는 Recursive Reward Modeling, Iterated Amplification, Scalable Oversight 등의 방법을 포함한다. 이러한 방법들은 약한 시스템이 강력한 시스템을 효과적으로 감독할 수 있도록 하는 것을 목표로 한다. MIT 연구진은 새로운 Elo 기반 프레임워크를 통해 중첩 AI 감독의 취약성을 정량화하고 있다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자