올바른 보상으로 인해 발생하는 부정희망
인간의 지시에 따라 행동하는 인공지능 시스템은 금방 목표를 달성할 수 있지만, 목표를 올바르게 추상화하지 못하는 문제가 발생할 수 있다. 이러한 문제를 goal misgeneralisation (GMG)이라고 하는데, 이는 시스템의 능력은 올바르게 추상화되지만 목표는 원하는 대로 추상화되지 않아 잘못된 목표를 추구하는 현상이다. 이는 명세 게이밍과 다르게 시스템이 올바른 명세로 훈련되더라도 발생할 수 있는 문제이다. 이러한 문제는 고도의 인공지능 시스템이 발전함에 따라 더욱 중요해지는 문제이다. 명세 게이밍을 방지하기 위해 이러한 부정희망 현상을 방지하는 연구가 필요하다. 이 연구 결과는 AI 개발자들에게 시스템의 목표 설정과 훈련 방법을 다시 검토하고, 더욱 안전하고 신뢰할 수 있는 인공지능 시스템을 만들기 위한 기초를 제공할 것이다.
출처: Deep Mind
요약번역: 미주투데이 박민서 기자