
OpenAI, 건강 관리에서 대형 언어 모델의 성능과 안전성 측정을 위한 오픈소스 벤치마크 ‘HealthBench’ 공개
OpenAI가 262명 의사와 협력하여 개발한 HealthBench는 대형 언어 모델의 성능과 안전성을 현실적인 의료 시나리오에서 측정하는 오픈소스 평가 프레임워크이다. 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다.