OpenAI, 건강 관리에서 대형 언어 모델의 성능과 안전성 측정을 위한 오픈소스 벤치마크 ‘HealthBench’ 공개

OpenAI가 HealthBench를 출시했다. HealthBench는 대형 언어 모델(Large Language Models, LLMs)의 성능과 안전성을 현실적인 의료 상황에서 측정하기 위한 오픈소스 평가 프레임워크로, 60개국 26개 의료 전문 분야의 262명 의사들과 협력하여 개발되었다. HealthBench는 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다. 대형 언어 모델이 의료 분야에서 어떻게 작동하는지 정량화하고 안전성을 보장하기 위해 이러한 노력이 필요하다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자