미주투데이

OpenAI, 건강 관리에서 대형 언어 모델의 성능과 안전성 측정을 위한 오픈소스 벤치마크 ‘HealthBench’ 공개

발행일: 2025년 5월 13일 오전 2시 18분

OpenAI가 HealthBench를 출시했다. HealthBench는 대형 언어 모델(Large Language Models, LLMs)의 성능과 안전성을 현실적인 의료 상황에서 측정하기 위한 오픈소스 평가 프레임워크로, 60개국 26개 의료 전문 분야의 262명 의사들과 협력하여 개발되었다. HealthBench는 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다. 대형 언어 모델이 의료 분야에서 어떻게 작동하는지 정량화하고 안전성을 보장하기 위해 이러한 노력이 필요하다.

#기술 #기술뉴스 #대형언어모델 #랭귀지모델 #신규릴리스 #오픈소스 #응용프로그램 #인공지능 #인공지능논문요약

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자

본 기사에 대한 의견을 공유해주세요.