2025년 4월 28일 월요일
오늘의 신문
2025년 4월 28일 월요일 오늘의 신문
AWS, SWE-PolyBench 소개: AI 코딩 에이전트 평가를 위한 새로운 오픈소스 다국어 벤치마크
발행일: 2025년 4월 23일 오후 6시 29분

최근 대형 언어 모델 (LLMs)의 발전으로 AI 기반 코딩 에이전트를 개발할 수 있게 되었다. 이러한 에이전트는 소프트웨어 코드를 생성, 수정, 이해할 수 있다. 그러나 이러한 시스템의 평가는 주로 파이썬에 국한된 합성적이거나 범위가 제한된 벤치마크로 제한되어 있다. 이러한 벤치마크는 실세계 코드베이스의 구조적 및 의미론적 다양성을 잘 반영하지 못한다. AWS는 SWE-PolyBench를 소개하여 이러한 문제에 대처하고 있다. SWE-PolyBench는 AI 코딩 에이전트를 평가하기 위한 새로운 오픈소스 다국어 벤치마크로, 다국어 환경에서 에이전트의 성능을 평가할 수 있게 돕는다. AWS는 SWE-PolyBench를 통해 AI 코딩 에이전트의 성능을 더 효과적으로 개선할 수 있을 것으로 기대하고 있다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자