아마존 베드락 에이전트를 Ragas와 LLM을 판사로 사용하여 평가하기
이 게시물에서는 에이전트 개발 프로세스를 간소화하는 Langfuse 통합 솔루션인 오픈 소스 베드락 에이전트 평가 프레임워크를 소개했습니다. 이 평가 프레임워크가 어떻게 약학 연구 에이전트와 통합될 수 있는지를 보여주었습니다. 생물 표지자 질문에 대한 에이전트 성능을 평가하고 이를 Langfuse로 전송하여 질문 유형별 평가 지표를 볼 수 있었습니다.