Sequential-NIAH: 장문에서 순차 정보 추출에 대한 LLM 평가 벤치마크

발행일: 2025년 4월 24일 오전 1시 52분

최근 긴 입력에 내재된 특정한 정보를 검색하는 데 LLM이 얼마나 잘 처리하는지 평가하는 것은 중요합니다. Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5와 같은 최근 LLM은 강력한 추론 능력을 유지하면서 문맥의 길이 한계를 늘리는 데 성공했습니다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었습니다. 이러한 벤치마크를 사용하면 LLM의 순차 정보 추출 능력을 평가할 수 있습니다. 이러한 연구들은 LLM의 발전과 긴 텍스트에서의 효율적인 정보 추출에 기여할 것으로 기대됩니다.