멀티턴 평가지표
-
MT-Bench-101: A Fine-Grained Benchmark for Evaluating LargeLanguage Models in Multi-Turn Dialogues공부/논문 2025. 3. 1. 16:31
https://arxiv.org/pdf/2402.14762 AbstractLLM을 평가하는 것은 여전히 도전 과제이전의 벤치마크들은 single turn위주이거나 multi turn이어도 불완전한 평가를 제공하여, complexity나 세부적인 부분을 놓쳤음그래서 multi-turn을 제대로 평가하기 위해 만들어진 게 MT-Bench-101!13개의 task로 1388개의 세션에서 4208 turn을 포함하는 3단계 계층적 평가 체계를 구축21개의 LLM으로 실험 진행1. IntroductionLLM은 엄청난 발전을 해옴그에 따라 여러 평가 기준도 도입(ex. MMLU, BBH, AlpacaEval 등)하지만 실제 대화에서는 보통 multi-turn 대화가 주를 이룸그래서 LLM이 대화를 하면서 일관된 ..