Post Turing: Mapping the landscape of LLM Evaluation
https://arxiv.org/abs/2311.02049?fbclid=IwAR0CCZoBMl_RAMIlhmxuLoi9THDU5n4D1NGUmvBG8oLuj3wDnvaGE0qTQyE 3 основные подхода к оценке качества: 1. Заготовленные тесты с правильными ответами. Проблема этого подхода может быть в неустойчивости, небольшие изменения в формате вопросам может давать сильное смещение в оценке (есть даже подход, который добавляет случайности к задаваемым вопросам или переставляет ответы, которые должна выбрать модель, и потом усредняет из нескольких вариантов -- это заметно повышает оценку модели). Так же возможно протекание теста в обучающую выборку. Плюс тесты ограничены по формату и их улучшение может не быть скоррелировано с улучшением по задачам, качество которых мы в реальности хотим измерить. 2. Ручная оценка ответов человеком 3. Оценка ответов другой моделью