Структурированный блокнот   
 Машинное обучение (Machine Learning, обучающиеся алгоритмы) →  Обучение с учителем (Supervised learning) →  Language models →  Метрики качества языковых моделей →  Обзоры →  

Post Turing: Mapping the landscape of LLM Evaluation

https://arxiv.org/abs/2311.02049?fbclid=IwAR0CCZoBMl_RAMIlhmxuLoi9THDU5n4D1NGUmvBG8oLuj3wDnvaGE0qTQyE
3 основные подхода к оценке качества:
1. Заготовленные тесты с правильными ответами. Проблема этого подхода может быть в неустойчивости, небольшие изменения в формате вопросам может давать сильное смещение в оценке (есть даже подход, который добавляет случайности к задаваемым вопросам или переставляет ответы, которые должна выбрать модель, и потом усредняет из нескольких вариантов -- это заметно повышает оценку модели). Так же возможно протекание теста в обучающую выборку. Плюс тесты ограничены по формату и их улучшение может не быть скоррелировано с улучшением по задачам, качество которых мы в реальности хотим измерить.
2. Ручная оценка ответов человеком
3. Оценка ответов другой моделью
Поиск по записям: только в текущем разделе.