Машинное обучение (Machine Learning, обучающиеся алгоритмы)

Машинное обучение (Machine Learning, обучающиеся алгоритмы) → Обучение с учителем (Supervised learning) → Language models → Метрики качества языковых моделей → Обзоры →

Post Turing: Mapping the landscape of LLM Evaluation

https://arxiv.org/abs/2311.02049?fbclid=IwAR0CCZoBMl_RAMIlhmxuLoi9THDU5n4D1NGUmvBG8oLuj3wDnvaGE0qTQyE
3 основные подхода к оценке качества:
1. Заготовленные тесты с правильными ответами. Проблема этого подхода может быть в неустойчивости, небольшие изменения в формате вопросам может давать сильное смещение в оценке (есть даже подход, который добавляет случайности к задаваемым вопросам или переставляет ответы, которые должна выбрать модель, и потом усредняет из нескольких вариантов -- это заметно повышает оценку модели). Так же возможно протекание теста в обучающую выборку. Плюс тесты ограничены по формату и их улучшение может не быть скоррелировано с улучшением по задачам, качество которых мы в реальности хотим измерить.
2. Ручная оценка ответов человеком
3. Оценка ответов другой моделью

Поиск по записям: только в текущем разделе.