Структурированный блокнот   
 Машинное обучение (Machine Learning, обучающиеся алгоритмы) →  Обучение с учителем (Supervised learning) →  Общие принципы →  

Отбор фич (признаков), feature selection

Если у нас много признаков, возникает вопрос: все ли они полезны. Вполне возможно, что какие-то из признаков не несут никакой пользы, но лишь потребляют вычислительные ресурсы. Это можно проверить используя перемешивание.

Обучаем модель. Далее применяем её на тестовых данных, получаем качество q. Далее берём первую фичу и перемешиваем все значения случайным образом (т.е. если у нас 100 строк, то значение фичи из первой строки приписываем любой из строк, и так далее). Подаём такие данные на применение модели, считаем качество. Величина провала качества от перемешивания является мерой важности этой фичи для модели. Если качество существенно не изменилось -- значит фича бесполезная.

Подробнее на английском: https://www.kaggle.com/dansbecker/permutation-importance
Поиск по записям: только в текущем разделе.