Структурированный блокнот   
 Машинное обучение (Machine Learning, обучающиеся алгоритмы) →  Сводим всё вместе →  Предсказание здоровья →  

2-е место

https://www.kaggle.com/c/prudential-life-insurance-assessment/forums/t/19003/solution-2nd-place
1. Исходный feature engeneering: единственный признак, который не являлся числом (а состоял из двух символов: буквы и цифры) перевели в категоральные переменные (с помощью pd.factorize), затем отдельно каждый символ тоже перевели в категоральные переменные. Также посчитали сумму Medical_Keyword (бинарные переменные), и суммарное число неизвестных параметров по каждому человеку. Также почему-то считалось, что BMI*Возраст -- это хорошая переменная (BMI -- Body Mass Index).
2. Сделать предсказание для следующих групп y = 1, 2, 3, 4, 5, 6, 7, 8, y<3, 4, 5, 6, 7
Предсказание делалось ансамблем из 2-х XGBoost (оптимизирующих binary:logistic и multi:softprob), RandomForest, LogisticRegression
3. Добавили эти предсказания к исходным features, запустили на всём этом линейную регрессию.
4. Подобрать функцию преобразования в финальные целые значения.
Поиск по записям: только в текущем разделе.