https://www.kaggle.com/c/prudential-life-insurance-assessment/forums/t/19003/solution-2nd-place 1. Исходный feature engeneering: единственный признак, который не являлся числом (а состоял из двух символов: буквы и цифры) перевели в категоральные переменные (с помощью pd.factorize), затем отдельно каждый символ тоже перевели в категоральные переменные. Также посчитали сумму Medical_Keyword (бинарные переменные), и суммарное число неизвестных параметров по каждому человеку. Также почему-то считалось, что BMI*Возраст -- это хорошая переменная (BMI -- Body Mass Index). 2. Сделать предсказание для следующих групп y = 1, 2, 3, 4, 5, 6, 7, 8, y<3, 4, 5, 6, 7 Предсказание делалось ансамблем из 2-х XGBoost (оптимизирующих binary:logistic и multi:softprob), RandomForest, LogisticRegression 3. Добавили эти предсказания к исходным features, запустили на всём этом линейную регрессию. 4. Подобрать функцию преобразования в финальные целые значения.