Структурированный блокнот   
 Машинное обучение (Machine Learning, обучающиеся алгоритмы) →  Статистика →  Хорошо поставленный эксперимент →  Случайная репрезентативная выборка →  

Пример: рост школьников

Нам нужно измерить средний рост школьников в определённой школе, однако мы не хотим измерять всех, а собираемся выбрать несколько школьников, и посчитать по ним статистику. Для простоты, экспериментатор пришёл в один класс, и измерив рост всех детей из этого класса, получил средний рост. Это типовая ошибка. Такая выборка сильно нерепрезентативна: очевидно, рост детей сильно меняется с возрастом и соответственно классом, в который ходит ребёнок. Если экспериментатор измерил первоклассников, он получит сильно заниженную оценку. Если десятиклассников -- завышенную. И даже измерение пятиклассников не гарантирует, что они хорошо репрезентируют всю школу (например, возможно, что с первого по пятый класс рост увеличивается быстро, а с пятого по десятый уже незначительно -- в этом случае получится вновь завышенная оценка). Правильный эксперимент: если мы готовы измерить 30 человек, то нужно брать по 3 человека с каждой параллели (в предположении, что в каждой параллели в этой школе одинаковое кол-во детей).
Гарантирует ли нам такая выборка репрезентативные результаты? В значительной мере да, но возможны и другие параметры, которые делают нашу выборку нерепрезентативной, а значит и посчитанная статистика будет хуже, чем предсказывает теория, соответствовать реальным измеряемым параметрам генеральной совокупности. Например, если экспериментатор измерял только рост мальчиков, может получиться смещённая оценка. Нужно выбирать мальчиков и девочек в той пропорции, как они представлены во всей школе.
Совсем уже тонкий эффект, в данном случае скорее вымышленный, но иллюстрирующий, что нужно подумать о скрытых закономерностях. Например, предположим, что экспериментатор пришёл измерять рост во время эпидемии гриппа, и половина детей не пришла в школу. Естественно, экспериментатор измерил тех, кто пришёл. Если вдруг, дети с большим ростом склонны к заболеванию гриппа больше других, то выборка получится нерепрезентативной, и оценка роста заниженной.
Поиск по записям: только в текущем разделе.