Методы выборки для науки о данных

Как лучше всего получить образцы из популяции?

Контекст

В большинстве исследований довольно сложно (а иногда и невозможно) проанализировать всю популяцию, поэтому исследователи вместо этого используют образцы. В статистике выборка для опроса - это процесс, с помощью которого мы получаем выборку из нашей совокупности для проведения опроса. Как специалисты по обработке данных, мы обычно используем данные, которые были собраны ранее, поэтому мы не тратим слишком много времени на размышления о том, как это сделать. Однако, как мы увидим в этой статье, наши данные могут иметь разные смещения в зависимости от того, как они были отобраны, поэтому вы лучше понимаете последствия каждого из этих планов выборки. Есть много способов нарисовать эти образцы, и, в зависимости от контекста, одни могут быть лучше других.

Вероятность x не-вероятность

Есть две широкие категории планов выборки: вероятностные и не вероятностные. В вероятностной выборке каждый элемент генеральной совокупности имеет известную и ненулевую вероятность попадания в выборку. . Этот метод обычно предпочтительнее, поскольку его свойства, такие как смещение и ошибка выборки, обычно известны. При не вероятностной выборке некоторые элементы генеральной совокупности не могут быть выбраны, и существует большой риск того, что выборка будет нерепрезентативной для генеральной совокупности в целом. Однако при некоторых обстоятельствах вероятностная выборка может оказаться невозможной или может быть дешевле сделать ее неслучайно.

Давайте теперь рассмотрим некоторые из различных схем выборки в каждой категории и их свойства.

Вероятностная выборка

Простая случайная выборка без замены (SRSWR)

Это, вероятно, наиболее очевидный метод выборки: если у вас есть популяция из 1000 человек и вы можете проанализировать только 100, тогда вы будете случайным образом выбирать по одному человеку за раз, пока у вас не будет выборка из 100. Это даст каждому человеку такая же вероятность попадания в выборку.

SRSWR - это непредвзятый дизайн выборки, что означает, что мы ожидаем, что параметры, рассчитанные на основе выборки, будут несмещенными. Часто это предпочтительный дизайн выборки, но с небольшой оговоркой: вы рискуете получить действительно плохую выборку, полностью из-за невезения и получения результатов, которые совсем не репрезентативны для вашей генеральной совокупности. В этом случае может помочь расслоение образца (мы вернемся к этому позже).

Однако на практике получить реальную простую случайную выборку не так-то просто. Например, для избирательных опросов, как вы это делаете? На самом деле невозможно составить список всех жителей страны, из которого можно было бы произвольно выбирать. Вы можете, например, иметь список всех доступных личных телефонных номеров и выбирать из него. Я хочу сказать, что для этого вам, вероятно, понадобится список всего вашего населения - если вы случайным образом опрашиваете людей на улицах, это на самом деле не совсем случайно: в зависимости от того, в какое место вы решите пойти, ваша выборка может дать разные результаты .

Пуассоновская выборка

В схеме выборки Пуассона каждый элемент вашей генеральной совокупности будет проходить испытание Бернулли, чтобы определить, будут ли они в выборке или нет. Если вероятность одинакова для всех элементов в генеральной совокупности, это особый случай, который называется выборка Бернулли. Это также будет зависеть от наличия списка всех элементов вашей популяции. Допустим, у вас есть список всех компаний в вашей стране, и вы хотите их изучить. Вы можете назначить вероятность p для каждого из них в вашей выборке или даже разную вероятность для каждого, например, в зависимости от их размера (вы можете захотеть придать больший вес большему компании). Обратите внимание, что в этом случае вы не можете заранее узнать точный размер вашей выборки - это то, что мы называем схемой выборки случайного размера.

Стратифицированная выборка

При определенных условиях может оказаться полезным расслоение вашей популяции по некоторым характеристикам. Допустим, вы хотите провести опрос среди 1000 сотрудников вашей компании, чтобы узнать, насколько они довольны своей работой, но у вас есть время, чтобы опросить только 100 из них, поэтому вы берете образец. С SRSWR вы можете рискнуть получить 50 человек из бухгалтерского учета и ни одного исследователя данных. Это заставит вас думать, что сотрудники вашей компании намного несчастнее, чем они есть на самом деле, поскольку специалисты по обработке данных - самые счастливые люди на своей работе, а бухгалтеры ... ну, они бухгалтеры. В этом случае вы можете разделить вашу совокупность на отделы, а затем произвести произвольную выборку из каждого отдела, взяв пробы, пропорциональные размеру отдела.

Этот метод может быть действительно полезен при некоторых условиях:

Различия внутри слоев невелики (вы знаете из предыдущих исследований, что люди в одном отделе, как правило, чувствуют себя более или менее одинаково с точки зрения счастья на работе)
Различия между слоями велика (ваш уровень счастья на работе во многом зависит от вашего отдела)

Однако на практике это может быть дорого и сложно реализовать. Поскольку ему нужна предыдущая информация о вашем населении, это может быть полезно, когда вы проводите небольшие исследования между более широкими и более дорогостоящими (например: если у вас есть перепись в вашей стране каждые 10 лет и вам нужна промежуточная информация каждые 5 лет, вы может использовать данные вашей переписи для помощи в промежуточных небольших исследованиях).

Невероятностная выборка

Добровольный отбор проб

Это широко используемый метод: это то, что вы получаете, когда публикуете форму опроса в группе Facebook и просите людей заполнить ее за вас. Это легко и дешево, но может привести к большому количеству предвзятости, поскольку вы фактически выбираете людей, которые находятся на Facebook, видели ваш пост и, самое главное, готовы заполнить эту форму за вас. Это может быть чрезмерное количество людей, которым вы нравитесь, или людей, у которых достаточно свободного времени, чтобы заполнить форму.

Его можно использовать в качестве первого шага проверки, чтобы узнать, есть ли в дальнейшем заинтересованность в использовании более дорогостоящих методов.

Выборка суждения

В этом дизайне выборки вы выберете свою выборку на основе имеющихся у вас знаний в предметной области. Если вы хотите опросить потенциальных клиентов для нового онлайн-курса кодирования, вы, возможно, уже имеете представление о типе людей, которым он понравится, и начинаете искать их в LinkedIn.

Само собой разумеется, что этот метод подвержен вашим собственным предубеждениям, и вам не следует делать окончательные выводы на основе его результатов. Его можно использовать при тех же обстоятельствах, что и отбор проб добровольцами.

Заключение

Теперь вы знаете некоторые из наиболее распространенных схем выборки, когда их использовать и их предостережения. Выборка опросов - это целая область знаний, особенно полезная для тех, кто работает статистиками в правительственных учреждениях, но специалистам по данным полезно знать основы, чтобы понимать, каковы последствия их методов сбора, или проводить сами опросы.

Что тогда после того, как вы сделали выборку данных? Что ж, вам нужно будет применить некоторую разработку функций, чтобы разобраться в этом. Кроме того, вам может понравиться эта статья Рабочие процессы управления проектами для специалистов по данным.

Не стесняйтесь обращаться ко мне в LinkedIn, если вы хотите продолжить обсуждение, это будет приятно (честно).

Методы выборки для науки о данных