Понимание различных механизмов отсутствия данных и полный анализ случая.

🪐Отсутствуют данные:

Отсутствующие данные или отсутствующие значения возникают, когда данные для определенного наблюдения в переменной не сохраняются.

• Отсутствующие данные — обычное явление в большинстве наборов данных.

• Отсутствующие данные могут существенно повлиять на выводы, которые можно сделать на их основе.

• Во многих организациях информация собирается в форму человеком, разговаривающим с клиентом по телефону, или клиентами, заполняющими формы онлайн. Часто человек, вводящий данные, не заполняет все поля формы. Многие поля не являются обязательными, что может привести к отсутствию значений.

• Причины пропуска информации могут быть разными: возможно, человек не хочет раскрывать какую-то информацию, например, доход, или не знает ответа, или ответ неприменим для определенных обстоятельств, или наоборот, человек в организации хочет сэкономить время клиента и поэтому не задает вопросы, которые он считает не очень важными.

• Существуют и другие случаи, когда значение определенной переменной не существует. Например, в переменной «общая задолженность в процентах от общего дохода» (очень распространенная в финансовых данных), если у человека нет дохода, то общего процента 0 не существует, и, следовательно, это будет отсутствующее значение.

• Важно понимать, как недостающие данные вводятся в набор данных, то есть механизмы, с помощью которых недостающая информация вводится в набор данных. В зависимости от механизма мы можем по-разному обрабатывать отсутствующие значения. Кроме того, зная источник отсутствующих данных, мы можем принять меры для контроля этого источника и уменьшения объема отсутствующей информации в ожидании во время сбора данных.

💥Отсутствующие данные: причины

· Потеряно: значение отсутствует, поскольку оно было забыто, потеряно или сохранено неправильно.

· Не существует: переменная создается путем деления двух переменных, и знаменатель принимает 0.

· Не найдено: при сопоставлении данных с почтовым индексом или датой рождения для обогащения дополнительными переменными, а почтовый индекс или доб неверный или не существует, новые переменные получат NA.

🧡Отсутствующие данные: воздействия

· Несовместимо с Scikitlearn

· Вменение отсутствующих данных может исказить распределение переменных.

· Влияет на все модели машинного обучения.

💫Отсутствующие данные: Механизмы:

Понимание механизмов отсутствующих данных может помочь нам выбрать правильный метод вменения отсутствующих данных. 3 механизма приводят к отсутствию данных, 2 из них связаны с отсутствием данных случайным или почти случайным образом, а третий связан с систематической потерей данных.

1. Отсутствующие данные полностью случайным образом (MCAR):

· Вероятность пропуска одинакова для всех наблюдений

· Нет никакой связи между отсутствующими данными и любыми другими наблюдаемыми или отсутствующими значениями в наборе данных

· Переменная отсутствует полностью случайно (MCAR), если вероятность отсутствия одинакова для всех наблюдений. Когда данные представляют собой MCAR, нет никакой связи между отсутствующими данными и любыми другими наблюдаемыми или отсутствующими значениями в наборе данных. Другими словами, эти отсутствующие точки данных представляют собой случайное подмножество данных. Нет ничего систематического, из-за чего некоторые данные могут быть потеряны с большей вероятностью, чем другие. Если значения для наблюдений отсутствуют полностью случайным образом, то игнорирование этих случаев не будет искажать сделанные выводы.

2. Отсутствующие данные в случайном порядке (MAR):

· При отсутствии в случайном порядке данные отсутствуют с определенной скоростью, но эта скорость зависит от какой-либо другой переменной в данных.

· Несмотря на то, что в целом у нас есть отсутствующие данные, уровень отсутствующих данных может быть прекрасно объяснен, если мы знаем некоторые другие факторы в приведенном выше случае его пол.

· MAR возникает, когда существует связь между склонностью к отсутствию значений и наблюдаемыми данными. Другими словами, вероятность пропуска наблюдения зависит от доступной информации (т. е. других переменных в наборе данных). Например, если мужчины чаще раскрывают свой вес, чем женщины, то вес — это MAR. Информация о весе будет случайным образом отсутствовать для тех мужчин и женщин, которые не раскрывают свой вес, но, поскольку мужчины более склонны раскрывать ее, для женщин будет больше пропущенных значений, чем для мужчин.

· В ситуации, подобной описанной выше, если мы решим использовать переменную с пропущенными значениями (в данном случае вес), нам может быть полезно включить пол, чтобы контролировать погрешность в весе пропущенных наблюдений.

3. Отсутствующие данные не случайным образом:

Существует связь между склонностью значения к отсутствию и его значениями. Другими словами, данные отсутствуют не случайно, когда отсутствующие значения переменной связаны со значениями самой этой переменной, даже после учета других переменных. Примером может служить опрос об употреблении наркотиков. Опрошенные лица потенциально могли оставить поля пустыми, если они употребляли наркотики, которые в настоящее время запрещены законом, из-за страха перед судебным преследованием. Таким образом, поля пусты не случайно, а намеренно оставлены пустыми.

· Отсутствующие данные не являются случайными (MNAR), когда существует механизм или причина, по которой отсутствующие значения вводятся в набор данных. Например, MNAR возникнет, если люди не смогут заполнить анкету по депрессии из-за своего уровня депрессии. Здесь недостающие данные связаны с исходом, депрессией.

· Аналогичным образом, когда финансовая компания запрашивает у клиентов банковские документы и документы, удостоверяющие личность, для предотвращения мошенничества с идентификацией, как правило, мошенники, выдающие себя за кого-то другого, не будут загружать документы. У них их нет, потому что они мошенники. Следовательно, существует систематическая связь между недостающими документами и целью, которую мы хотим предсказать: мошенничество.

· Понимание механизма отсутствия данных важно для принятия решения о том, какие методы использовать для условного исчисления отсутствующих значений.

🚩Вменение отсутствующих данных:

• Вменение — это действие по замене отсутствующих данных статистическими оценками отсутствующих значений.

• Целью любого метода импутации является создание полного набора данных, который можно использовать для обучения моделей машинного обучения.

💛Числовые переменные

1. Среднее/медианное вменение

2. Вменение произвольного значения

3. Конец вменения хвоста

💙Категориальные переменные

1. Частое вменение категорий или режим вменения

2. Добавление категории «отсутствует»

🧡 Оба

1. Полный анализ случая

2. Добавление индикатора «Отсутствует»

3. Вменение случайной выборки

🌌Полный разбор дела:

Полный анализ случаев (CCA), также называемый «удалением случаев по списку», заключается в отбрасывании наблюдений, в которых отсутствуют значения какой-либо из переменных.

В Complete Case Analysis мы анализируем только те наблюдения, для которых есть информация обо всех переменных в наборе данных.

Какие переменные я могу импутировать с помощью CCA?

CCA может применяться как к категориальным, так и к числовым переменным.

Предположения:

CCA хорошо работает, когда данные отсутствуют полностью случайным образом (MCAR). Мы должны использовать CCA, если у нас есть основания полагать, что данные отсутствуют случайно, а не иначе. Когда данные представляют собой MCAR, исключение наблюдений с отсутствующей информацией, по сути, то же самое, что и случайное исключение некоторых наблюдений из набора данных. Таким образом, набор данных после CCA является достоверным представлением исходного набора данных.

Преимущества:

· Простота реализации

· Не требуется никаких манипуляций с данными

· Сохраняет распределение переменных (если данные представляют собой MCAR, то распределение переменных сокращенного набора данных должно совпадать с распределением в исходном наборе данных)

Недостатки:

· Он может исключить большую часть исходного набора данных (при большом количестве отсутствующих данных)

· Исключенные наблюдения могут быть информативными для анализа (если данные отсутствуют случайно)

· CCA создаст смещенный набор данных, если полные случаи отличаются от исходных данных (например, когда отсутствующая информация представляет собой MAR или NMAR, а не случайным образом).

· При использовании наших моделей в производстве модель не будет знать, как обрабатывать недостающие данные.

Когда использовать КСА:

· Данные отсутствуют полностью случайным образом

· Не более 5% всего набора данных содержит недостающие данные

· На практике CCA может быть приемлемым методом, когда количество отсутствующей информации невелико. К сожалению, не существует эмпирического правила, позволяющего определить, насколько недостающие данные малы или пренебрежимо малы. Однако, как правило, если общий объем недостающих данных составляет ~ 5% от исходного набора данных или меньше, CCA является приемлемым вариантом.

· Во многих реальных наборах данных количество отсутствующих данных никогда не бывает маленьким, и поэтому CCA обычно никогда не используется.

💚CCA и модели в производстве:

При использовании CCA мы удаляем все наблюдения, содержащие недостающую информацию. Однако данные, которые мы хотим оценить с помощью нашей модели, действительно могут содержать недостающую информацию. Это создаст проблему при использовании нашей модели в реальных системах, или, как мы это называем, при запуске моделей в производство: когда наблюдение содержит недостающие данные, модель не сможет их обработать. Чтобы избежать этой проблемы, при запуске моделей в производство нам нужно сделать 1 из 2 вещей: либо мы не оцениваем наблюдения с отсутствующими данными, либо заменяем отсутствующие значения другим числом. Мы можем выбрать любой из методов вменения.

Выполнение



Давайте обсудим в комментариях, если вы нашли что-то не так в посте или вам есть что добавить.
Спасибо.