Вменение отсутствующих значений (основы для продвижения)

Введение:

Здравствуйте, ребята, в этой статье я рассказываю о вменении отсутствующих значений от базовой концепции до продвинутой концепции.

Темы для обсуждения:

Почему важно обрабатывать недостающие данные?
Различные способы представления отсутствующего значения в наборе данных
Генерируются возможные способы отсутствующего значения
Типы пропущенных значений:

Почему важно обрабатывать недостающие данные?

Данные в реальном мире в большинстве случаев содержат много отсутствующих данных. Могут быть разные причины, по которым каждое значение отсутствует, например, человеческий фактор во время сбора данных или повреждение данных, а также могут быть особые причины.

Итак, результаты

1. Уменьшите предсказательную силу вашей модели.

2. Несовместим с большинством библиотек Python, используемых в машинном обучении. При использовании некоторых алгоритмов, таких как линейная регрессия и т. Д., В sklearn они не умеют автоматически обрабатывать эти отсутствующие данные и могут привести к ошибкам.

3. Искажение в наборе данных

Различные способы представления отсутствующего значения в наборе данных:

Представлено много способов отсутствующих значений в наборе данных, некоторые из них,

1. Нэн

2. ?

3. -999 (любая комбинация цифр 9)

4. n/a

5. NA

6. —

и т. д..

Возможные способы генерации пропущенного значения:

1.Люди не предоставляют информацию по определенным вопросам в опросе по сбору данных.

Например, некоторым может быть неудобно делиться информацией о своей зарплате, пристрастиях к употреблению алкоголя и курению. .

2. В некоторых случаях данные берутся из различных доступных прошлых записей, а не напрямую. В этом случае повреждение данных является серьезной проблемой, поскольку из-за низкого уровня обслуживания некоторые части данных повреждаются, что приводит к отсутствию данных.

3. Неточности в процессе сбора данных также способствуют отсутствию данных.

Например, при ручном вводе данных трудно полностью избежать человеческих ошибок.

4. Несоответствия оборудования, приводящие к пропуску измерений, приводят к отсутствию значения.

Типы пропущенных значений:

Существует два типа отсутствующих значений.

1. Единица Отсутствие ответа

2. Пункт не отвечает

1.Отказ от ответа:

Это относится ко всей строке отсутствующих данных.

Например, люди, которые решили не заполнять перепись.

Но точность этого типа очень редка.

Методы вменения:

взвешенная корректировка класса (мы увидим позже)

2. Пункт не отвечает:

Это относится к тому, что некоторые ячейки столбца отсутствуют.

Это точно в основном в реальном мире.

А также далее делится на три типа,

1.Полностью случайное отсутствие.

2. Отсутствует наугад.

3. Не случайно.

Отсутствует полностью в случайном порядке:
Отсутствующие данные не соответствуют какому-либо определенному шаблону, они просто случайны, что означает, что отсутствующее значение генерируется в одной переменной, а не из-за других переменных. [ИЛИ] Отсутствующие данные не связаны или не зависят от остальных переменных.

Например, во время сбора данных конкретная выборка теряется из-за небрежности или нежелания людей рассказывать, но не из-за другой переменной или вопроса во время опроса.
Другими словами, когда мы задаем случайные вопросы (отсутствие корреляции среди этих случайных вопросов) из заранее определенного списка вопросов к людям, некоторые из них не говорят ответ, может привести к MCAR.
Но возникновение этих MCAR очень редко, поэтому статистически анализ не будет быть необъективным, потому что ошибка точна в небольшом количестве, поэтому она не дает большого эффекта при статистическом анализе.

Возможные методы используются для MCAR:

1. Из-за того, что MCAR встречается очень редко, мы можем использовать методы удаления.

2. А также это не зависит от других переменных, поэтому мы можем использовать простое вменение, такое как среднее, среднее и т. Д.….

почему мы используем средний, средний?

Поскольку в методах среднего и среднего значения другие переменные не используются для расчета среднего и среднего значения, для расчета используются только эти конкретные значения переменных. Поэтому мы используем эти методы.

2. Отсутствует случайно (MAR):

Здесь отсутствующие данные независимой переменной связаны или зависят от остальных переменных, поэтому они не случайны.

Например, давайте рассмотрим опрос о времени, проведенном в Интернете, в котором есть раздел о времени, проведенном на таких платформах, как Netflix, Amazon Prime. Замечено, что пожилые люди (старше 45 лет) реже его заполняют, чем молодые люди. Это пример МАР. Здесь параметр «Возраст» решает, будут ли данные отсутствовать или нет.

В реальном мире MAR встречается гораздо чаще, чем MCAR.

Возможные методы используются для MAR:

Здесь мы можем использовать вменение отсутствующих значений на основе модели, например, линейную регрессию, дерево решений и т. д., потому что, используя алгоритм, мы можем использовать другие переменные для прогнозирования отсутствующих значений.

3. Не пропущено случайно (NMAR):

Это серьезная и сложная ситуация.

Например: предположим, что целью опроса является измерение чрезмерного использования или зависимости от социальных сетей. Если люди, которые чрезмерно используют социальные сети, не заполняют анкету намеренно, то это случай NMAR.

так что это, скорее всего, приведет к смещению результатов.

Возможные методы, используемые для NMAR:

1. Обычные методы, такие как удаление строк/столбцов, импутация не будут работать. Чтобы решить эту проблему, необходимо глубокое знание предметной области.

Хорошо, ребята, я заканчиваю эту статью введением, в следующей статье я объясню методы работы с пропущенными значениями. пожалуйста, оставьте отзыв, а также, если что-то не так, пожалуйста, поправьте меня. Спасибо.

Ссылка на часть 2: https://medium.com/@banarajay/missing-value-imputation-basics-to-advance-part-2-3eefededa19