Мой лучший график EDA для значений NaN

Этот трюк изменил мою жизнь…

В этой статье я познакомлю вас с техникой, которую я изучил несколько лет назад, будучи еще студентом. EDA — один из самых важных шагов в процессе машинного обучения, когда первоначальные исследования данных ведут к поиску взаимосвязей, выбросов, предположений… Эти цели достигаются с помощью понимания набора данных, сводной статистики или графических графиков.

EDA по набору данных COVID-19:

Набор данных содержит пациентов с положительным и отрицательным результатом теста SARS-Cov-2.

Резюме набора данных:

Целевая переменная : результат экзамена на SARS-Cov-2.
Строка и столбцы: 5644; 111
Типы переменных: object: 70; числовой : 41

Как мы видим, в наборе данных много значений Nan, и мы попытаемся изучить это:

Некоторые столбцы содержат более 5 тыс. значений NaN! В процентах это может быть представлено как:

Окончательный график для лучшей визуализации значений NaN во всем наборе данных:

В предыдущем анализе мы проанализировали относительные количества NaN, но не можем обнаружить связь между столбцами. Следующий график является одним из самых мощных инструментов для визуального представления NaN по всему набору данных:

plt.figure(figsize=(20,10))
sns.heatmap(df.isna(), cbar=False)

Команда «df.isna ()» преобразует каждое значение набора данных в логическое значение (True, если NaN, иначе False). Теперь у нас есть полное изображение нашего набора данных, где черные части представляют ложные значения, а коричневые части — истинные значения. Как и предполагалось ранее, в этом наборе данных много значений NaN, а некоторые столбцы пусты.

Извлеченная информация:

Формы линий говорят нам о наличии связи между функциями.
Строки не выровнены, простое удаление NaN может привести к удалению большого количества данных.
Некоторые столбцы не имеют значений NaN
Некоторые столбцы имеют только значения NaN

Если у вас есть какие-либо вопросы, не стесняйтесь оставлять их в качестве ответов. Спасибо за прочтение !

Мой лучший график EDA для значений NaN — пример COVID-19

Этот трюк изменил мою жизнь…

EDA по набору данных COVID-19:

Окончательный график для лучшей визуализации значений NaN во всем наборе данных:

Вопросы по теме