Этот трюк изменил мою жизнь…

В этой статье я познакомлю вас с техникой, которую я изучил несколько лет назад, будучи еще студентом. EDA — один из самых важных шагов в процессе машинного обучения, когда первоначальные исследования данных ведут к поиску взаимосвязей, выбросов, предположений… Эти цели достигаются с помощью понимания набора данных, сводной статистики или графических графиков.

EDA по набору данных COVID-19:

Набор данных содержит пациентов с положительным и отрицательным результатом теста SARS-Cov-2.

Резюме набора данных:

  • Целевая переменная : результат экзамена на SARS-Cov-2.
  • Строка и столбцы: 5644; 111
  • Типы переменных: object: 70; числовой : 41

Как мы видим, в наборе данных много значений Nan, и мы попытаемся изучить это:

Некоторые столбцы содержат более 5 тыс. значений NaN! В процентах это может быть представлено как:

Окончательный график для лучшей визуализации значений NaN во всем наборе данных:

В предыдущем анализе мы проанализировали относительные количества NaN, но не можем обнаружить связь между столбцами. Следующий график является одним из самых мощных инструментов для визуального представления NaN по всему набору данных:

plt.figure(figsize=(20,10))
sns.heatmap(df.isna(), cbar=False)

Команда «df.isna ()» преобразует каждое значение набора данных в логическое значение (True, если NaN, иначе False). Теперь у нас есть полное изображение нашего набора данных, где черные части представляют ложные значения, а коричневые части — истинные значения. Как и предполагалось ранее, в этом наборе данных много значений NaN, а некоторые столбцы пусты.

Извлеченная информация:

  • Формы линий говорят нам о наличии связи между функциями.
  • Строки не выровнены, простое удаление NaN может привести к удалению большого количества данных.
  • Некоторые столбцы не имеют значений NaN
  • Некоторые столбцы имеют только значения NaN

Если у вас есть какие-либо вопросы, не стесняйтесь оставлять их в качестве ответов. Спасибо за прочтение !