Этот трюк изменил мою жизнь…
В этой статье я познакомлю вас с техникой, которую я изучил несколько лет назад, будучи еще студентом. EDA — один из самых важных шагов в процессе машинного обучения, когда первоначальные исследования данных ведут к поиску взаимосвязей, выбросов, предположений… Эти цели достигаются с помощью понимания набора данных, сводной статистики или графических графиков.
EDA по набору данных COVID-19:
Набор данных содержит пациентов с положительным и отрицательным результатом теста SARS-Cov-2.
Резюме набора данных:
- Целевая переменная : результат экзамена на SARS-Cov-2.
- Строка и столбцы: 5644; 111
- Типы переменных: object: 70; числовой : 41
Как мы видим, в наборе данных много значений Nan, и мы попытаемся изучить это:
Некоторые столбцы содержат более 5 тыс. значений NaN! В процентах это может быть представлено как:
Окончательный график для лучшей визуализации значений NaN во всем наборе данных:
В предыдущем анализе мы проанализировали относительные количества NaN, но не можем обнаружить связь между столбцами. Следующий график является одним из самых мощных инструментов для визуального представления NaN по всему набору данных:
plt.figure(figsize=(20,10)) sns.heatmap(df.isna(), cbar=False)
Команда «df.isna ()» преобразует каждое значение набора данных в логическое значение (True, если NaN, иначе False). Теперь у нас есть полное изображение нашего набора данных, где черные части представляют ложные значения, а коричневые части — истинные значения. Как и предполагалось ранее, в этом наборе данных много значений NaN, а некоторые столбцы пусты.
Извлеченная информация:
- Формы линий говорят нам о наличии связи между функциями.
- Строки не выровнены, простое удаление NaN может привести к удалению большого количества данных.
- Некоторые столбцы не имеют значений NaN
- Некоторые столбцы имеют только значения NaN
Если у вас есть какие-либо вопросы, не стесняйтесь оставлять их в качестве ответов. Спасибо за прочтение !