В настоящее время данные играют все более важную роль в нашей личной и профессиональной жизни. Инвестировать в нужные места в нужное время, покупать правильные вещи, ходить в новые места, когда мы должны идти, и т. д. — все это упрощается. Маркетологи используют данные, чтобы определить, на какую аудиторию ориентироваться, какое сообщение отправить и какое предложение сделать. В этом сила данных; существует достаточно данных, чтобы помочь нам принять эти важные решения. Вот почему мы должны сначала тщательно изучить данные, чтобы они не привели к ошибочным выводам.

В рамках этой статьи мы опишем шаги, которые мы можем предпринять, чтобы лучше понять данные и облегчить их дальнейший анализ.

Чтобы лучше понять данные, важно задать следующие хорошие вопросы:

import pandas as pd
df=pd.read_csv('train.csv')

В1. Насколько велики данные?

df.shape
#output will be a tuple as (row,column)

В2. Как выглядят данные?

df.head()

Приведенная выше команда вернет первые пять строк данных, но это может ввести в заблуждение, учитывая, что мы оцениваем данные 12000 или более строк на основе первых пяти строк. Следовательно, мы должны использовать команду sample, которая случайным образом выбирает пять строк из данных для лучшего понимания.

df.sample(5)

Вопрос 3. Какие существуют типы данных для столбцов?

df.info()
--(Fig-Image1)

В4. Есть ли в ваших данных пропущенные значения?

Если значения полностью отсутствуют случайным образом, выборка данных, вероятно, все еще репрезентативна для генеральной совокупности. Но если значения систематически отсутствуют, анализ может быть необъективным.

df.isnull().sum()
--(Fig-Image2)

Q5. Как выглядят данные статистически?

Мы можем генерировать описательную статистику, которая обобщает центральную тенденцию, дисперсию и форму распределения наборов данных, за исключением значений NaN.

df.describe()
--(Fig-Image3)

Q6.Есть ли в данных повторяющиеся значения?

Наборы данных, содержащие дубликаты, могут загрязнить обучающие данные тестовыми данными или наоборот.

df.duplicated().sum()
#output:number of duplicate values

Q7.Какова корреляция между столбцами?

Основное преимущество корреляционного анализа заключается в том, что он помогает нам определить, какие переменные следует исследовать дальше, а также позволяет нам быстро проверять гипотезы.

df.corr()
--(Fig-Image4)

Результат положительной корреляции означает, что обе переменные увеличиваются по отношению друг к другу, а отрицательная корреляция означает, что при уменьшении одной переменной увеличивается другая.