Полное руководство по пониманию ваших данных.

Оглавление

· 1) Насколько велики данные?
· 2) Как выглядят данные?
· 3) Каков тип данных столбца?
· 4 ) Есть ли пропущенные значения?
· 5) Как выглядят данные математически?
· 6) Имеются ли повторяющиеся значения?
· 7) Как корреляция между столбцами?
· Пример:

Самый важный шаг перед началом проекта машинного обучения — сбор данных и их преобразование в более удобный формат. Наша модель машинного обучения просто не может быть обучена на собранных данных; если мы это сделаем, модель выдаст неправильные результаты.

В этом блоге обсуждаются основные вопросы, которые вы должны задать после сбора данных.

1) Насколько велики данные?

df.shape — лучший инструмент для измерения размера ваших данных. Отобразится общее количество строк и столбцов в вашем наборе данных. Вы можете использовать это, чтобы получить общую оценку того, сколько данных у вас есть.

2) Как выглядят данные?

Мы можем просто использовать df.head() для просмотра данных. Чтобы дать вам представление о том, как отображаются фактические данные и какие корректировки необходимо внести в набор данных, эта функция по умолчанию отображает 5 верхних строк ваших данных. Вы должны указать 10 в качестве параметра этой функции, если хотите отобразить первые 10 строк.

При использовании функции df.head() вы могли иногда чувствовать, что данные искажены. Так как head() возвращает первые пять строк, а tail() возвращает последние пять строк. А как насчет центральных рядов? Чтобы развеять эту неопределенность, мы можем использовать метод df.sample(5), который предоставит нам 5 случайно выбранных строк из набора данных.

3) Каков тип данных столбца?

Самый важный шаг — понять тип данных столбца. Вы узнаете, какие столбцы являются объектами (строками), какие числовыми, а какие категориями. Вы узнаете, что конкретный столбец в наборе данных имеет формат с плавающей запятой, хотя он должен быть в формате int. Изменяя тип данных этого конкретного столбца, вы можете сэкономить память, поскольку числа с плавающей запятой используют больше памяти, чем целые числа.

А для получения всей этой информации можно использовать функцию df.info().

4) Есть ли пропущенные значения?

Отсутствие значений в данных может вызвать проблемы при обработке данных. Поэтому, прежде чем использовать данные, мы должны разобраться с недостающими числами. Управление ими может иногда быть трудной работой. Используйте df.isnull().sum(), чтобы быстро определить, сколько пропущенных значений присутствует в каждом столбце набора данных. Он создаст серию панд, представляющую общее количество всех отсутствующих значений.df.isnull().sum()

5) Как данные выглядят математически?

Метод df.describe() можно использовать для понимания данных с математической точки зрения. Эта функция будет подвергать числовые столбцы набора данных сложным математическим вычислениям.

По сути, он будет отображать основные статистические значения, полученные из данных. Эту функцию можно использовать только для столбцов, содержащих числа.

6) Имеются ли повторяющиеся значения?

Повторяющиеся значения, предоставляемые алгоритму, — это плохо, поскольку это может привести к неточным результатам. Если в данных есть повторяющиеся значения, вы должны знать о них. И использование df.duplicated().sum() — самый простой способ сделать это.

7) Как корреляция между столбцами?

Статистическая мера, называемая корреляцией, показывает, насколько две или более переменных колеблются в связи друг с другом. Все столбцы в наборе данных могут оказаться бесполезными, поэтому мы можем использовать корреляцию, чтобы определить, какие столбцы более полезны. Для этого мы можем использовать df.corr(), который определит корреляцию между каждым из числовых столбцов набора данных.

Пример:

Я добавил блокнот Jupyter, демонстрирующий набор данных Titanic. Найдите блокнот на моем GitHub: https://github.com/paresh122/blog_notebooks/tree/main/Understanding%20the%20data

Спасибо, что нашли время, чтобы прочитать мой блог. Ваша поддержка и участие значат для меня целый мир. Я искренне ценю ваш интерес к моему проекту и надеюсь, что он предоставил вам ценную информацию. Ваши постоянные читатели и отзывы вдохновляют меня продолжать делиться знаниями и стремиться к совершенству. Спасибо за участие в этом путешествии.

Свяжитесь со мной:
LinkedIn: https://www.linkedin.com/in/pareshpatil122/
GitHub: https://github.com/paresh122
Портфолио: https://pareshpatil-portfolio.netlify.app/