В реальном мире наборы данных грязные. Эти данные необходимо обработать перед анализом данных. Предварительная обработка данных - один из важнейших этапов анализа данных. Самый трудоемкий этап для специалистов по обработке данных - это предварительная обработка данных. Pandas - одна из самых важных библиотек Python. В этом посте я расскажу о библиотеке Pandas.

Pandas - отличная библиотека для предварительной обработки данных. Pandas часто использует библиотеки, такие как NumPy и SciPy, для численных вычислений и Matplotlib для визуализации данных. У Pandas есть методы, аналогичные методам в NumPy. Хотя NumPy работает с одними и теми же типами данных, Pandas может работать с разными типами данных.

Набор данных, записанный в Excel или табличных данных SQL, можно легко проанализировать с помощью pandas.

Модуль Pandas является библиотекой с открытым исходным кодом с 2010 года. Pandas постоянно обновляется разработчиками по всему миру.

Подводя итог, я объясню в этом посте следующие темы:

  • Как установить Панды?
  • Структура данных серии
  • Работа с сериями
  • Структура данных DataFrame

Перед тем, как начать обсуждение, на нашей странице Medium есть сообщения о данных, искусственном интеллекте, машинном обучении и глубоком обучении. Не забудьте подписаться на нас на Medium 🌱, чтобы видеть эти сообщения и последние сообщения.

Давайте начнем.

Установка Pandas

Если вы используете такие платформы, как Anaconda, библиотека Pandas предустановлена. Чтобы установить pandas на свой компьютер:

pip install pandas

Pandas и зависимые библиотеки автоматически загружаются с помощью этой команды.

Чтобы использовать Pandas, необходимо импортировать. Давайте импортируем Pandas с помощью pd:

Давайте посмотрим на установленную версию Pandas:

В Pandas есть структуры данных для удобного анализа данных. Чаще всего используются структуры данных Series и DataFrame. Структура данных серии одномерная, то есть состоит из столбца. Структура данных DataFrame является двухмерной, то есть состоит из строк и столбцов.

Давайте посмотрим на структуру данных серии.

Структура данных серии

Серия - это одномерный объект и представляет собой столбец:

Индекс объекта начинается с 0:

Если мы хотим взять объект типа Series как массив, используются значения:

Мы можем изменить индексы:

Мы можем назвать значение по индексу:

Если мы хотим увидеть структуру индекса obj2, используется индекс:

Мы можем преобразовать типы данных, такие как список, кортеж или словарь, в структуру Series:

Мы можем вызывать значения с помощью ключей:

Чтобы выбрать конкретные имена:

Давайте изменим значение Тома:

Мы можем изменить более одного значения:

Мы можем проверить, есть ли в данных какое-либо значение:

Мы можем применять математические операции к Серии:

Мы можем возвести в квадрат каждое значение:

Метод isnull () используется для поиска недостающих данных в пандах:

Теперь я покажу, как работать с Series.

Работа с сериями

Давайте импортируем набор данных из моего рабочего каталога. Вы можете скачать этот набор данных здесь.

Давайте посмотрим на первые 5 строк набора данных.

Давайте посмотрим на типы переменных в наборе данных.

Напечатаем на экране окончательную статистику переменной жанра.

Давайте посмотрим на количество подкатегорий внутри переменной.

Давайте распечатаем процентное соотношение каждого значения на экране.

Давайте посмотрим на жанр.

Поскольку этот объект имеет структуру серий, мы можем использовать методы Series. Например, возьмем метод головы.

unique () используется для индивидуального просмотра повторяющихся значений.

Мы можем видеть, сколько существует отдельных значений.

Метод crossstab () используется для просмотра взаимных значений двух переменных в виде таблицы.

Теперь рассмотрим переменную Series с именем Global_Sales числового типа. Давайте посмотрим на окончательную статистику этой переменной.

Давайте посмотрим на среднее значение переменной Global_Sales.

Мы можем напрямую взять среднее значение этой числовой переменной.

Давайте посмотрим, как визуализировать данные типа Series. Нарисуем гистограмму числовой переменной Year.

Теперь рассмотрим переменную Genre, которая относится к объектному типу. Давайте посмотрим на числовые значения этой переменной.

Давайте посмотрим на гистограмму числовых значений жанра в типе объекта.

Еще одна важная структура данных в Pandas - DataFrame.

DataFrame

Серия состоит из одного столбца, а DataFrame - из нескольких столбцов. Чтобы объяснить DataFrame, давайте создадим игрушечный набор данных.

Давайте конвертируем данные в DataFrame.

Выведем на экран переменную df.

Мы можем перемещать столбцы.

Метод head используется для просмотра первых пяти строк в больших наборах данных.

Если мы хотим увидеть последние пять строк, используется метод tail ().

Мы можем видеть столько последних строк, сколько захотим.

Кроме того, мы можем видеть столько строк, сколько захотим, с самого начала.

Если мы добавим имя столбца, которого нет в словаре, значения этого добавленного столбца будут отображаться как отсутствующие данные. Например, давайте добавим столбец возраста.

При желании мы можем присвоить строкам индексы.

Мы можем выбрать конкретный столбец в наборе данных.

Если мы хотим получить более одного столбца, мы сначала назначаем нужные столбцы переменной.

Мы можем добраться до нужного столбца, набрав имя столбца.

loc можно использовать для выбора определенных строк.

Мы можем присвоить значение столбцу возраста, который не имеет значений.

Если мы хотим присвоить столбцу список или массив, длина значений должна быть такой же, как длина DataFrame.

Ключевое слово del используется для удаления столбцов. Сначала создадим новый столбец. Те, кто набрал больше 70, проходят курс.

Удалим пропущенный столбец.

DataFrame может быть создан со словарем внутри словаря.

Давайте преобразуем данные оценок в DataFrame.

Столбцы и строки DataFrame взаимозаменяемы, что означает, что набор данных можно транспонировать.

Строке и столбцу можно присвоить имя с помощью атрибута имени индекса и столбца фрейма данных.

Атрибут values ​​преобразует набор данных в DataFrame в массив.

Атрибут index в модуле Pandas делает данные неизменяемыми. Пользователь больше не может вносить изменения в данные.

Давайте попробуем добавить ценность набору данных.

Мы получили сообщение об ошибке, что переменную scores_index нельзя изменить.

Вот и все. Надеюсь, вам понравился этот пост. Вы можете получить доступ к записной книжке, которую я использовал для этого сообщения, на нашей странице GitHub. 🚩

Если вы еще не читали, я настоятельно рекомендую вам прочитать следующие статьи о Pandas. 👇👇👇

Пожалуйста, похлопайте 👏, если вам понравился этот пост в блоге. Кроме того, не забудьте подписаться на нас на Tirendaz Academy YouTube 📺, Twitter 😎 , Средний 📚, LinkedIn 👍

Увидимся в следующем посте…