Библиотеки Python для управления:

Манипуляции с данными выполняются в основном с помощью библиотек «Pandas» и «NumPy».

«Pandas» — это библиотека с открытым исходным кодом, которая предоставляет высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.

«NumPy» — это универсальный пакет для обработки массивов. Он предоставляет высокопроизводительный объект многомерного массива и инструменты для работы с этими массивами.

  • Установка:

Чтобы установить Pandas и NumPy, просто запустите pip install pandas и pip install NumPy в среде Python/командной строке. Затем мы можем импортировать в программное обеспечение, используя следующий код.

Этапы обработки данных:

  1. Объединение/объединение фреймов данных.
  2. Сортировка фреймов данных.
  3. Сводная таблица.
  4. Обработка отсутствующих/пустых значений.
  5. По группам
  6. Перекрестная таблица.
  7. Применить функцию.
  8. Объединение фреймов данных.

1. Слияние/объединение фреймов данных:

«Объединение» двух наборов данных — это процесс объединения двух наборов данных в один и выравнивания строк из каждого на основе общих атрибутов или столбцов.

Пример: создайте два фрейма данных и объедините их на основе одного столбца.

Код Python для соединения фреймов данных:

2. Сортировка фреймов данных:

Функция сортировки может использоваться для сортировки списка по возрастанию, убыванию или в определенном пользователем порядке.

Код Python для сортировки кадров данных:

В приведенном выше коде данные отсортированы в порядке убывания, чтобы изменить порядок на возрастающий, замените «False» на «True».

3.Сводная_таблица:

Сводная таблица принимает простые данные по столбцам в качестве входных данных и группирует записи в двумерную таблицу, которая обеспечивает многомерное обобщение данных.

Код Python для фреймов данных Pivot_table:

4. Обработка значений Missing / Null.

Обработка отсутствующих данных важна, поскольку многие алгоритмы машинного обучения не поддерживают данные с отсутствующими значениями.

Загрузка данных с помощью панд:

Код Python для заполнения нулевых значений средним значением:

В приведенном выше коде он заменит нулевые значения средним значением для одной переменной, где мы упомянули, чтобы заменить все нулевые значения в данных средним, следуйте коду.

Код Python для удаления нулевых значений:

5. Группировать по:

Функция Pandasdataframe.groupby() используется для разделения данных на группы на основе некоторых критериев.

В приведенном выше коде он суммирует столбец «Стоимость выращивания A2» на основе штата. Мы можем использовать все функции агрегирования, чтобы заменить функцию суммирования из приведенного выше кода.

6. Кросс-таблица:

Функция «кросс-таблица» панд строит таблицу перекрестных таблиц, которая может показать частоту, с которой появляются определенные группы данных.

Код Python для Crosstab:

Подсчет количества наблюдений по полку и разряду.

В приведенном выше коде он будет подсчитывать наблюдения в Crop и State, а поля показывают общее число для каждой переменной. Перейдите к выходным данным:

7. Применить:

Apply возвращает некоторое значение после передачи каждой строки/столбца фрейма данных с помощью некоторой функции. Объекты, передаваемые в функцию, представляют собой объекты Series, индексом которых является либо индекс/строка DataFrame (axis=0), либо столбцы DataFrame (axis=1).

Важные аргументы:

  • func : функция, применяемая к каждому столбцу или строке. Эта функция принимает серию и возвращает серию.
  • ось: ось, вдоль которой функция применяется в кадре данных. Значение по умолчанию 0.
  • Если значение равно 0, то функция применяется к каждому столбцу.
  • Если значение равно 1, то функция применяется к каждой строке.

Код Python для функции Apply:

Создание DataFrame для функции Apply

Выше мы применили лямбда-функцию с оператором сложения, точно так же мы можем применить ее со всеми арифметическими операторами.

8. Объединение фреймов данных.

Чтобы добавить строки из одного фрейма данных в строки другого фрейма данных. Для этого мы можем использовать функцию concat().

Код Python для объединения кадров данных: