Библиотеки Python для управления:
Манипуляции с данными выполняются в основном с помощью библиотек «Pandas» и «NumPy».
«Pandas» — это библиотека с открытым исходным кодом, которая предоставляет высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
«NumPy» — это универсальный пакет для обработки массивов. Он предоставляет высокопроизводительный объект многомерного массива и инструменты для работы с этими массивами.
- Установка:
Чтобы установить Pandas и NumPy, просто запустите pip install pandas и pip install NumPy в среде Python/командной строке. Затем мы можем импортировать в программное обеспечение, используя следующий код.
Этапы обработки данных:
- Объединение/объединение фреймов данных.
- Сортировка фреймов данных.
- Сводная таблица.
- Обработка отсутствующих/пустых значений.
- По группам
- Перекрестная таблица.
- Применить функцию.
- Объединение фреймов данных.
1. Слияние/объединение фреймов данных:
«Объединение» двух наборов данных — это процесс объединения двух наборов данных в один и выравнивания строк из каждого на основе общих атрибутов или столбцов.
Пример: создайте два фрейма данных и объедините их на основе одного столбца.
Код Python для соединения фреймов данных:
2. Сортировка фреймов данных:
Функция сортировки может использоваться для сортировки списка по возрастанию, убыванию или в определенном пользователем порядке.
Код Python для сортировки кадров данных:
В приведенном выше коде данные отсортированы в порядке убывания, чтобы изменить порядок на возрастающий, замените «False» на «True».
3.Сводная_таблица:
Сводная таблица принимает простые данные по столбцам в качестве входных данных и группирует записи в двумерную таблицу, которая обеспечивает многомерное обобщение данных.
Код Python для фреймов данных Pivot_table:
4. Обработка значений Missing / Null.
Обработка отсутствующих данных важна, поскольку многие алгоритмы машинного обучения не поддерживают данные с отсутствующими значениями.
Загрузка данных с помощью панд:
Код Python для заполнения нулевых значений средним значением:
В приведенном выше коде он заменит нулевые значения средним значением для одной переменной, где мы упомянули, чтобы заменить все нулевые значения в данных средним, следуйте коду.
Код Python для удаления нулевых значений:
5. Группировать по:
Функция Pandasdataframe.groupby() используется для разделения данных на группы на основе некоторых критериев.
В приведенном выше коде он суммирует столбец «Стоимость выращивания A2» на основе штата. Мы можем использовать все функции агрегирования, чтобы заменить функцию суммирования из приведенного выше кода.
6. Кросс-таблица:
Функция «кросс-таблица» панд строит таблицу перекрестных таблиц, которая может показать частоту, с которой появляются определенные группы данных.
Код Python для Crosstab:
Подсчет количества наблюдений по полку и разряду.
В приведенном выше коде он будет подсчитывать наблюдения в Crop и State, а поля показывают общее число для каждой переменной. Перейдите к выходным данным:
7. Применить:
Apply возвращает некоторое значение после передачи каждой строки/столбца фрейма данных с помощью некоторой функции. Объекты, передаваемые в функцию, представляют собой объекты Series, индексом которых является либо индекс/строка DataFrame (axis=0
), либо столбцы DataFrame (axis=1
).
Важные аргументы:
- func : функция, применяемая к каждому столбцу или строке. Эта функция принимает серию и возвращает серию.
- ось: ось, вдоль которой функция применяется в кадре данных. Значение по умолчанию 0.
- Если значение равно 0, то функция применяется к каждому столбцу.
- Если значение равно 1, то функция применяется к каждой строке.
Код Python для функции Apply:
Создание DataFrame для функции Apply
Выше мы применили лямбда-функцию с оператором сложения, точно так же мы можем применить ее со всеми арифметическими операторами.
8. Объединение фреймов данных.
Чтобы добавить строки из одного фрейма данных в строки другого фрейма данных. Для этого мы можем использовать функцию concat()
.
Код Python для объединения кадров данных: