Python — отличный язык для анализа данных, в первую очередь из-за фантастической экосистемы ориентированных на данные пакетов Python. Pandas — один из тех пакетов, который значительно упрощает импорт и анализ данных. Pandas — это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, построенный на основе языка программирования Python.
Создание Pandas Dataframe может быть достигнуто несколькими способами. В этом руководстве мы узнаем, как использовать различные функции pandas, чтобы работать быстрее, писать лучший код pandas и упрощать кодирование. Это одни из самых полезных приемов или советов, которые я усвоил за последние 3 года работы с библиотекой Python pandas. Здесь я проиллюстрировал несколько распространенных сценариев, с которыми ежедневно сталкивается начинающий специалист по данным. Вы можете найти больше таких сценариев по внешним ссылкам, представленным в каждом разделе.
Итак, давайте начнем наше путешествие с пандами, создав несколько фреймов данных !!!
Оглавление:
- Требования к установке
- Создать кадр данных pandas: из словаря
- Создать кадр данных pandas: из списка
- Создать кадр данных pandas: из списка списков
- Создать кадр данных pandas: из списка словарей
- Создать кадр данных pandas: из списка кортежей
- Создание кадра данных pandas: из случайного пакета Numpy
Требования к установке
Чтобы следовать этому руководству, у вас должны быть установлены Pandas и Numpy. Запуститеприведенную ниже команду в терминале python для установки библиотек.
# to install pandas library pip install pandas # to install numpy library pip install numpy
Если вы используете блокнот Jupyter, вы можете напрямую установить как pandas, так и numpy из самого блокнота. Введите приведенную ниже волшебную команду в ячейку блокнота Jupyter и нажмите CTRL+ENTER, чтобы запустить ячейку.
# to install pandas library !pip install pandas # to install numpy library !pip install numpy
Если вы используете среду Anaconda, вы можете обратиться к этой ссылке для процесса установки.
Теперь, когда у нас установлены pandas и numpy, давайте посмотрим на примеры создания фрейма данных pandas с использованием различных объектов python.
Создайте кадр данных pandas: из словаря
Постановка задачи. Предположим, у вас есть словарь элементов (где каждый ключ имеет собственное значение, хранящееся в виде списка), который вам по какой-то причине нужно преобразовать в кадр данных pandas, затем как это сделать?
Решение.Вы можете просто передать словарь в функцию pandas.DataFrame(), которая возвращает фрейм данных, где ключами словаря являются имена столбцов и словарные значения (хранящиеся в виде списка) в качестве соответствующих значений строки.
ПРИМЕЧАНИЕ. Если вы хотите изучить больше вариантов вышеуказанного решения, ознакомьтесь с этой Внешней ссылкой.
Создать кадр данных pandas: из списка
Постановка задачи. Предположим, у вас есть список элементов, которые по какой-то причине нужно преобразовать в фрейм данных pandas. Как это сделать?
Решение. Вы можете просто передать список в функцию pandas.DataFrame() и указатьимя столбца, используя "столбцы"параметр.
ПРИМЕЧАНИЕ. Если вы хотите изучить больше вариантов вышеуказанного решения, ознакомьтесь с этой Внешней ссылкой.
Создать кадр данных pandas: из списка списков
Постановка задачи. Предположим, у вас есть список, состоящий из нескольких списков в качестве элементов, которые по какой-то причине необходимо преобразовать в фрейм данных pandas. Как это сделать?
Решение. Назначьте все элементы списка как строки в кадре данных. ПРИМЕЧАНИЕ. Количество имен столбцов должно быть равно общему количеству списков, присутствующих в списке (здесь some_list).
Альтернативное решение.Назначьте все элементы списка как по столбцам во фрейме данных.
ПРИМЕЧАНИЕ. Если вы хотите изучить больше вариантов вышеуказанного решения, ознакомьтесь с этой Внешней ссылкой.
Создать кадр данных pandas: из списка словарей
Постановка проблемы.Предположим, у вас есть список, состоящий из нескольких словарей в качестве элементов, которые вам по какой-то причине нужно преобразовать в фрейм данных pandas. Как это сделать?
Решение.Метод DataFrame.from dict() в Pandas. Он строит DataFrame из словаря типа dict или array. Используя столбцы или индексы словаря и допуская объявление Dtype, он создает объект DataFrame.
ПРИМЕЧАНИЕ. Если вы хотите изучить больше вариантов вышеуказанного решения, ознакомьтесь с этой Внешней ссылкой.
Создать кадр данных pandas: из списка кортежей
Постановка проблемы.Предположим, у вас есть список, состоящий из нескольких кортежей в качестве элементов, которые по какой-то причине нужно преобразовать в фрейм данных pandas. Как это сделать?
Решение. Показанный здесь метод заключается в простой передаче кортежа в конструктор DataFrame.
ПРИМЕЧАНИЕ. Если вы хотите изучить больше вариантов вышеуказанного решения, ознакомьтесь с разделом Внешняя ссылка.
Создайте кадр данных pandas: из случайного пакета Numpy
Постановка задачи.Предположим, вы хотите по какой-то причине сгенерировать кадр данных с некоторыми случайными значениями, тогда как это сделать?
Решение:numpy.random.rand(4,8) сгенерирует объект numpy.ndarry, состоящий из 4 массивов, содержащих по 8 элементов в каждом из них. . Все сгенерированные значения абсолютно случайны, поэтому они будут меняться каждый раз, когда вы выполняете код. Или понять очень просто, в numpy.random.rand(4,8):
- 4: представляет количество строк
- 8: представляет количество столбцов
Просто передайте numpy.random.rand(4,8) в функцию pandas.DataFrame() с параметром columns в виде списка имен столбцов. Конечно, количество имен столбцов должно быть равно общему количеству столбцов.
ПРИМЕЧАНИЕ. Если вы хотите изучить больше вариантов вышеуказанного решения, ознакомьтесь с разделом Внешняя ссылка.
Заключение
В этом блоге я продемонстрировал, как вы можете создавать кадры данных pandas, используя различные объекты python, которые мы можем использовать несколькими способами для дальнейшего анализа данных.
Примечание автора:
Поскольку я планирую охватить весь жизненный цикл Data Science или рабочий процесс, в ближайшие недели будет опубликовано больше статей с простыми советами и рекомендациями. Эта серия статей или блогов (как бы вы это ни называли) будет полезна всем новичкам, которые хотят больше узнать о библиотеках, инструментах и методологиях, ежедневно используемых специалистом по данным. Моя главная цель — предоставить всю возможную информацию и ресурсы самым простым способом всем новичкам в науке о данных, которые хотят сделать свою карьеру в этой области.
Часть-2: Переименование столбцов
Как всегда, спасибо за внимание! Буду рад прочитать ваши ответы :)
Вы также можете связаться со мной через Linkedin.