Pandas Unleashed: швейцарский армейский нож аналитика данных

Группировать

df.groupby(Column Name/Names)

Метод Pandas groupby используется для группировки данных по категориям и применения функции к категориям. Это также помогает эффективно агрегировать данные. Если какая-либо агрегатная функция не предоставлена, она просто предоставит вам объект ‹pandas.core.groupby.generic.DataFrameGroupBy по адресу 0x7fd1d06656f0><. Агрегатные функции являются обязательными для метода goupby. Базовыми агрегатными функциями являются mean, min, max, sum, и first. Он также принимает 8 аргументов, но обязательным является by.

Сводная таблица и объединение

pd.pivot_table(data, index)
# data, values, index, columns, aggfunc, fill_value, margins, dropna
# margin_name, observed, sort

pd.melt(data, index)
# frame, id_vars, value_vars, var_name, value_name, col_name, ignore_index

Метод сводных таблиц Pandas предоставляет мощный инструмент для выполнения методов группировки, суммирования, агрегирования и расчета статистического анализа. Он работает очень похоже на те, которые можно найти в инструментах для работы с электронными таблицами, таких как Microsoft Excel. Он принимает несколько аргументов, из которых данные и индекс/столбцы являются обязательными.

Метод Pandas melt переводит кадр данных из широкоформатного в длинный формат. Эта функция полезна для преобразования кадра данных в формат, в котором один или несколько столбцов являются переменными-идентификаторами, в то время как все остальные столбцы, считающиеся измеряемыми переменными, «не поворачиваются» к оси строки, оставляя только два столбца без идентификатора: «переменная» и «переменная». 'ценить'. Он принимает 6 аргументов.

Присоединиться и объединить

df.join(second dataframe/series name)
# other, on, how, lsuffix, rsuffix, sort

df.merge(second dataframe/series name)
# right, how, on, left_on, right_on, left_index, right_index, sort
# suffixes, copy, indicator, validate

Метод join позволяет объединить два кадра данных или ряд в один на основе общего индекса или столбца. Он принимает 6 аргументов, из которых аргумент other является обязательным и принимает второй кадр данных или серию.

Метод merge очень похож на метод join. Этот метод объединяет два кадра данных или серию на основе общего столбца. Этот метод работает как соединение в стиле базы данных. Он принимает 12 аргументов, из них правый аргумент является обязательным и принимает в качестве значения кадр данных или серию.

Складывать и разбирать

df.stack()
# level, dropna

df.unstack()
# levels, fill_values

Метод stack используется для помещения данных на уровень строк из столбцов. Он вернет измененный кадр данных или серию, имеющую многоуровневый индекс с одним или несколькими новыми внутренними уровнями по сравнению с текущим кадром данных. Он принимает 2 аргумента, и оба являются необязательными.

Функция unstack в Pandas — это метод изменения формы фреймов данных. Это часть более крупной группы методов, которые используются для преобразования кадров данных между длинным и широким форматами. Этот метод также принимает 2 аргумента, и как метод стека оба являются необязательными.

Сумма, среднее и медиана

df.sum()
# axis, skipna, numeric_only, min_count

df.mean()
# axis, skipna, numeric_only

df.median()
# axis, skip_na, numeric_only

Как следует из названия, эти методы работают нормально. Метод sum вернет сумму всех числовых данных из кадра данных или серии, независимо от того, как они применяются. Этот метод принимает 4 аргумента.

Функция Pandasmean dataframe возвращает среднее значение значений для запрошенной оси. Если метод применяется к объекту серии pandas, то метод возвращает скалярное значение, которое является средним значением всех наблюдений в серии. Требуется 3 аргумента.

Функция Pandas dataframe median возвращает медиану значений для запрошенной оси. Если метод применяется к объекту серии pandas, то метод возвращает скалярное значение, которое является медианным значением всех наблюдений в серии. Он также принимает 3 аргумента.

Мин. и макс.

df.min()
# axis, skip_na, numeric_only

df.max()
# axis, skip_na, numeric_only

Функция Pandas dataframe min возвращает минимальное из значений в данном объекте. Если входные данные представляют собой серию, метод вернет скаляр, который будет минимальным из значений в серии. Он принимает 3 аргумента.

Функция Pandas dataframe max возвращает максимальное значение в данном объекте. Если входные данные представляют собой серию, метод вернет скаляр, который будет максимальным из значений в серии. Это также принимает 3 аргумента.

Сюжет

df.plot()
df.plot(kind='bar') # Create bar plots.
df.plot(kind='line') # Create line plots.
df.plot(kind='hist') # Create histograms.
df.plot(kind='scatter') # Create scatter plots.

Панды можно использовать как базовый инструмент визуализации. Мы можем визуализировать различные типы диаграмм, просто используя их без какой-либо другой библиотеки. Мы можем использовать параметры вида, чтобы изменить тип графика. Мы можем использовать оси x и y самостоятельно. Мы можем настроить диаграмму разными способами только с помощью панд.

Заключение

Pandas — это не просто инструмент; это меняет правила игры. Он позволяет аналитикам данных и ученым, как новичкам, так и опытным, использовать данные с точностью и изяществом. Удобный синтаксис, обширная документация и активная поддержка сообщества делают его доступным для всех. Это ключ, который раскрывает информацию, скрытую в ваших наборах данных, позволяя вам принимать обоснованные решения, обнаруживать тенденции и рассказывать убедительные истории, основанные на данных. Итак, очищаете ли вы беспорядочные данные, проводите исследовательский анализ или готовите набор данных для машинного обучения, Pandas вас поддержит. Это не просто инструмент; это благословение — упростить сложное и превратить данные в знания.

Не стесняйтесь оставлять свои мысли, вопросы или отзывы в комментариях ниже.

Pandas Unleashed: швейцарский армейский нож аналитика данных — Часть III

Заключение

Вопросы по теме