• Группировать
df.groupby(Column Name/Names)

Метод Pandas groupby используется для группировки данных по категориям и применения функции к категориям. Это также помогает эффективно агрегировать данные. Если какая-либо агрегатная функция не предоставлена, она просто предоставит вам объект ‹pandas.core.groupby.generic.DataFrameGroupBy по адресу 0x7fd1d06656f0><. Агрегатные функции являются обязательными для метода goupby. Базовыми агрегатными функциями являются mean, min, max, sum, и first. Он также принимает 8 аргументов, но обязательным является by.

  • Сводная таблица и объединение
pd.pivot_table(data, index)
# data, values, index, columns, aggfunc, fill_value, margins, dropna
# margin_name, observed, sort

pd.melt(data, index)
# frame, id_vars, value_vars, var_name, value_name, col_name, ignore_index

Метод сводных таблиц Pandas предоставляет мощный инструмент для выполнения методов группировки, суммирования, агрегирования и расчета статистического анализа. Он работает очень похоже на те, которые можно найти в инструментах для работы с электронными таблицами, таких как Microsoft Excel. Он принимает несколько аргументов, из которых данные и индекс/столбцы являются обязательными.

Метод Pandas melt переводит кадр данных из широкоформатного в длинный формат. Эта функция полезна для преобразования кадра данных в формат, в котором один или несколько столбцов являются переменными-идентификаторами, в то время как все остальные столбцы, считающиеся измеряемыми переменными, «не поворачиваются» к оси строки, оставляя только два столбца без идентификатора: «переменная» и «переменная». 'ценить'. Он принимает 6 аргументов.

  • Присоединиться и объединить
df.join(second dataframe/series name)
# other, on, how, lsuffix, rsuffix, sort

df.merge(second dataframe/series name)
# right, how, on, left_on, right_on, left_index, right_index, sort
# suffixes, copy, indicator, validate

Метод join позволяет объединить два кадра данных или ряд в один на основе общего индекса или столбца. Он принимает 6 аргументов, из которых аргумент other является обязательным и принимает второй кадр данных или серию.

Метод merge очень похож на метод join. Этот метод объединяет два кадра данных или серию на основе общего столбца. Этот метод работает как соединение в стиле базы данных. Он принимает 12 аргументов, из них правый аргумент является обязательным и принимает в качестве значения кадр данных или серию.

  • Складывать и разбирать
df.stack()
# level, dropna

df.unstack()
# levels, fill_values

Метод stack используется для помещения данных на уровень строк из столбцов. Он вернет измененный кадр данных или серию, имеющую многоуровневый индекс с одним или несколькими новыми внутренними уровнями по сравнению с текущим кадром данных. Он принимает 2 аргумента, и оба являются необязательными.

Функция unstack в Pandas — это метод изменения формы фреймов данных. Это часть более крупной группы методов, которые используются для преобразования кадров данных между длинным и широким форматами. Этот метод также принимает 2 аргумента, и как метод стека оба являются необязательными.

  • Сумма, среднее и медиана
df.sum()
# axis, skipna, numeric_only, min_count

df.mean()
# axis, skipna, numeric_only

df.median()
# axis, skip_na, numeric_only

Как следует из названия, эти методы работают нормально. Метод sum вернет сумму всех числовых данных из кадра данных или серии, независимо от того, как они применяются. Этот метод принимает 4 аргумента.

Функция Pandasmean dataframe возвращает среднее значение значений для запрошенной оси. Если метод применяется к объекту серии pandas, то метод возвращает скалярное значение, которое является средним значением всех наблюдений в серии. Требуется 3 аргумента.

Функция Pandas dataframe median возвращает медиану значений для запрошенной оси. Если метод применяется к объекту серии pandas, то метод возвращает скалярное значение, которое является медианным значением всех наблюдений в серии. Он также принимает 3 аргумента.

  • Мин. и макс.
df.min()
# axis, skip_na, numeric_only

df.max()
# axis, skip_na, numeric_only

Функция Pandas dataframe min возвращает минимальное из значений в данном объекте. Если входные данные представляют собой серию, метод вернет скаляр, который будет минимальным из значений в серии. Он принимает 3 аргумента.

Функция Pandas dataframe max возвращает максимальное значение в данном объекте. Если входные данные представляют собой серию, метод вернет скаляр, который будет максимальным из значений в серии. Это также принимает 3 аргумента.

  • Сюжет
df.plot()
df.plot(kind='bar') # Create bar plots.
df.plot(kind='line') # Create line plots.
df.plot(kind='hist') # Create histograms.
df.plot(kind='scatter') # Create scatter plots.

Панды можно использовать как базовый инструмент визуализации. Мы можем визуализировать различные типы диаграмм, просто используя их без какой-либо другой библиотеки. Мы можем использовать параметры вида, чтобы изменить тип графика. Мы можем использовать оси x и y самостоятельно. Мы можем настроить диаграмму разными способами только с помощью панд.

Заключение

Pandas — это не просто инструмент; это меняет правила игры. Он позволяет аналитикам данных и ученым, как новичкам, так и опытным, использовать данные с точностью и изяществом. Удобный синтаксис, обширная документация и активная поддержка сообщества делают его доступным для всех. Это ключ, который раскрывает информацию, скрытую в ваших наборах данных, позволяя вам принимать обоснованные решения, обнаруживать тенденции и рассказывать убедительные истории, основанные на данных. Итак, очищаете ли вы беспорядочные данные, проводите исследовательский анализ или готовите набор данных для машинного обучения, Pandas вас поддержит. Это не просто инструмент; это благословение — упростить сложное и превратить данные в знания.

Не стесняйтесь оставлять свои мысли, вопросы или отзывы в комментариях ниже.