Если вы являетесь продвинутым пользователем Excel и планируете изучать Python, панды могут быть хорошим местом для начала.

Если вы не занимаетесь программированием и не имеете инженерного образования, поначалу изучение языка программирования может показаться немного пугающим. Python, будучи интерпретируемым языком высокого уровня, относительно прост в изучении благодаря интуитивно понятному и простому синтаксису. Но если вам трудно запомнить то, что вы узнали, и вы уже знакомы с базовым аналитическим инструментом, таким как Excel, вам может быть легко установить связь между тем, что вы уже знаете, и применением этих знаний к новому языку программирования, такому как python pandas.

Фрейм данных Pandas и их методы работают очень похоже на таблицы и функции Excel с гораздо большей мощностью. Вы можете думать о пандах как о запросе данных Excel о стероидах. Вы можете с помощью одной строки кода создавать сводки и просматривать природу переменных (подробнее об этом позже). Хотя это не будет учебник по кодированию, я хотел бы провести параллели с Excel и пандами, чтобы вы могли начать представлять, как использовать область, которую вы освоили, для изучения новых и похожих навыков.

Как только вы закончите с основами Python, которые вы можете изучить из нескольких ресурсов, таких как kaggle, coursera, datacamp, dataquest.io и stackoverflow и т. д., вам нужно приступить к выполнению задач, которые вы выполняли в Excel, используя pandas. Например, вы должны начать думать   — как мне выполнить суммирование категорий в пандах? (что можно выполнить с помощью СУММЕСЛИ в Excel). Изучив основы панд, вы можете приступить к изучению более сложных операций, таких как выбор, фильтрация и цепочка методов операций панд. Цепочка методов pandas снова может показаться очень похожей на вложенные функции в excel, но pandas гораздо более способна полностью преобразовать данные за один шаг, который в противном случае потребовал бы нескольких функций и создания дополнительных данных в excel. Excel также требует от вас создания вспомогательных столбцов и дополнительных фреймов данных/таблиц только для получения желаемых результатов.

В этом разделе я представляю простые примеры того, как вы можете начать формировать соединения из excel в pandas.

# generating some random data
#importing libraries
import pandas as pd
import numpy as np
np.random.seed(1) # will ensure you get the same number every time you run this code 
data = np.random.randint(0,100,size=(5, 4)) # creating some random data to pull into a pandas data frame
df = pd.DataFrame(data, columns = ['C1','C2','C3','C4']) # creating a pandas dataframe which could be thought as equivalent to an excel table
df

df.sum(axis=0) #equivalent to =SUM(of values along each column) in excel, if axis = 1 it will give sum of values in each row - horizontal sum

#selecting a single column in a dataframe
df['C1'] #selecting first column

#selecting a row
df.iloc[0,:] #selecting first row, pandas index starts from 0

#provide sum of rows after filtering the values >50 in each column
df[df>50].sum() #equivalent to =SUMIF(range=C1 column,criteria = '>50',sum_range = C1 column) and then dragging to all other columns

Если теперь вы хотите создать описательную статистику для всех данных, вы делаете это в одной строке кода в pandas, используя метод «.describe ()», который потребует от вас создания различных формул в Excel.

df.describe()

Вы можете дополнительно расширить сводную статистику и исследовательский анализ данных (EDA), используя профилирование панд, которое дает сводные графики, информацию по категориям и легко экспортируемый интерактивный отчет в формате html.

Краткое содержание:

То, что я показал, — это действительно базовые функции в Excel и эквивалентные им методы в pandas. Хитрость заключается в том, чтобы использовать знания, полученные в одном инструменте/языке, для изучения нового языка программирования. Вот несколько ключевых выводов

  • Возьмите простой набор данных, который вы проанализировали в Excel, или создайте его.
  • Экспортируйте необработанный набор данных из excel в pandas, используя pd.read_excel(‘filename’)
  • Воссоздайте все расчеты в pandas — google и stackoverflow — ваши лучшие друзья
  • Расширьте свой EDA, используя больше методов в pandas
  • После того, как вы почувствуете себя комфортно, перейдите к цепочке методов в pandas.

Наконец, я хотел бы поделиться ресурсами, которые помогли сделать переход:
- Анализ данных с помощью python (после того, как вы попробовали описанный выше метод) на LinkedIn Learning
- Обработка данных с пандами от Datacamp
- Полное, но простое руководство по переходу с Excel на Python Фрэнка Андраде по направлению datascience (tds) — еще одна красивая компиляция и сравнение между Excel и пандами с кодами и учебным пособием
Необоснованная эффективность Цепочка методов в Pandas от Adiamaan Keerthi на tds

Вы можете прочитать другие мои статьи здесь:

Нужна ли вам математика/статистика, чтобы быть успешным специалистом по данным?

Могут ли данные ЭЭГ помочь в клинической диагностике большого депрессивного расстройства (БДР)?

Пожалуйста, подпишитесь на меня, чтобы помочь и поощрить меня писать больше таких статей.
Приятного чтения!