Если вы являетесь продвинутым пользователем Excel и планируете изучать Python, панды могут быть хорошим местом для начала.
Если вы не занимаетесь программированием и не имеете инженерного образования, поначалу изучение языка программирования может показаться немного пугающим. Python, будучи интерпретируемым языком высокого уровня, относительно прост в изучении благодаря интуитивно понятному и простому синтаксису. Но если вам трудно запомнить то, что вы узнали, и вы уже знакомы с базовым аналитическим инструментом, таким как Excel, вам может быть легко установить связь между тем, что вы уже знаете, и применением этих знаний к новому языку программирования, такому как python pandas.
Фрейм данных Pandas и их методы работают очень похоже на таблицы и функции Excel с гораздо большей мощностью. Вы можете думать о пандах как о запросе данных Excel о стероидах. Вы можете с помощью одной строки кода создавать сводки и просматривать природу переменных (подробнее об этом позже). Хотя это не будет учебник по кодированию, я хотел бы провести параллели с Excel и пандами, чтобы вы могли начать представлять, как использовать область, которую вы освоили, для изучения новых и похожих навыков.
Как только вы закончите с основами Python, которые вы можете изучить из нескольких ресурсов, таких как kaggle, coursera, datacamp, dataquest.io и stackoverflow и т. д., вам нужно приступить к выполнению задач, которые вы выполняли в Excel, используя pandas. Например, вы должны начать думать — как мне выполнить суммирование категорий в пандах? (что можно выполнить с помощью СУММЕСЛИ в Excel). Изучив основы панд, вы можете приступить к изучению более сложных операций, таких как выбор, фильтрация и цепочка методов операций панд. Цепочка методов pandas снова может показаться очень похожей на вложенные функции в excel, но pandas гораздо более способна полностью преобразовать данные за один шаг, который в противном случае потребовал бы нескольких функций и создания дополнительных данных в excel. Excel также требует от вас создания вспомогательных столбцов и дополнительных фреймов данных/таблиц только для получения желаемых результатов.
В этом разделе я представляю простые примеры того, как вы можете начать формировать соединения из excel в pandas.
# generating some random data #importing libraries import pandas as pd import numpy as np np.random.seed(1) # will ensure you get the same number every time you run this code data = np.random.randint(0,100,size=(5, 4)) # creating some random data to pull into a pandas data frame df = pd.DataFrame(data, columns = ['C1','C2','C3','C4']) # creating a pandas dataframe which could be thought as equivalent to an excel table df
df.sum(axis=0) #equivalent to =SUM(of values along each column) in excel, if axis = 1 it will give sum of values in each row - horizontal sum
#selecting a single column in a dataframe df['C1'] #selecting first column
#selecting a row df.iloc[0,:] #selecting first row, pandas index starts from 0
#provide sum of rows after filtering the values >50 in each column df[df>50].sum() #equivalent to =SUMIF(range=C1 column,criteria = '>50',sum_range = C1 column) and then dragging to all other columns
Если теперь вы хотите создать описательную статистику для всех данных, вы делаете это в одной строке кода в pandas, используя метод «.describe ()», который потребует от вас создания различных формул в Excel.
df.describe()
Вы можете дополнительно расширить сводную статистику и исследовательский анализ данных (EDA), используя профилирование панд, которое дает сводные графики, информацию по категориям и легко экспортируемый интерактивный отчет в формате html.
Краткое содержание:
То, что я показал, — это действительно базовые функции в Excel и эквивалентные им методы в pandas. Хитрость заключается в том, чтобы использовать знания, полученные в одном инструменте/языке, для изучения нового языка программирования. Вот несколько ключевых выводов
- Возьмите простой набор данных, который вы проанализировали в Excel, или создайте его.
- Экспортируйте необработанный набор данных из excel в pandas, используя pd.read_excel(‘filename’)
- Воссоздайте все расчеты в pandas — google и stackoverflow — ваши лучшие друзья
- Расширьте свой EDA, используя больше методов в pandas
- После того, как вы почувствуете себя комфортно, перейдите к цепочке методов в pandas.
Наконец, я хотел бы поделиться ресурсами, которые помогли сделать переход:
- Анализ данных с помощью python (после того, как вы попробовали описанный выше метод) на LinkedIn Learning
- Обработка данных с пандами от Datacamp
- Полное, но простое руководство по переходу с Excel на Python Фрэнка Андраде по направлению datascience (tds) — еще одна красивая компиляция и сравнение между Excel и пандами с кодами и учебным пособием
— Необоснованная эффективность Цепочка методов в Pandas от Adiamaan Keerthi на tds
Вы можете прочитать другие мои статьи здесь:
Нужна ли вам математика/статистика, чтобы быть успешным специалистом по данным?
Могут ли данные ЭЭГ помочь в клинической диагностике большого депрессивного расстройства (БДР)?
Пожалуйста, подпишитесь на меня, чтобы помочь и поощрить меня писать больше таких статей.
Приятного чтения!