В этом блоге я буду писать обо всех основных вещах, которые вам нужно знать о Pandas, например о том, что такое Pandas, почему мы используем Pandas, приложениях Pandas, начале работы с Pandas и т. д.

Что такое панды?

Pandas — это библиотека с открытым исходным кодом, созданная в основном для простой и интуитивно понятной работы с реляционными или размеченными данными. Он предоставляет различные структуры данных и операции для обработки числовых данных и временных рядов. Эта библиотека построена на основе библиотеки NumPy. Pandas работает быстро и обладает высокой производительностью и производительностью для пользователей.

Почему мы используем Pandas?

Pandas имеет так много применений, что может иметь смысл перечислить то, что он не может сделать, вместо того, что он может сделать.

Этот инструмент, по сути, является домом для ваших данных. С помощью pandas вы знакомитесь со своими данными, очищая, преобразовывая и анализируя их.

Например, предположим, что вы хотите изучить набор данных, хранящийся в формате CSV на вашем компьютере. Pandas извлечет данные из этого CSV в DataFrame — в основном таблицу — а затем позволит вам делать такие вещи, как:

  • Рассчитайте статистику и ответьте на вопросы о данных, например
  • Каково среднее, медиана, максимальное или минимальное значение для каждого столбца?
  • Соответствует ли столбец A столбцу B?
  • Как выглядит распределение данных в столбце C?
  • Очистите данные, выполнив такие действия, как удаление пропущенных значений и фильтрация строк или столбцов по некоторым критериям.
  • Визуализируйте данные с помощью Matplotlib. Нарисуйте столбцы, линии, гистограммы, пузырьки и многое другое.
  • Сохраняйте очищенные, преобразованные данные обратно в CSV, другой файл или базу данных.

Приложения Pandas

1. Экономика

Экономика постоянно нуждается в анализе данных. Анализ данных для формирования закономерностей и понимания тенденций роста экономики в различных секторах очень важен для экономистов. Поэтому многие экономисты начали использовать Python и Pandas для анализа огромных наборов данных. Pandas предоставляет полный набор инструментов, таких как фреймы данных и обработка файлов. Эти инструменты очень помогают в доступе к данным и манипулировании ими для получения желаемых результатов. Благодаря этим приложениям Pandas экономисты всего мира смогли совершить прорыв, как никогда раньше.

2. Системы рекомендаций

Мы все использовали Spotify или Netflix и были потрясены блестящими рекомендациями, предоставленными этими сайтами. Эти системы — чудо глубокого обучения. Такие модели предоставления рекомендаций — одно из важнейших приложений Pandas. В основном эти модели сделаны на python, а Pandas являются основными библиотеками python, используемыми при обработке данных в таких моделях. Мы знаем, что Pandas лучше всего подходят для управления огромными объемами данных. А рекомендательная система возможна только при обучении и обработке огромных массивов данных. Такие функции, как groupBy и отображение, чрезвычайно помогают сделать эти системы возможными.

3. Прогноз акций

Фондовый рынок чрезвычайно волатилен. Однако это не означает, что его нельзя предсказать. С помощью Pandas и нескольких других библиотек, таких как NumPy и matplotlib, мы можем легко создавать модели, которые могут предсказывать, как разворачиваются фондовые рынки. Это возможно, потому что есть много предыдущих данных об акциях, которые говорят нам о том, как они себя ведут. И, изучая эти данные об акциях, модель может легко предсказать следующее движение с некоторой точностью. Не только это, но люди также могут автоматизировать покупку и продажу акций с помощью таких моделей прогнозирования.

4. Неврология

Понимание нервной системы всегда было в умах человечества, потому что есть много потенциальных загадок о наших телах, которые мы еще не разгадали. Машинное обучение очень помогло в этой области с помощью различных приложений Pandas. Опять же, возможности Pandas по обработке данных сыграли важную роль в сборе огромного количества данных, которые помогли нейробиологам понять тенденции, которые следуют внутри нашего тела, и влияние различных вещей на всю нашу нервную систему.

5. Статистика

Сама чистая математика значительно продвинулась вперед с различными приложениями Pandas. Поскольку Statistic имеет дело с большим количеством данных, такая библиотека, как Pandas, которая занимается обработкой данных, помогла во многих отношениях. Функции среднего, медианы и моды — это самые основные функции, которые помогают выполнять статистические расчеты. Есть много других сложных функций, связанных со статистикой, и панды играют в них огромную роль, чтобы добиться идеальных результатов.

Чтобы узнать больше о приложениях, перейдите по ссылке ниже -



Начало работы с пандами

Настройка и установка

Прежде чем мы перейдем к коду для понимания функций Pandas, давайте установим Pandas в вашей системе.

Установить Панды

пип установить панды

Блокнот Юпитера

Если вы изучаете Pandas, я бы посоветовал вам погрузиться и использовать блокнот Jupyter для того же. Визуализация данных в блокнотах Jupyter упрощает понимание того, что происходит на каждом этапе.

pip установить jupyter
блокнот jupyter

Пример данных

Здесь я использую простые данные о занятости в бизнесе. Он состоит из значений данных для каждого сотрудника и заполненных вакансий в определенной области области. Ниже приведена ссылка, по которой вы можете скачать CSV-файл.

https://www.stats.govt.nz/assets/Uploads/Business-employment-data/Business-employment-data-September-2020-quarter/Download-data/business-employment-data-september-2020-quarter -csv.zip

Загрузить данные в Pandas

С Pandas мы можем загружать данные из разных источников. Некоторые из них загружаются из CSV или удаленного URL. Загруженные данные хранятся в структуре данных Pandas под названием DataFrame. DataFrame обычно упоминаются по имени переменной df . Итак, каждый раз, когда вы видите df отсюда, вы должны ассоциировать его с Dataframe.

Загрузить данные в Pandas

С Pandas мы можем загружать данные из разных источников. Немногие из них загружаются из CSV или удаленного URL-адреса или из базы данных. Загруженные данные хранятся в структуре данных Pandas под названием DataFrame. DataFrame обычно упоминаются по имени переменной df . Итак, каждый раз, когда вы видите df отсюда, вы должны ассоциировать его с Dataframe.

Из CSV-файла

import pandas
df = pandas.read_csv("path_to_csv")

С удаленного URL-адреса

Вы можете передать удаленный URL-адрес в файл CSV в read_csv.

import pandas
df = pandas.read_csv("remote/url/path/pointing/to/csv")

Каждый из приведенных выше фрагментов считывает данные из источника и загружает их во внутреннюю структуру данных Pandas под названием DataFrame.

Понимание данных

Теперь, когда у нас есть готовый Dataframe, давайте пройдемся по нему и поймем, что внутри него.

# 1. shows you a gist of the data
df.head()
# 2. Some statistical information about your data
df.describe()
# 3. List of columns headers
df.columns.values

Выберите и выберите свои данные

Теперь, когда мы загрузили наши данные в DataFrame и поняли его структуру, давайте выберем и выполним визуализацию данных.

Выбор столбцов

# 1. Create a list of columns to be selected
columns_to_be_selected = ["Data_value", "Series_title_1", "Series_title_1"]
# 2. Use it as an index to the DataFrame
df[columns_to_be_selected]
# 3. Using loc method
df.loc[columns_to_be_selected]

Выбор строк

В отличие от столбцов, наш текущий DataFrame не имеет метки, которую мы можем использовать для ссылки на данные строки. Но, как и массивы, DataFrame по умолчанию обеспечивает числовое индексирование (0, 1, 2…).

# 1. using numerical indexes - iloc
df.iloc[0:3, :]
# 2. using labels as index - loc
row_index_to_select = [0, 1, 4, 5]
df.loc[row_index_to_select]

Группировка

Статистические операции

Вы можете выполнять статистические операции, такие как минимум, максимум, среднее и т. Д., Над одним или несколькими столбцами фрейма данных.

df["Data_value"].sum()
df["Data_value"].mean()
df["Data_value"].min()
df["Data_value"].max()
df["Data_value"].median()
df["Data_value"].mode()

Теперь в реальном приложении необработанное использование этих статистических функций редко, часто вам может понадобиться сгруппировать данные на основе определенных параметров и получить суть данных.

Также может быть несколько полей, таких как значение данных, и мы должны выполнять операции с обоими полями. Это легко сделать, если вы выполнили последнюю операцию.

Для получения дополнительной информации и операций на панде вы можете перейти по ссылке ниже. Также вы найдете несколько удивительных примеров из реальной жизни.



Вот мой блокнот Jupyter Notebook, вы можете найти ссылки на него.



Я постарался предоставить всю важную информацию о пандах для начинающих. Надеюсь, вы найдете здесь что-то полезное. Спасибо, что дочитали до конца. И если вам нравится мой блог, пожалуйста, нажмите кнопку хлопка ниже. Дайте мне знать, если мой блог был действительно полезен.