Должен знать функции библиотеки pandas в python

Pandas — это библиотека на Python, упрощающая работу с наборами данных. Он предоставляет инструменты для организации, анализа и очистки наборов данных. Это помогает нам сортировать, фильтровать и производить вычисления с этими данными, чтобы мы могли получить необходимую информацию.

Pandas широко используется в проектах по анализу данных и науке о данных. Это мощный и простой инструмент для работы с данными, что делает его популярным среди ученых и аналитиков данных.

В этой статье мы рассмотрим некоторые функции в библиотеке pandas, которые широко используются для анализа данных и обработки данных.

Давайте начнем!

1. read_csv()

Эта функция читает CSV-файл и преобразует его во фрейм данных pandas. Эта функция принимает имя файла в качестве аргумента и возвращает фрейм данных.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

Фрейм данных представляет данные в файле CSV в табличном формате со строками и столбцами.

2. голова ()

Эта функция используется для отображения первых n строк фрейма данных. Эта функция принимает необязательный аргумент «n», который указывает количество возвращаемых строк, значение по умолчанию для n равно 5.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.head()

Эта функция полезна, когда мы хотим быстро просмотреть данные, не отображая весь фрейм данных.

3. хвост ()

Эта функция отображает последние n строки фрейма данных. Эта функция также принимает необязательный аргумент «n», который указывает количество возвращаемых строк, значение по умолчанию для n равно 5.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.tail()

4. описать()

Эта функция describe() используется для создания описательной статистики числовых столбцов во фрейме данных.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.describe()

Он возвращает новый фрейм данных, который содержит различные сводные статистические данные, такие как среднее значение, стандартное отклонение, минимум, максимум и т. д., для всех числовых столбцов в исходном фрейме данных.

5. столбцы

Этот атрибут columns используется для получения имен столбцов во фрейме данных.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.columns

Этот атрибут возвращает объект Index, который можно использовать для получения имен столбцов фрейма данных.

6. информация ()

Эта функция info() используется для быстрого обзора фрейма данных, включая количество строк, столбцов и типы данных каждого столбца.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.info()

Эта функция возвращает количество ненулевых записей в каждом столбце и типы данных каждого столбца. Это может помочь нам понять структуру данных и проверить правильность типов данных столбцов.

7. loc[] и iloc[]

Они используются для индексации кадров данных. loc[] используется для доступа к группе строк и столбцов по меткам или логическому массиву.

iloc[] используется для доступа к группе строк и столбцов по позиции индекса.

Пример:

# Example of using loc
df.loc[:, 'column_name']  # returns all rows of a specific column
df.loc[:, ['column1', 'column2']]  # returns all rows of multiple specific columns

# Example of using iloc
df.iloc[:, 0]  # returns all rows of the first column
df.iloc[:, 0:2]  # returns all rows of the first two columns

Оба эти метода индексации полезны для выбора определенных строк и столбцов из фрейма данных, но loc[] основан на метках фрейма данных, а iloc[] основан на позициях индекса фрейма данных.

8. sort_values()

Эта функция используется для сортировки фрейма данных по одному или нескольким столбцам. Эта функция принимает необязательный аргумент by, который указывает столбцы для сортировки, и необязательный аргумент «по возрастанию», который является логическим и указывает, должен ли порядок сортировки быть восходящим или нисходящим.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.sort_values(by='column_name')

Эта функция возвращает новый фрейм данных, отсортированный по указанным столбцам.

9. группировать()

Эта функция groupby() используется для группировки строк фрейма данных по одному или нескольким столбцам и выполнения различных операций с сгруппированными данными.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.groupby('column_name').mean()

Эта функция принимает одно или несколько имен столбцов в качестве аргументов и группирует фрейм данных по указанным столбцам. После этого его можно использовать с различными функциями агрегирования, такими как среднее значение, сумма, количество и т. д.

10. падение ()

Эта функция drop() используется для удаления одной или нескольких строк или столбцов из фрейма данных.

Пример:

import pandas as pd
df = pd.read_csv('data.csv')

df.drop(columns=['column_name'])  # drops a specific column from the DataFrame

Эта функция принимает аргумент columns или index, который используется для указания удаляемых столбцов или строк. Он возвращает новый фрейм данных с удаленными указанными столбцами или строками.

Заключение

Это все из этой статьи. В этой статье мы обсудили некоторые из наиболее полезных функций библиотеки pandas для обработки и анализа данных.

Надеюсь, вам понравилось. Спасибо за прочтение!

Прежде чем ты уйдешь…

Если вам понравилась эта статья и вы хотите оставаться в курсе, чтобы не пропустить новые захватывающие статьи — подумайте о том, чтобы стать участником среды, используя мою реферальную ссылку: https://pralabhsaxena.medium.com. /членство».

Повышение уровня кодирования

Спасибо, что являетесь частью нашего сообщества! Перед тем, как ты уйдешь:

  • 👏 Хлопайте за историю и подписывайтесь на автора 👉
  • 📰 Смотрите больше контента в публикации Level Up Coding
  • 🔔 Подписывайтесь на нас: Twitter | ЛинкедИн | "Новостная рассылка"

🚀👉 Присоединяйтесь к коллективу талантов Level Up и найдите прекрасную работу