В этой главе мы познакомим вас с библиотекой pandas и рассмотрим некоторые из ее ключевых возможностей и функций для работы со структурированными данными в Python.
Что такое панды?
pandas — это библиотека с открытым исходным кодом для обработки и анализа данных в Python. Он построен на основе NumPy, библиотеки для числовых вычислений, и предоставляет широкий спектр возможностей и функций для работы со структурированными данными.
pandas особенно полезен для науки о данных, поскольку он позволяет легко манипулировать, очищать и анализировать данные из различных источников, включая базы данных CSV, Excel и SQL. Он также предоставляет удобные функции для визуализации данных с помощью графиков и диаграмм, а также для выполнения статистического анализа.
Установка и настройка
Чтобы использовать pandas, вам нужно установить библиотеку с помощью pip
, менеджера пакетов Python. Откройте терминал или командную строку и введите следующую команду:
pip install pandas
Это установит последнюю версию pandas в вашей системе.
После установки pandas вы можете импортировать его в свой скрипт Python или блокнот Jupyter, используя следующий оператор импорта:
import pandas as pd
Это приведет к импорту библиотеки pandas
и присвоению ей псевдонима pd
, что является общепринятым соглашением в сообществе Python.
Импорт других библиотек
В дополнение к pandas вам также может понадобиться импортировать другие библиотеки для обработки и анализа данных, такие как NumPy и matplotlib. Вы можете сделать это, используя следующие операторы импорта:
import numpy as np import matplotlib.pyplot as plt
NumPy — это мощная библиотека для числовых вычислений на Python, которая используется pandas для многих своих вычислений. matplotlib — это библиотека для создания графиков и диаграмм, которая часто используется вместе с pandas для визуализации данных.
Чтение данных из файлов CSV, Excel и других форматов
Одним из наиболее распространенных способов хранения данных является файл с разделителями-запятыми (CSV), который представляет собой обычный текстовый файл, содержащий табличные данные, организованные в строки и столбцы. pandas предоставляет функцию read_csv()
для чтения файлов CSV в кадр данных pandas:
import pandas as pd # Read the CSV file into a pandas DataFrame df = pd.read_csv('data.csv')
Это прочитает CSV-файл data.csv
в pandas DataFrame, который представляет собой двухмерную табличную структуру данных со строками и столбцами. Затем вы можете получить доступ к данным и управлять ими, используя различные функции и методы pandas.
pandas также предоставляет функции для чтения других форматов файлов, таких как Excel, JSON и SQL. Например, вы можете использовать функцию read_excel()
для чтения файла Excel в кадр данных pandas:
import pandas as pd # Read an Excel file into a pandas DataFrame df = pd.read_excel('data.xlsx')
Вы можете найти полный список функций чтения файлов pandas в документации.
Чтение данных из баз данных и веб-API
Помимо чтения данных из локальных файлов, pandas также предоставляет функции для чтения данных из баз данных и веб-API. Например, вы можете использовать функцию read_sql()
для чтения данных из базы данных SQL в DataFrame pandas:
import pandas as pd import sqlite3 # Connect to the database conn = sqlite3.connect('database.db') # Read data from the 'employees' table into a pandas DataFrame df = pd.read_sql('SELECT * FROM employees', conn)
Чтобы прочитать данные из веб-API, вы можете использовать библиотеку requests
для выполнения HTTP-запросов и функцию json()
для анализа данных ответа в словаре Python. Затем вы можете передать словарь конструктору pandas DataFrame()
для создания DataFrame:
import pandas as pd import requests # Make a GET request to the API response = requests.get('https://api.example.com/employees') # Parse the JSON response data into a Python dictionary data = response.json() # Create a pandas DataFrame from the dictionary df = pd.DataFrame(data)
Запись данных в CSV, Excel и другие форматы файлов
Помимо чтения данных, pandas также предоставляет функции для записи данных в различные форматы файлов. Например, вы можете использовать метод to_csv()
для записи кадра данных pandas в файл CSV:
# Read a CSV file into a pandas DataFrame df = pd.read_csv('data.csv') # Write the Data
Я надеюсь, что это поможет вам начать изучение данных о пандах.
В QBurst мы обладаем обширным опытом в создании масштабируемых и устойчивых рабочих нагрузок машинного обучения с использованием инструментов распределенных вычислений, таких как Azure Databricks. Если вы хотите узнать больше о наших возможностях в этой области, пожалуйста, не стесняйтесь обращаться к нам здесь.
Я надеюсь, что эта информация будет полезной! Дайте мне знать, если у вас есть какие-либо вопросы или вам нужна дополнительная помощь в вашем путешествии по науке о данных. Свяжитесь со мной в LinkedIn.