pandas — это быстрый, мощный, гибкий и простой в использовании инструмент с открытым исходным кодом для анализа данных и обработки данных,
построенный на основе языка программирования Python, это самая популярная библиотека Python для работы с данными. анализ.

В этом руководстве я постараюсь охватить все важные детали того, как использовать pandas для создания, чтения и записи CSV-файлов.

Создание, чтение и запись:

Первым шагом в большинстве проектов по анализу данных является чтение файла данных, для этого нам нужно импортировать необходимые библиотеки.

import pandas as pd
pd.set_option('max_rows', 5)

После импорта библиотеки pandas давайте сначала попробуем создать наш первый DataFrame.

DataFrame – это двумерная структура данных с метками, в которой столбцы могут быть разных типов. Вы можете думать об этом как об электронной таблице или таблице SQL или наборе объектов Series.

Конструктор pd.DataFrame используется для создания DataFrame, который принимает в качестве аргументов данные, индекс, столбцы и тип данных, например, скажем, мы хотим создать DataFrame, содержащий некоторые фрукты, он будет выглядеть так:

чтобы создать эту таблицу, мы должны создать одну строку и определить столбцы как яблоки и бананы, чтобы сделать это, мы запускаем ячейку ниже:

fruits = pd.DataFrame([[30,21]] , columns=["Apples","Bananas"])
# we can also create it using a dictionary 
fruits = pd.DataFrame({'Apples' : [30] , 'Bananas' : [21]})

Создать этот DataFrame было просто, давайте попробуем его немного настроить.

давайте сначала заменим этот индекс 0 чем-то более подходящим, скажем, продажей фруктов за определенный год, чтобы создать это, все, что нам нужно сделать, это заполнить аргумент индекса

fruit_sales = pd.DataFrame([[35,21],[41,34]] , columns=["Apples","Bananas"] , index=['2019 Sales' , '2020 Sales'])

Это почти все, что вам нужно знать, чтобы создать DataFrame, а теперь посмотрим, как создать Series.

Серия — это одномерный n-мерный массив с метками осей (включая временные ряды).

Чтобы создать серию, мы должны вызвать конструктор pandas.Series и передать ему данные, индекс и имя серии. Допустим, мы хотим создать серию, содержащую ингредиенты вашего любимого блюда, это будет выглядеть примерно так:

чтобы создать это, мы запускаем следующую ячейку:

ingredients = pd.Series(['4 cups' , '1 cup' , '2 large' , '1 can'] , index=['Flour','Milk','Eggs','Spam'] , name='Dinner')

Возможность создавать кадры данных или ряды вручную важна, но большую часть времени мы будем работать с данными, которые уже существуют, например, в файле csv (значения, разделенные запятыми), для этого нам нужно вызвать pandas. функция read_csv.

reviews = pd.read_csv("../input/wine-reviews/winemag-data_first150k.csv",index_col=0)

Аргумент index_col указывает pandas использовать определенный столбец в качестве индекса вместо создания столбца индекса по умолчанию.

Наконец, после завершения манипулирования DataFrame мы хотели бы сохранить его в файле csv, чтобы сделать это, мы используем функцию pandas.to_csv().

reviews.to_csv("new_name.csv")

Это было все для первой части этого руководства, я попытался охватить все способы, которые вам нужно знать для создания фреймов данных и серий с использованием панд.

в следующем Руководстве мы обсудим индексирование, выбор и назначение.