pandas — это быстрый, мощный, гибкий и простой в использовании инструмент с открытым исходным кодом для анализа данных и обработки данных,
построенный на основе языка программирования Python, это самая популярная библиотека Python для работы с данными. анализ.
В этом руководстве я постараюсь охватить все важные детали того, как использовать pandas для создания, чтения и записи CSV-файлов.
Создание, чтение и запись:
Первым шагом в большинстве проектов по анализу данных является чтение файла данных, для этого нам нужно импортировать необходимые библиотеки.
import pandas as pd pd.set_option('max_rows', 5)
После импорта библиотеки pandas давайте сначала попробуем создать наш первый DataFrame.
DataFrame – это двумерная структура данных с метками, в которой столбцы могут быть разных типов. Вы можете думать об этом как об электронной таблице или таблице SQL или наборе объектов Series.
Конструктор pd.DataFrame используется для создания DataFrame, который принимает в качестве аргументов данные, индекс, столбцы и тип данных, например, скажем, мы хотим создать DataFrame, содержащий некоторые фрукты, он будет выглядеть так:
чтобы создать эту таблицу, мы должны создать одну строку и определить столбцы как яблоки и бананы, чтобы сделать это, мы запускаем ячейку ниже:
fruits = pd.DataFrame([[30,21]] , columns=["Apples","Bananas"]) # we can also create it using a dictionary fruits = pd.DataFrame({'Apples' : [30] , 'Bananas' : [21]})
Создать этот DataFrame было просто, давайте попробуем его немного настроить.
давайте сначала заменим этот индекс 0 чем-то более подходящим, скажем, продажей фруктов за определенный год, чтобы создать это, все, что нам нужно сделать, это заполнить аргумент индекса
fruit_sales = pd.DataFrame([[35,21],[41,34]] , columns=["Apples","Bananas"] , index=['2019 Sales' , '2020 Sales'])
Это почти все, что вам нужно знать, чтобы создать DataFrame, а теперь посмотрим, как создать Series.
Серия — это одномерный n-мерный массив с метками осей (включая временные ряды).
Чтобы создать серию, мы должны вызвать конструктор pandas.Series и передать ему данные, индекс и имя серии. Допустим, мы хотим создать серию, содержащую ингредиенты вашего любимого блюда, это будет выглядеть примерно так:
чтобы создать это, мы запускаем следующую ячейку:
ingredients = pd.Series(['4 cups' , '1 cup' , '2 large' , '1 can'] , index=['Flour','Milk','Eggs','Spam'] , name='Dinner')
Возможность создавать кадры данных или ряды вручную важна, но большую часть времени мы будем работать с данными, которые уже существуют, например, в файле csv (значения, разделенные запятыми), для этого нам нужно вызвать pandas. функция read_csv.
reviews = pd.read_csv("../input/wine-reviews/winemag-data_first150k.csv",index_col=0)
Аргумент index_col указывает pandas использовать определенный столбец в качестве индекса вместо создания столбца индекса по умолчанию.
Наконец, после завершения манипулирования DataFrame мы хотели бы сохранить его в файле csv, чтобы сделать это, мы используем функцию pandas.to_csv().
reviews.to_csv("new_name.csv"
)
Это было все для первой части этого руководства, я попытался охватить все способы, которые вам нужно знать для создания фреймов данных и серий с использованием панд.
в следующем Руководстве мы обсудим индексирование, выбор и назначение.