Panda считывает данные из файлов csv, txt, excel и других форматов

Что такое панды?

Pandas - это библиотека Python, содержащая множество возможностей и конкретных информационных структур, которые были предназначены для помощи разработчикам Python в организованном выполнении поручений по проверке информации.

Импорт данных - самый фундаментальный и абсолютный начальный этап в любой работе, связанной с информацией. Способность точно импортировать информацию является обязательным навыком для каждого специалиста по данным.

Данные существуют во многих различных формах, и мы должны не только знать, как импортировать различные форматы данных, но и как анализировать данные и манипулировать ими, чтобы делать выводы.

Большинство вещей, которые должны делать панды, могут быть возможны с помощью фундаментального Python, но собранная компоновка возможностей панд и информационной структуры делает задания по проверке информации более надежными с точки зрения пунктуации и, таким образом, способствует удобочитаемости.

Конкретные основные моменты панд, которые мы рассмотрим в связи с этим, и несколько сцен включают в себя:

  • Чтение информации, хранящейся в документах CSV
  • Нарезка и подмножество информации в фреймах данных (таблицах!)
  • Работа с недостающей информацией
  • Изменение формы информации (длинный → широкий, широкий → длинный)
  • Вставка и удаление столбцов из структур данных
  • Объединение наборов данных (после того, как они были объединены в Dataframes)

Если вы спрашиваете, почему я составляю панды со строчной буквой «p», потому что это имя пакета, а Python чувствителен к регистру.

Давайте теперь посмотрим, как panda считывает данные из файлов csv, txt, excel и других форматов:

1. Загрузите файлы CSV.

Файл CSV (значения, разделенные запятыми) - это распространенный формат файлов для передачи и хранения данных.

Способность читать, записывать и обрабатывать данные в CSV-документы и из них с использованием Python является жизненно важной компетенцией для любого специалиста по данным или бизнес-аналитика.

Существенное взаимодействие по загрузке данных из CSV-документа в Pandas DataFrame (со всей проработкой в ​​хорошем смысле) осуществляется с использованием работы «read_csv» в Pandas.

# Loading the Pandas library with the alias as 'pd'  
import pandas as pd  
# Read data from file 'test.csv'   
data = pd.read_csv("Test.csv")  
# Check the first 5 lines of the loaded data  
data.head(5)

Как должно быть очевидно, read_csv принимает первую строку в качестве имен столбцов. Столбцам можно дать разные имена. По этой причине нам нужно пропустить первую строку, установив для параметра «header» значение 0, и нам нужно назначить список столбцов с именами столбцов.

С положительной стороны:

  • Формат CSV широко распространен, и информацию можно накапливать практически любым программным обеспечением.
  • Записи CSV просты для понимания и устранения неполадок с помощью основного текстового редактора.
  • Записи CSV можно быстро создать и загрузить в память перед анализом.

2. Чтение файлов Excel

Чтобы прочитать файл Excel, нам нужно использовать read_excel.

# Read data from file 'filename.csv'
train2 = pd.read_excel("Train_BigMart.xlsx")
# Check the first 5 lines of the loaded data
train2.head(5)

Если документ BigMart.xlsx содержит два листа, мы можем прочитать их, используя тот же read_excel. Полный документ Excel, который может состоять из множества листов, можно прочитать так:

#Reading Multiple sheets of excel
Excel = pd.ExcelFile("Train_Test_BigMart.xlsx")
# Creating two different data frames for the Excel files
df1 = pd.read_excel(Excel,"Train_BigMart")
df2 = pd.read_excel(Excel,"Test_BigMart")
# Preview the first 5 lines of the loaded data (sheet 1 - df1)
df1.head(5)

# Check the first 5 lines of the loaded data (sheet 2 - df2)

df2.head(5)

Во время вызова ExcelFile () загружается весь файл Excel. Это просто избавляет нас от необходимости читать один и тот же файл каждый раз, когда мы хотим получить доступ к новому листу.

3. Чтение JSON

Запись JSON - это документ, в котором хранятся простые структуры данных и объекты в формате JavaScript Object Notation (JSON). это стандартный дизайн обмена информацией. Он используется для передачи информации между веб-приложением и работником. Документы JSON легкие, основанные на тексте, удобные для пользователя и могут быть изменены с помощью текстового редактора.

Чтобы прочитать файл JSON через Pandas, мы можем использовать метод read_json ().

dfsample = pd.read_json("sample.json")
# use to_string() to print the whole DataFrame.
print(dfsample.to_string())

Результат выглядит круто. Давайте посмотрим на типы данных с помощью df.info (). По умолчанию числовые столбцы присвоены числовым типам, например, столбцам математики, физики и химии присвоено значение int64.

Загрузить JSON из URL

Чтобы загрузить JSON из URL-адреса (API), используйте этот код:

# Insert the URL you want to get the data from
URL = '<https://www.w3schools.com/python/pandas/data.js>'
df = pd.read_json(URL)
# use to_string() to print the dataFrame
print(df.to_string())

Как и при чтении из локального файла, он возвращает DataFrame, а числовым столбцам по умолчанию назначаются числовые типы.

Загрузка данных HTML

HTML - это язык гипертекстовой разметки, который в основном используется для создания веб-приложений и страниц. Веб-браузер получает HTML-документ с веб-сервера и передает его на мультимедийную веб-страницу.

pandas использует read_html() для чтения HTML-документа.

Итак, всякий раз, когда мы передаем HTML-код в pandas и ожидаем, что он выведет красивый фрейм данных, мы должны убедиться, что на HTML-странице есть таблица!

мы будем использовать веб-сайт Cryptocurrency в качестве набора данных HTML. на нем есть различные криптовалюты и есть различные подробности о каждой криптовалюте.

import requests
url = '<https://www.worldcoinindex.com/>'
crypto_url = requests.get(url)
crypto_url

Здесь мы определили URL-адрес, а затем, используя requests.get (), отправили запрос на этот URL-адрес и получили ответ в виде подтверждения [200], что означает, что мы смогли подключиться к этому веб-серверу.

Наконец, мы передадим crypto_url.text функции pd.read_html (), которая вернет вам список фреймов данных, где каждый элемент в этом списке представляет собой таблицу (фрейм данных), в которой находится веб-страница криптовалюты.

#print the length and the type of the dataframe
len(crypto_data), type(crypto_data)

crypto_data = crypto_data[0]

#Let's remove the first and second columns since they do not have any #useful information in them and keep all the rows.
crypto_final = crypto_data.iloc[:,2:]

#Finally, it's time to print the cryptocurrency dataframe!
crypto_final.head()

Вы можете заметить, что у Биткойна самый большой рыночный капитал.

Надеюсь, статья вам понравилась. Свяжитесь со мной в моих LinkedIn и twitter.

Рекомендуемые статьи

1. NLP - от нуля до героя с Python
2. Структуры данных Python Типы данных и объекты
3. Концепции обработки исключений в Python
4. Почему LSTM более полезен, чем RNN в глубоком обучении?
5. Нейронные сети: рост рекуррентных нейронных сетей
6. Полностью объясненная линейная регрессия с помощью Python
7. Полностью объясненная логистическая регрессия с помощью Python
8. Различия между concat (), merge () и join () с Python
9. Методы регуляризации Lasso (l1) и Ridge (l2)
10. Путаница Матрица в машинном обучении »