Panda считывает данные из файлов csv, txt, excel и других форматов
Что такое панды?
Pandas - это библиотека Python, содержащая множество возможностей и конкретных информационных структур, которые были предназначены для помощи разработчикам Python в организованном выполнении поручений по проверке информации.
Импорт данных - самый фундаментальный и абсолютный начальный этап в любой работе, связанной с информацией. Способность точно импортировать информацию является обязательным навыком для каждого специалиста по данным.
Данные существуют во многих различных формах, и мы должны не только знать, как импортировать различные форматы данных, но и как анализировать данные и манипулировать ими, чтобы делать выводы.
Большинство вещей, которые должны делать панды, могут быть возможны с помощью фундаментального Python, но собранная компоновка возможностей панд и информационной структуры делает задания по проверке информации более надежными с точки зрения пунктуации и, таким образом, способствует удобочитаемости.
Конкретные основные моменты панд, которые мы рассмотрим в связи с этим, и несколько сцен включают в себя:
- Чтение информации, хранящейся в документах CSV
- Нарезка и подмножество информации в фреймах данных (таблицах!)
- Работа с недостающей информацией
- Изменение формы информации (длинный → широкий, широкий → длинный)
- Вставка и удаление столбцов из структур данных
- Объединение наборов данных (после того, как они были объединены в Dataframes)
Если вы спрашиваете, почему я составляю панды со строчной буквой «p», потому что это имя пакета, а Python чувствителен к регистру.
Давайте теперь посмотрим, как panda считывает данные из файлов csv, txt, excel и других форматов:
1. Загрузите файлы CSV.
Файл CSV (значения, разделенные запятыми) - это распространенный формат файлов для передачи и хранения данных.
Способность читать, записывать и обрабатывать данные в CSV-документы и из них с использованием Python является жизненно важной компетенцией для любого специалиста по данным или бизнес-аналитика.
Существенное взаимодействие по загрузке данных из CSV-документа в Pandas DataFrame (со всей проработкой в хорошем смысле) осуществляется с использованием работы «read_csv» в Pandas.
# Loading the Pandas library with the alias as 'pd' import pandas as pd # Read data from file 'test.csv' data = pd.read_csv("Test.csv") # Check the first 5 lines of the loaded data data.head(5)
Как должно быть очевидно, read_csv принимает первую строку в качестве имен столбцов. Столбцам можно дать разные имена. По этой причине нам нужно пропустить первую строку, установив для параметра «header» значение 0, и нам нужно назначить список столбцов с именами столбцов.
С положительной стороны:
- Формат CSV широко распространен, и информацию можно накапливать практически любым программным обеспечением.
- Записи CSV просты для понимания и устранения неполадок с помощью основного текстового редактора.
- Записи CSV можно быстро создать и загрузить в память перед анализом.
2. Чтение файлов Excel
Чтобы прочитать файл Excel, нам нужно использовать read_excel.
# Read data from file 'filename.csv' train2 = pd.read_excel("Train_BigMart.xlsx")
# Check the first 5 lines of the loaded data train2.head(5)
Если документ BigMart.xlsx содержит два листа, мы можем прочитать их, используя тот же read_excel. Полный документ Excel, который может состоять из множества листов, можно прочитать так:
#Reading Multiple sheets of excel Excel = pd.ExcelFile("Train_Test_BigMart.xlsx")
# Creating two different data frames for the Excel files df1 = pd.read_excel(Excel,"Train_BigMart") df2 = pd.read_excel(Excel,"Test_BigMart")
# Preview the first 5 lines of the loaded data (sheet 1 - df1) df1.head(5)
# Check the first 5 lines of the loaded data (sheet 2 - df2)
df2.head(5)
Во время вызова ExcelFile () загружается весь файл Excel. Это просто избавляет нас от необходимости читать один и тот же файл каждый раз, когда мы хотим получить доступ к новому листу.
3. Чтение JSON
Запись JSON - это документ, в котором хранятся простые структуры данных и объекты в формате JavaScript Object Notation (JSON). это стандартный дизайн обмена информацией. Он используется для передачи информации между веб-приложением и работником. Документы JSON легкие, основанные на тексте, удобные для пользователя и могут быть изменены с помощью текстового редактора.
Чтобы прочитать файл JSON через Pandas, мы можем использовать метод read_json ().
dfsample = pd.read_json("sample.json")
# use to_string() to print the whole DataFrame. print(dfsample.to_string())
Результат выглядит круто. Давайте посмотрим на типы данных с помощью df.info (). По умолчанию числовые столбцы присвоены числовым типам, например, столбцам математики, физики и химии присвоено значение int64.
Загрузить JSON из URL
Чтобы загрузить JSON из URL-адреса (API), используйте этот код:
# Insert the URL you want to get the data from
URL = '<https://www.w3schools.com/python/pandas/data.js>' df = pd.read_json(URL)
# use to_string() to print the dataFrame print(df.to_string())
Как и при чтении из локального файла, он возвращает DataFrame, а числовым столбцам по умолчанию назначаются числовые типы.
Загрузка данных HTML
HTML - это язык гипертекстовой разметки, который в основном используется для создания веб-приложений и страниц. Веб-браузер получает HTML-документ с веб-сервера и передает его на мультимедийную веб-страницу.
pandas
использует read_html()
для чтения HTML-документа.
Итак, всякий раз, когда мы передаем HTML-код в pandas и ожидаем, что он выведет красивый фрейм данных, мы должны убедиться, что на HTML-странице есть таблица!
мы будем использовать веб-сайт Cryptocurrency в качестве набора данных HTML. на нем есть различные криптовалюты и есть различные подробности о каждой криптовалюте.
import requests url = '<https://www.worldcoinindex.com/>'
crypto_url = requests.get(url) crypto_url
Здесь мы определили URL-адрес, а затем, используя requests.get (), отправили запрос на этот URL-адрес и получили ответ в виде подтверждения [200], что означает, что мы смогли подключиться к этому веб-серверу.
Наконец, мы передадим crypto_url.text функции pd.read_html (), которая вернет вам список фреймов данных, где каждый элемент в этом списке представляет собой таблицу (фрейм данных), в которой находится веб-страница криптовалюты.
#print the length and the type of the dataframe
len(crypto_data), type(crypto_data)
crypto_data = crypto_data[0] #Let's remove the first and second columns since they do not have any #useful information in them and keep all the rows.
crypto_final = crypto_data.iloc[:,2:] #Finally, it's time to print the cryptocurrency dataframe! crypto_final.head()
Вы можете заметить, что у Биткойна самый большой рыночный капитал.
Надеюсь, статья вам понравилась. Свяжитесь со мной в моих LinkedIn и twitter.
Рекомендуемые статьи
1. NLP - от нуля до героя с Python
2. Структуры данных Python Типы данных и объекты
3. Концепции обработки исключений в Python
4. Почему LSTM более полезен, чем RNN в глубоком обучении?
5. Нейронные сети: рост рекуррентных нейронных сетей
6. Полностью объясненная линейная регрессия с помощью Python
7. Полностью объясненная логистическая регрессия с помощью Python
8. Различия между concat (), merge () и join () с Python
9. Методы регуляризации Lasso (l1) и Ridge (l2)
10. Путаница Матрица в машинном обучении »