В каждом языке программирования есть несколько очень простых вещей, которые чрезвычайно просты, но иногда это просто не приходит нам в голову в нужные моменты, поэтому я хотел бы коснуться такой простой концепции в Python в этой статье.

В python мы можем импортировать данные из различных источников, таких как файлы csv, файлы Excel, файлы txt, SAS, различные базы данных. Итак, моя идея состоит в том, чтобы суммировать различные коды, используемые для импорта любого типа файла в Python.

Для этого у нас должен быть уже установлен пакет под названием «pandas». Обычно, когда в нашей системе установлена ​​анаконда, установка панд отдельно не требуется, поскольку она встроена в анаконду. Единственное, что требуется, - это импортировать библиотеку pandas с помощью приведенной ниже команды перед запуском любого из других кодов Python, которые будут описаны в статье.

импортировать панд как pd

1 ›Файл значений, разделенных запятыми, в формате CSV

Функция Read_csv () может использоваться для чтения файлов CSV.

импортировать панд как pd

data = pd.read_csv («путь к файлу / filename.csv»)

Примечание. Когда мы указываем путь к файлу из системного каталога, он сопровождается одной обратной косой чертой (\). Но python не распознает это, и, чтобы избежать того же, нам нужно изменить одинарную обратную косую черту либо на прямую косую черту (/), либо на двойную обратную косую черту (\\).

Например:

Data = pd.read_csv (‘C: /Users/Anju/Desktop/Documents/file1.csv’)

2 ›CSV-файл значений, разделенных запятыми, без заголовка.

Поскольку мы собираем данные из различных источников, в большинстве случаев мы не получаем требуемый формат, данные в файле могут иметь ненужные значения, отсутствующие значения, иногда данные могут даже не иметь заголовков (имен столбцов) и т. Д.

Хотя мы всегда можем исправить данные в самом файле csv, например: мы можем добавить имена столбцов в сам файл csv в случае, если заголовок отсутствует, но есть также способ сделать то же самое в python.

импортировать панд как pd

data = pd.read_csv («путь к файлу / filename.csv», header = None, names = ['col1', 'col2', 'col3', 'col4' , 'col5'])

В приведенном выше коде «header = None» сообщает python, что в данных отсутствуют заголовки (имена столбцов).

А ‘names = [‘ col names ’] - функция, используемая для добавления имен столбцов к данным.

Например:

Data = pd.read_csv ('C: /Users/Anju/Desktop/Documents/file1.csv', header = None, names = ['ID', 'Fname', 'Lname', 'Subject', 'Marks'] )

Мы также можем сделать то же самое, используя приведенный ниже код:

Data.columns = [«ID», «Fname», «Lname», «Subject», «Marks»]

3 ›Файл значений, разделенных запятыми CSV.

Предположим, мне нужно импортировать только указанное количество строк и столбцов или пропустить некоторые строки, мы можем использовать приведенный ниже код.

импортировать панд как pd

data = pd.read_csv («путь к файлу / filename.csv», nrows = 10, usecols = (2,5,7,8))

В приведенном выше коде nrows = 10 будет импортировать только первые десять строк из файла csv, а информация будет извлечена для переменных / столбцов, упомянутых в функции usecols.

Здесь usecols = (2,5,7,8) будет извлекать строки только для столбцов 2,5,7,8.

Например:

Data = pd.read_csv (‘C: /Users/Anju/Desktop/Documents/file1.csv’, nrows = 10, usecols = (2,5,7,8))

Пропуск строк:

импортировать панд как pd

data = pd.read_csv («путь к файлу / filename.csv», skiprows = 10)

Функция skiprows = 10 пропустит первые десять строк данных.

4 ›Файл Excel.

Функция Read_excel () может использоваться для чтения файлов EXCEL.

импортировать панд как pd

data = pd.read_excel («путь к файлу / имя_файла.xlsx»)

Например:

Data = pd.read_excel (‘C: /Users/Anju/Desktop/Documents/file1.xlsx’)

5 ›Файл Excel. Иногда в одном файле Excel может быть несколько листов.

Если нам нужно работать с каким-либо конкретным листом из файла Excel, мы можем указать имя листа. Допустим, мне нужно импортировать второй лист из файла Excel.

импортировать панд как pd

data = pd.read_excel («filepath / filename.xlsx», sheetname = ‘sheet2’)

Например:

Data = pd.read_excel (‘C: /Users/Anju/Desktop/Documents/file1.xlsx’, sheetname = ‘sheet2’)

Функция «sheetname =‘ sheet2 ’» импортирует лист2 в python.

Примечание. Если имя листа не указано, по умолчанию первый лист будет импортирован из файла Excel, содержащего несколько листов.

6 ›Любой файл (CSV / EXCEL / TXT и т. Д.)

Предположим, что данные в файле содержат некоторые специальные символы или некоторые ненужные значения, такие как точка (.), Подчеркивание (_), вопросительный знак (?) И т. Д., И мы хотим указать их как отсутствующие значения при импорте файла , приведенный ниже код может помочь нам сделать то же самое.

импортировать панд как pd

data = pd.read_excel («filepath / filename.xlsx», na_values ​​ = [‘.’, ‘_’, ‘?’])

Например:

Data = pd.read_excel (‘C: /Users/Anju/Desktop/Documents/file1.xlsx’, na_values ​​= [‘.’, ‘_’, ‘?’])

Все символы в опции «na_values ​​» будут считаться пропущенными значениями.

7 ›ТЕКСТОВЫЙ файл:

Функция Read_table () может использоваться для чтения текстовых файлов.

импортировать панд как pd

data = pd.read_table («путь к файлу / filename.txt»)

Например:

Data = pd.read_table (‘C: /Users/Anju/Desktop/Documents/file1.txt’)

8 ›ТЕКСТОВЫЙ файл с разделителями / табуляцией.

импортировать панд как pd

data = pd.read_table («путь к файлу / filename.txt», sep = «\ t»)

Например:

Data = pd.read_table (‘C: /Users/Anju/Desktop/Documents/file1.txt’, sep = ‘\ t’)

9 ›ТЕКСТ файл с разделителями / пробелами.

импортировать панд как pd

data = pd.read_table («путь к файлу / filename.txt», sep = «\ s +»)

Например:

Data = pd.read_table (‘C: /Users/Anju/Desktop/Documents/file1.txt’, sep = ‘\ s +’)

Если мы хотим импортировать данные только для нескольких столбцов, мы можем использовать функцию «имена»:

Data = pd.read_table ('C: /Users/Anju/Desktop/Documents/file1.txt', sep = '\ s +', names = ['ID', 'Fname', 'Lname', 'Subject', ' Метки'])

10 ›ТЕКСТОВЫЕ файлы с двоичными данными.

импортировать панд как pd

data = pd.read_table («путь к файлу / filename.dat»)

data = pd.read_table («filepath / filename.dat», sep = «\ t») - данные разделяются табуляцией.

data = pd.read_table («filepath / filename.dat», sep = «\ s +») - данные разделяются пробелами.

11 ›Из URL.

Чтобы импортировать файл в Python с любого URL-адреса, просто включите ссылку url, и команда read_xxxx может использоваться в зависимости от типа файла, в котором хранятся данные.

импортировать панд как pd

data = pd.read_csv («https://www.objectivequiz.com//doc.csv»)

data = pd.read_exce l («https://www.objectivequiz.com//doc.xlsx»)

data = pd.read_table («https://www.objectivequiz.com//doc.txt»)

data = pd.read_table («https://www.objectivequiz.com//doc.dat»)

12 ›Файл SAS.

Чтобы импортировать файл SAS в Python, можно использовать функцию «read_sas».

импортировать панд как pd

data = pd.read_sas («библиотека данных»)

например, для:

data = pd.read_sas («cars.sasuser»)

13 ›База данных.

Предположим, мы хотим импортировать данные, хранящиеся в таблице, из любой базы данных, такой как SQL-сервер, нам нужно сначала создать соединение с SQL-сервером, для которого требуются имя сервера, идентификатор пользователя, пароль и другая информация о базе данных.

Для этого можно использовать pd.read_sql_query.

Здесь нам также необходимо импортировать другую библиотеку pyodbc, чтобы установить соединение с сервером.

Импортировать панд как pd

Импортировать pyodbc

conc = pyodbc.connect («Драйвер = {SQL Server}; Сервер = имя сервера; UID = идентификатор пользователя, PWD = пароль пользователя; База данных = имя базы данных;»)

data = pd.read_sql_query («выберите * из database.tablename», conc)