ОБЗОР ЗАГРУЗКИ ДАННЫХ В PYTHON

ПОНИМАНИЕ ВОСЕМЬ РАЗЛИЧНЫХ МЕТОДОВ ЗАГРУЗКИ ДАННЫХ СЛЕДУЕТ ИСПОЛЬЗОВАТЬ ДЛЯ МАШИННОГО ОБУЧЕНИЯ/АНАЛИЗА ДАННЫХ И ГЛУБОКОГО ОБУЧЕНИЯ.

Любой проект, начинающийся на Python, должен правильно загружать данные. Здесь я помогу вам загрузить данные, используя восемь различных методов.

Я буду делать все, что в том числе открывать в блокнотах Юпитера с нуля на все будущее, как только разберу:

Здесь я использую некоторые библиотеки: Import Pandas, Pickle и Numpy.

1. Загрузка файла вручную:

filename = «load.csv»
cols = None
data = []
с open(filename) as f:
для строки в f.readlines():
vals = line.replace("\n", "").split(",")
если cols равно None:
cols = vals
else:
данные. append([float(x) for x in vals])
d0 = pd.DataFrame(data, columns = cols)
d0.head()

Объяснение:

Шаг 1: Откройте файл с именами открытых файлов как «F»:

(с открытым (имя файла) как f)

Шаг 2: Разделите строку, поскольку строка представляет собой строку, разделите ее на запятую «,»

строка.заменить("\n", "").split(",")

Шаг 3: Разделите столбцы в данных, если столбцы состоят из гласных, иначе данные будут добавлены.

data.append([float(x) для x в vals])

Шаг 4: преобразовать строки в число с плавающей запятой

НАШ DataFrame имел «ABC D E», так как столбцы и все атрибуты были в плавающих числах. Это наши наборы данных выглядят после загрузки данных. У нас есть загруженные данные, которые успешно считываются вручную в простейших возможных файлах pf, а код составляет около 10 строк.

2. Использование np.loadtxt:

Numpy при загрузке текста откроет наш файл, поэтому нам не нужно делать это вручную, чтобы открыть файл.

data_load_txt = np.loadtxt(имя файла, skiprows=1, разделитель=’,’)
data_load_txt.dtype

Шаг 1: пропустите первую строку: так как нам нужно игнорировать имя столбца и заголовки. «скипровс = 1»

Шаг 2: разделитель — это запятая «,»

Float также известен как double, сами данные, хотя они выглядят подозрительно похожими на данные, которые мы только что видели, что, вероятно, хорошо.

3. Использование np.genfromtxt

Шаг 1: Numpy.genfromtext — это более разумный способ загрузки текста.

Шаг 2: В имени столбца для явного указания мы используем name = True. так как столбцы имеют имена. и извлекать данные с именами столбцов, и они рассматривали первую строку как имя столбца.

Шаг 3: dtype = None, означает, что все ABDC находятся в числах с плавающей запятой, а столбцы E являются целыми числами, поэтому нам нужно удалить этот dtype с помощью «NONE». поэтому мы говорим им, что не следует предполагать, что все типы переменных являются числами с плавающей запятой. Данные, которые вы получите, находятся в 2D-массиве.

4. Использование стандартной библиотеки в python:

Шаг 1: модуль CSV и функция чтения для загрузки файлов CSV.

Шаг 2: загрузить объект, который позволяет выполнять итерации по каждой строке данных.

Шаг 3: преобразование в массив NumPy.

5. Использование pd.read_csv с помощью Numpy

Загрузка данных с помощью NumPy:Использование библиотеки NumPy

Numpy.loadtxt()

Шаг 1: Строка 1 — это название заголовка и столбца, поэтому нам нужно пропустить первую строку.

Шаг 2: Пример кода просто используется для загрузки файла в виде numpy.nparray и создания данных.

6. Использование Numpy для загрузки данных из URL:

Из Numpy импортировать loadtxt

из urllib.request импортировать urlopen

url = ‘https://www.python.org/’

raw_data = открытый URL (URL)

набор данных = loadtxt (raw_data, разделитель = ‘,’)

печать (набор данных)

Шаг: выполнение кода приведет к получению той же формы данных.

7. Использование pd.read_csv с помощью Pandas

Функция Pandas.read_csv() очень гибкая и является наиболее идеальным способом загрузки данных для машинного обучения и анализа данных.

Pandas.DataFrame, который позволяет нам немедленно начать суммировать и отображать данные.

8. Использование рассола:

Это просто другой DataFrame, он должен быть точно таким же.

Шаг 1: Откройте данные с помощью библиотеки Pickles. «pickle.load (имя файла)»

Шаг 2: В этой библиотеке вам нужно записать открытый файл и прочитать его в двоичном формате, так как это двоичный файл, а не текстовый файл.

«.pickle» приходит, как мы видим, он точно такой же.

Я надеюсь, что теперь у всех вас есть целый набор различных способов загрузки данных. Мораль этой истории уже должна быть достаточно очевидной, и посмотрите, как хорошо загружать данные в python.

Спасибо