Все мы знаем о силе фрейма данных, который представляет собой двумерную помеченную структуру данных со столбцами разных типов. Данные выровнены в формате удобочитаемой таблицы и используются панды для чтения и обработки.

Наша задача - выполнять все задачи предварительной обработки данных в Python, и мы должны постараться исключить Excel, насколько это возможно.

Когда дело доходит до анализа данных, у нас есть большое количество атрибутов, и только некоторые из них интересны для анализа. Некоторые из них могут сильно коррелировать, и нам, возможно, придется удалить. Некоторые из них даже не подходят для создания модели или анализа, например идентификатора клиента или пространственных координат того, где вы находитесь. Эти столбцы необходимо удалить, чтобы продолжить.

После того, как мы импортировали набор данных с использованием фрейма данных с использованием библиотеки pandas, мы могли внести необходимые изменения. Я использовал данные о лесных пожарах из машинного обучения UCI, которые вы можете скачать здесь.

Причина, по которой я скопировал один и тот же входной файл несколько раз, будет объяснена позже.

В приведенном выше коде показан очень простой метод удаления ненужных полей. Методы test1 и test2 не влияют на исходное значение ввода, когда мы выполняем код, изменения будут сохранены во вновь назначенной переменной. Это более безопасный способ использования, поскольку мы не теряем необработанную информацию данных.

Третья команда использовала Forestcopy, а не набор данных ForestFire, поскольку изменения напрямую затрагивают необработанную переменную. Мы должны быть более осторожными при выполнении кода, поэтому лучше сделать копию.

Методы 2, 3 и 4 очень похожи друг на друга, которые работают с удалением столбцов, выбранных из диапазона, это могут быть их имена или номера индексов. Единственная разница между LOC и ILOC заключается в том, что LOC использует индексирование на основе меток, а ILOC использует позиционное индексирование.

Здесь также изменения напрямую сохраняются в необработанной переменной, поэтому рекомендуется вносить изменения в резервную переменную.

Мы можем видеть, что метод .IX скоро будет удален, лучше придерживаться .loc и .iloc.

Надеюсь, вам понравились небольшие советы, как делать все вручную с помощью кода, а не с помощью excel или инструментов :). Спасибо за чтение!.

Использованная литература:

  1. Https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html