Панды с нуля для Data Science

Вступление

Машинное обучение становится горячей темой для технократов, которые хотят сделать карьеру. Один из первых шагов для начала работы с моделью анализа данных / машинного обучения - получение данных и их формирование наиболее подходящим и организованным способом. Теперь, оставив неструктурированные данные в стороне, структурированные данные доступны во многих формах, таких как файл CSV (значения, разделенные запятыми), лист Excel, файл JSON (нотация объектов JavaScript) и т. Д. data, вы можете приступить к работе, но разве вы не думаете о том, чтобы один раз взглянуть на данные, например, как они оформлены, какие существуют различные атрибуты данных (столбцы)? Что ж, вот где Панды начинают играть. Не только просматривая данные, но и если вы хотите внести в них некоторые незначительные изменения, Pandas идеально подходит для этой работы.

Позже, когда вы немного познакомитесь с основами анализа данных, вы встретите термин «предварительная обработка данных» или «очистка / обработка данных» (что означает преобразование или отображение данных из исходного исходного состояния в другую форму. для дальнейшего анализа), что является важным шагом при создании собственной модели. Не волнуйтесь; это слишком просто, чем кажется. Потерпите меня; Я проведу вас через весь курс его изучения (прямо от основ установки самой библиотеки), даже если вы немного знаете о Pandas, я бы посоветовал вам подождать, вы, несомненно, найдете оказаться полезным.

Установка

Установка панд в windows:

Если вы еще не загрузили python, перейдите на веб-сайт https://www.python.org/downloads/ Фак и загрузите python. После того, как вы установили python, перейдите в командную строку (найдите cmd в меню Пуск). В типе cmd введите команду pip install pandas и нажмите клавишу ВВОД. Немного подождать; после завершения загрузки вы можете использовать Pandas в своих программах в Windows.

На изображении выше показано, как должна быть выполнена установка. Не забудьте добавить python в PATH при его установке.

Установка Pandas с помощью anaconda:

Если вы не знакомы с анакондой, зайдите на ее веб-сайт и посмотрите https://www.anaconda.com/. Установите анаконду в соответствии с конфигурацией вашей системы. После этого найдите в меню Пуск навигатор anaconda, откройте его и запустите блокнот jupyter.

Щелкните новый ›Python 3. это приведет к открытию записной книжки Python. Предположим, вы не ввели код в блокноте до того, как кликните сюда. Не забудьте добавить анаконду в переменную среды PATH при ее установке. Anaconda устанавливает все необходимые библиотеки, поэтому теперь ничего делать не нужно, перейдите в свой блокнот и импортируйте библиотеку Pandas, и все готово.

Создание фрейма данных Pandas

Вам может быть интересно, что такое фрейм данных. Это структура данных в виде таблицы. Его можно связать с массивом (2D-массивом), заполненным данными разных типов, такими как строка, целое число, дата и т. Д. Теперь вам может быть интересно, как загрузить ваши данные, которые находятся в отдельном формате файла. Теперь, что делает Pandas, он вводит файл (может иметь формат CSV, файл JSON, лист Excel и многое другое) и загружает данные в программу в виде фрейма данных. Не только файлы, но и панды могут преобразовывать массив / словарь Python в фрейм данных. Посмотрим как.

Через массив / словарь Python:

Мы используем функцию pandas.DataFrame () для преобразования массива или словаря во фрейм данных. См. Пример, приведенный ниже.

В формате файла CSV / JSON:

Чтобы прочитать CSV-файл в своем коде, используйте функцию pandas .read_csv () и передайте местоположение файла в качестве аргумента внутри круглых скобок.

Как и при чтении файла CSV, вы должны использовать другую функцию для чтения файла JSON. См. Код ниже.

Анализ данных

До сих пор вы научились устанавливать pandas, загружать файлы в свой код. Теперь давайте узнаем, как анализировать данные. Есть три основные функции, которые вы можете использовать, чтобы получить представление о том, как хранятся данные.

ПРИМЕЧАНИЕ. С этого момента на протяжении всего руководства я буду использовать df в качестве имени переменной фрейма данных для иллюстрации функций. Кроме того, я использую базу данных сотрудников, взгляните на нее.

Получение информации из данных

Взглянуть на фрейм данных и получить базовые знания о хранимых данных несложно. Но есть некоторые функции, предоставляемые пандами, которые могут выдавать ценную информацию / идеи о данных.

Формирование данных в соответствии с вашими потребностями

В таблице могут быть какие-то данные, которые вам не нужны в этой части. Мы научимся редактировать данные и формировать фрейм данных в соответствии с нашими потребностями. Вы также можете использовать имена столбцов (называемые атрибутами) для выбора данных соответствующих столбцов, или вы можете редактировать записи (строки), определяя некоторые правила или условия большого пальца.

Также можно использовать функцию dataframe_name.drop () для удаления строки или столбца. Ознакомьтесь с документацией Pandas для получения дополнительной информации.

Работа с отсутствующими / нулевыми значениями

Отсутствующие / нулевые значения часто делают данные избыточными. Не только это, но и эти значения существенно влияют на расчеты. Расчеты, такие как точность модели, расчеты, используемые для предсказания неизвестных значений. Поэтому люди часто предпочитают обрабатывать недостающие значения в данных перед их использованием. Управление отсутствующими / нулевыми значениями - это часть этапа предварительной обработки данных (один из этапов, выполняемых при создании модели машинного обучения). У панд есть разные функции, с помощью которых мы можем манипулировать нулевыми значениями.

Когда дело доходит до обработки этих значений, мы можем удалить всю строку / запись, имеющую нулевое / отсутствующее значение, или мы можем заменить эти значения на новое значение, такое как среднее всех значений определенного столбца или значение, такое же, как предыдущей / следующей строки. Посмотрим, как мы сможем это сделать.

Функция fillna (): используется для замены NaN / Na новыми значениями.

Функция dropna (): используется для исключения / удаления записей, содержащих нулевые значения.

Также можно использовать функцию df.interpolate (); он заменит нулевые значения средними значениями в строках выше и ниже существующей строки (той, которая имеет нулевое значение).

Группировка данных

Группировка данных - это еще один способ организации данных путем формирования групп уникальных значений столбца. Распределение частот этих групп служит удобным средством анализа данных. Теперь давайте посмотрим на функции и их примеры для лучшего понимания.

В приведенном выше примере печатается объект DataFrameGroupBy cdf.

Вы можете сгруппировать данные по более чем одному столбцу; вы должны передать имена столбцов в аргумент функции .groupby ().

Чтобы получить более четкое представление о данных, Pandas позволяет нам использовать агрегирование, такое как sum (), mean () и т. Д., Для использования с .groupby (). См. Пример, приведенный ниже.

Это было всего лишь краткое руководство по использованию Pandas с высоты птичьего полета, и все зависит от человека, насколько глубже можно погрузиться с регулярной практикой и применением.

Хотя я попытался охватить большинство важных функций, вы все равно можете посмотреть документацию на веб-сайте Pandas.