Изучите большую часть материалов Python, необходимых для науки о данных, за 26 недель
Python — это язык программирования, используемый многими специалистами по данным для очистки данных, визуализации и построения моделей. Изучение Python для науки о данных никогда не было проще — существует множество бесплатных руководств и учебных пособий, которые вы можете использовать в своих интересах.
Тем не менее, у Python есть приложения, выходящие за рамки науки о данных, поэтому без надлежащего руководства вы можете в конечном итоге изучить вещи, которые редко используются в науке о данных. Вот почему я разработал 26-недельную учебную программу, содержащую бесплатные ресурсы, которые вы можете использовать для изучения Python для науки о данных в 2022 году.
Я разделил эту учебную программу на 4 основных раздела. Я считаю, что лучший способ чему-то научиться — это делать что-то, поэтому, помимо ссылок на видеоуроки и руководства, я включил упражнения и проекты в каждый раздел, чтобы помочь вам освоить Python для науки о данных.
Обзор всех материалов Python, которые вам нужны для науки о данных, также можно найти в видео ниже.
Не забудьте подписаться здесь, чтобы получить мою памятку по Python для Data Science, которую я использую во всех своих руководствах (бесплатный PDF)
Основные концепции Python для науки о данных
Первое, что нужно сделать, чтобы освоить Python для науки о данных, — это понять основные концепции. Это означает изучение наиболее распространенных типов данных, как использовать переменные и как правильно использовать списки и словари.
Другими важными вещами, которые следует изучить, являются условные операторы (оператор if/else) и циклы (for, while и т. д.). Они являются ключом к созданию более сложных вещей в Python.
Имейте в виду, что текстовый редактор, который вы должны использовать как начинающий специалист по данным, — это Jupyter Notebook. Этот редактор позволяет нам не только писать код, но и писать уравнения, визуализировать графики, добавлять текст и многое другое, что делает наш скрипт Python похожим на записную книжку.
Неделя 1: Введение в блокнот Jupyter и типы данных (целое число, число с плавающей запятой, логическое значение, строка и т. д.)
Неделя 2: переменные, списки, кортежи и словари
Неделя 3: Оператор IF и цикл FOR
Неделя 4: Функции и модули
Неделя 5: проекты Python для начинающих
Следующие проекты для начинающих помогут нам применить на практике все, чему мы научились за предыдущие недели, поэтому подумайте о том, чтобы взять хотя бы один из них. Они отсортированы по сложности, поэтому первый проект самый простой, а последний — самый сложный.
- Игра-викторина: в этом проекте мы будем использовать оператор if/else и работать с функцией ввода, чтобы задать и ответить на несколько случайных вопросов с помощью Python.
- Камень, ножницы, бумага: это популярная игра, которую вы можете легко реализовать на Python. Мы будем практиковать оператор if/else, как работать с переменными, списками и циклами.
- Инструмент переименования файлов: проект состоит в выполнении 7 обычных операций с файловой системой с помощью Python. Этот проект посвящен модулю ОС. Это простой, но мощный модуль, который поставляется с Python.
Python для анализа данных
Библиотеки анализа данных, такие как Pandas и NumPy, являются основой для решения общих задач науки о данных, таких как очистка данных и исследовательский анализ данных (EDA).
Следующие недели посвящены изучению того, как создавать кадры данных и управлять ими. Кроме того, я покажу вам некоторые ресурсы, содержащие полезные упражнения, которые помогут все это практиковать.
Неделя 6: Pandas и Numpy Введение: как создать фрейм данных, выбрать и добавить столбцы, операции и общие методы.
- Видеоурок: (1:44:41 до 3:09:56)
- Упражнение: Знакомство с пандами
Неделя 7 и 8: фильтрация и извлечение данных
- 8 способов фильтрации кадров данных Pandas
- Как использовать loc в Pandas
- Как удалить столбец в пандах
- Метод запроса
- Функция Pandas apply () для одного и нескольких столбцов
- Упражнение на фильтрацию
Неделя 9: сводные таблицы
- Замените сводную таблицу Excel на Python Pandas
- Сводная таблица Pandas: упражнения, практика, решение
Неделя 10: GroupBy и агрегатная функция
Неделя 11: Слияние фреймов данных
Неделя 12: Проекты анализа данных
Следующие проекты позволят вам попрактиковаться в большинстве методов Pandas, которые вы уже изучили. Первый проект заключается в сборе данных, второй — в очистке данных (это одна из самых трудоемких задач в науке о данных) и, в третьем проекте, вам нужно сделать визуализацию данных только с помощью Pandas.
- Сбор данных: В этом проекте вам нужно собирать данные с помощью Pandas и Selenium. Selenium — это инструмент веб-автоматизации, который позволяет нам извлекать данные. с веб-сайтов и создать собственный набор данных.
- Очистка данных с помощью Pandas: очистка данных — обычная задача, с которой приходится сталкиваться каждому специалисту по данным. В этом проекте мы будем очищать набор данных, применяя различные методы для обеспечения высокого качества данных.
- Визуализация данных только с Pandas: Pandas позволяет нам создавать такие визуализации, как круговая диаграмма, гистограмма, линейный график и многое другое. В этом проекте мы создадим сводную таблицу, а затем создадим графики, которые помогут нам провести лучший анализ.
Python для визуализации данных
Хотя вы можете создавать визуализацию данных с помощью Pandas, для настройки наших графиков недостаточно опций. Вот когда пригодятся более полные библиотеки, такие как Matplotlib и Seaborn.
Обе библиотеки позволяют нам выйти за рамки основных сюжетов, которые предлагает Pandas. Вероятно, вы могли бы жить, создавая визуализацию только с Pandas, но если вам нравится создавать великолепные визуализации, как я, рассмотрите возможность изучения Matplotlib и/или Seaborn.
Кроме того, в этом разделе мы узнаем, как создать облако слов и решить классные проекты, чтобы попрактиковаться в методах визуализации данных, развлекаясь.
Неделя 13: Визуализация данных с помощью Matplotlib и Wordclouds с помощью Stylecloud
- Учебник по построению графиков на Python с помощью Matplotlib и Pandas
- Как легко создавать красивые облака слов в Python
Неделя 14: Визуализация данных с Seaborn
Неделя 15: Проекты
Визуализация данных должна быть забавной, поэтому для этого проекта вам нужно выбрать любой фильм/телешоу, которое вам нравится, затем перейти на Kaggle и найти набор данных, содержащий сценарии этого фильма/шоу. Получив набор данных, прочитайте его с помощью Pandas и сделайте все необходимые графики, чтобы узнать больше о любимом фильме/шоу.
Если вам нужно вдохновение, ознакомьтесь со статьями ниже.
- Визуализация данных на Python с помощью Avatar The Last Airbender
- Симпсоны встречаются с визуализацией данных
Python для машинного обучения
Каждый специалист по данным должен уметь создавать модели машинного обучения. Вот почему нам нужно изучать такие библиотеки, как sklearn, Keras и Tensorflow. Они помогут нам построить, оценить и выбрать лучшую модель для нашего проекта.
Со временем вы поймете, что реализовать эти модели в Python не так уж и сложно. Для большинства людей самое сложное — понять основные концепции каждого алгоритма и правильно применить их в проекте.
Вот почему в следующие недели мы сосредоточимся на изучении того, как работают самые распространенные алгоритмы машинного обучения, и только потом мы увидим, как их реализовать на Python (большинство реализаций — с помощью sklearn, после 26 недель Я рекомендую вам изучить более продвинутые библиотеки, такие как TensorFlow и Keras)
Неделя 16: Введение в машинное обучение
Неделя 17: линейная регрессия
Неделя 18: Логистическая регрессия
Неделя 19: Дерево решений
Неделя 20: Наивный Байес
- Наивный байесовский классификатор
- Текстовая классификация с использованием наивного Байеса (реализация Python)
Неделя 21: машины опорных векторов
Неделя 22: КНН
Неделя 23: Анализ основных компонентов (PCA)
Неделя 24: Случайный лес
- Случайный лес в машинном обучении
- Случай использования случайного леса — анализ цветов IRIS с использованием Python
Неделя 25: Метрики модели
Неделя 26: Проекты
- Прогнозирование оттока клиентов банка: в этом проекте вы должны классифицировать, будет ли отток клиентов или нет. Вы будете использовать набор данных, содержащий финансовые данные о клиенте банка (кредитный рейтинг, срок пребывания в должности, количество продуктов, предполагаемая заработная плата и т. д.), чтобы построить прогностическую модель.
Примечание. Существуют и другие алгоритмы машинного обучения, которые я рекомендую вам изучить после этих 26 недель.
Если вам нравится читать такие истории и вы хотите поддержать меня как писателя, подумайте о том, чтобы зарегистрироваться и стать участником Medium. Это 5 долларов в месяц, что дает вам неограниченный доступ к тысячам руководств по Python и статьям по науке о данных. Если вы зарегистрируетесь по моей ссылке, я получу небольшую комиссию без каких-либо дополнительных затрат для вас.