Изучите большую часть материалов Python, необходимых для науки о данных, за 26 недель

Python — это язык программирования, используемый многими специалистами по данным для очистки данных, визуализации и построения моделей. Изучение Python для науки о данных никогда не было проще — существует множество бесплатных руководств и учебных пособий, которые вы можете использовать в своих интересах.

Тем не менее, у Python есть приложения, выходящие за рамки науки о данных, поэтому без надлежащего руководства вы можете в конечном итоге изучить вещи, которые редко используются в науке о данных. Вот почему я разработал 26-недельную учебную программу, содержащую бесплатные ресурсы, которые вы можете использовать для изучения Python для науки о данных в 2022 году.

Я разделил эту учебную программу на 4 основных раздела. Я считаю, что лучший способ чему-то научиться — это делать что-то, поэтому, помимо ссылок на видеоуроки и руководства, я включил упражнения и проекты в каждый раздел, чтобы помочь вам освоить Python для науки о данных.

Обзор всех материалов Python, которые вам нужны для науки о данных, также можно найти в видео ниже.

Не забудьте подписаться здесь, чтобы получить мою памятку по Python для Data Science, которую я использую во всех своих руководствах (бесплатный PDF)

Основные концепции Python для науки о данных

Первое, что нужно сделать, чтобы освоить Python для науки о данных, — это понять основные концепции. Это означает изучение наиболее распространенных типов данных, как использовать переменные и как правильно использовать списки и словари.

Другими важными вещами, которые следует изучить, являются условные операторы (оператор if/else) и циклы (for, while и т. д.). Они являются ключом к созданию более сложных вещей в Python.

Имейте в виду, что текстовый редактор, который вы должны использовать как начинающий специалист по данным, — это Jupyter Notebook. Этот редактор позволяет нам не только писать код, но и писать уравнения, визуализировать графики, добавлять текст и многое другое, что делает наш скрипт Python похожим на записную книжку.

Неделя 1: Введение в блокнот Jupyter и типы данных (целое число, число с плавающей запятой, логическое значение, строка и т. д.)

Неделя 2: переменные, списки, кортежи и словари

Неделя 3: Оператор IF и цикл FOR

Неделя 4: Функции и модули

Неделя 5: проекты Python для начинающих

Следующие проекты для начинающих помогут нам применить на практике все, чему мы научились за предыдущие недели, поэтому подумайте о том, чтобы взять хотя бы один из них. Они отсортированы по сложности, поэтому первый проект самый простой, а последний — самый сложный.

  • Игра-викторина: в этом проекте мы будем использовать оператор if/else и работать с функцией ввода, чтобы задать и ответить на несколько случайных вопросов с помощью Python.
  • Камень, ножницы, бумага: это популярная игра, которую вы можете легко реализовать на Python. Мы будем практиковать оператор if/else, как работать с переменными, списками и циклами.
  • Инструмент переименования файлов: проект состоит в выполнении 7 обычных операций с файловой системой с помощью Python. Этот проект посвящен модулю ОС. Это простой, но мощный модуль, который поставляется с Python.

Python для анализа данных

Библиотеки анализа данных, такие как Pandas и NumPy, являются основой для решения общих задач науки о данных, таких как очистка данных и исследовательский анализ данных (EDA).

Следующие недели посвящены изучению того, как создавать кадры данных и управлять ими. Кроме того, я покажу вам некоторые ресурсы, содержащие полезные упражнения, которые помогут все это практиковать.

Неделя 6: Pandas и Numpy Введение: как создать фрейм данных, выбрать и добавить столбцы, операции и общие методы.

Неделя 7 и 8: фильтрация и извлечение данных

Неделя 9: сводные таблицы

Неделя 10: GroupBy и агрегатная функция

Неделя 11: Слияние фреймов данных

Неделя 12: Проекты анализа данных

Следующие проекты позволят вам попрактиковаться в большинстве методов Pandas, которые вы уже изучили. Первый проект заключается в сборе данных, второй — в очистке данных (это одна из самых трудоемких задач в науке о данных) и, в третьем проекте, вам нужно сделать визуализацию данных только с помощью Pandas.

  • Сбор данных: В этом проекте вам нужно собирать данные с помощью Pandas и Selenium. Selenium — это инструмент веб-автоматизации, который позволяет нам извлекать данные. с веб-сайтов и создать собственный набор данных.
  • Очистка данных с помощью Pandas: очистка данных — обычная задача, с которой приходится сталкиваться каждому специалисту по данным. В этом проекте мы будем очищать набор данных, применяя различные методы для обеспечения высокого качества данных.
  • Визуализация данных только с Pandas: Pandas позволяет нам создавать такие визуализации, как круговая диаграмма, гистограмма, линейный график и многое другое. В этом проекте мы создадим сводную таблицу, а затем создадим графики, которые помогут нам провести лучший анализ.

Python для визуализации данных

Хотя вы можете создавать визуализацию данных с помощью Pandas, для настройки наших графиков недостаточно опций. Вот когда пригодятся более полные библиотеки, такие как Matplotlib и Seaborn.

Обе библиотеки позволяют нам выйти за рамки основных сюжетов, которые предлагает Pandas. Вероятно, вы могли бы жить, создавая визуализацию только с Pandas, но если вам нравится создавать великолепные визуализации, как я, рассмотрите возможность изучения Matplotlib и/или Seaborn.

Кроме того, в этом разделе мы узнаем, как создать облако слов и решить классные проекты, чтобы попрактиковаться в методах визуализации данных, развлекаясь.

Неделя 13: Визуализация данных с помощью Matplotlib и Wordclouds с помощью Stylecloud

Неделя 14: Визуализация данных с Seaborn

Неделя 15: Проекты

Визуализация данных должна быть забавной, поэтому для этого проекта вам нужно выбрать любой фильм/телешоу, которое вам нравится, затем перейти на Kaggle и найти набор данных, содержащий сценарии этого фильма/шоу. Получив набор данных, прочитайте его с помощью Pandas и сделайте все необходимые графики, чтобы узнать больше о любимом фильме/шоу.

Если вам нужно вдохновение, ознакомьтесь со статьями ниже.

Python для машинного обучения

Каждый специалист по данным должен уметь создавать модели машинного обучения. Вот почему нам нужно изучать такие библиотеки, как sklearn, Keras и Tensorflow. Они помогут нам построить, оценить и выбрать лучшую модель для нашего проекта.

Со временем вы поймете, что реализовать эти модели в Python не так уж и сложно. Для большинства людей самое сложное — понять основные концепции каждого алгоритма и правильно применить их в проекте.

Вот почему в следующие недели мы сосредоточимся на изучении того, как работают самые распространенные алгоритмы машинного обучения, и только потом мы увидим, как их реализовать на Python (большинство реализаций — с помощью sklearn, после 26 недель Я рекомендую вам изучить более продвинутые библиотеки, такие как TensorFlow и Keras)

Неделя 16: Введение в машинное обучение

Неделя 17: линейная регрессия

Неделя 18: Логистическая регрессия

Неделя 19: Дерево решений

Неделя 20: Наивный Байес

Неделя 21: машины опорных векторов

Неделя 22: КНН

Неделя 23: Анализ основных компонентов (PCA)

Неделя 24: Случайный лес

Неделя 25: Метрики модели

Неделя 26: Проекты

  • Прогнозирование оттока клиентов банка: в этом проекте вы должны классифицировать, будет ли отток клиентов или нет. Вы будете использовать набор данных, содержащий финансовые данные о клиенте банка (кредитный рейтинг, срок пребывания в должности, количество продуктов, предполагаемая заработная плата и т. д.), чтобы построить прогностическую модель.

Примечание. Существуют и другие алгоритмы машинного обучения, которые я рекомендую вам изучить после этих 26 недель.

Подпишитесь на мою рассылку с более чем 3 000 человек, чтобы получить мою памятку по Python для Data Science, которую я использую во всех своих руководствах (бесплатный PDF)

Если вам нравится читать такие истории и вы хотите поддержать меня как писателя, подумайте о том, чтобы зарегистрироваться и стать участником Medium. Это 5 долларов в месяц, что дает вам неограниченный доступ к тысячам руководств по Python и статьям по науке о данных. Если вы зарегистрируетесь по моей ссылке, я получу небольшую комиссию без каких-либо дополнительных затрат для вас.