Используйте эти проекты, чтобы начать обучение науке о данных

Изучать науку о данных непросто как новичкам, так и профессионалам. Это сложно, потому что каждый день нужно узнавать что-то новое, но содержание обучения разбросано повсюду. Без надлежащего руководства многие люди теряются в процессе обучения. Вот почему многие люди считают, что наука о данных имеет высокий барьер для взлома.

К счастью, многие хорошие люди инициировали проекты с открытым исходным кодом для изучения науки о данных. Эти проекты были написаны лаконично и проницательно, чтобы люди могли досконально изучить их.

В этой статье будут описаны различные проекты с открытым исходным кодом для изучения науки о данных. Давайте углубимся в это.

1. Вирджилио

Виргилио назван новым наставником по электронному обучению науке о данных и стремится дать каждому возможность изучить науку о данных. Вирджилио также пытается создать для учащегося путь к структурированному обучению, чтобы избежать путаницы во время изучения науки о данных.

Проект с открытым исходным кодом был структурирован с тремя уровнями, чтобы удовлетворить все потребности. Слой назывался Paradiso для руководства высокого уровня, Purgatorio для начального уровня и Inferno для продвинутого уровня.

Обучение начинается с уровня Paradiso, где весь контент посвящен теории и тому, почему вам следует изучать науку о данных (вообще никакого программирования), например:

  • Что такое машинное обучение и чем отличается ИИ
  • Вам нужно машинное обучение?
  • Варианты использования
  • Стратегия обучения

и многое другое. Paradiso — идеальное начало для людей, которые начинают свое путешествие по науке о данных и лучше разбираются в этой области.

С уровня Paradiso мы переходим на уровень Purgatorio. Этот уровень будет охватывать основы работы с данными, от фундаментальных до практических действий, таких как:

  • Основы математики и статистики
  • Основы программирования Python
  • Определение проблемы
  • Исследование данных
  • Обучение машинному обучению

И многое другое. Вы узнаете все, что вам нужно, чтобы начать работу в области науки о данных. Не беспокойтесь о структуре, потому что Purgatorio также начинается от фундаментального к более базовому использованию.

Наконец, продвинутый уровень — это уровень Inferno, где эта часть предназначена для опытных пользователей. В этом разделе вы узнаете о конкретном приложении для науки о данных:

  • Временная последовательность
  • Компьютерное зрение
  • Обработка естественного языка

Кроме того, уровень Inferno предоставляет учебные материалы для конкретных инструментов и библиотек для обработки данных. Список будет расти со временем, так что продолжайте проверять проект.

Проект Вирхилио разрабатывался различными основными командами и участниками, которые были экспертами в этой области. Если интересно, попробуйте пообщаться с командой здесь, особенно способствуя их делу.

2. МЛКурс

MLCourse — это проект с открытым исходным кодом, который возглавляет Юрий Кашницкий из OpenDataScience, чтобы узнать больше о машинном обучении, где учащиеся могут получить идеальный баланс теоретических и практических навыков. Как следует из названия, MLCourse представляет собой сборник проектов курсов, которым мы могли бы следовать в самостоятельном темпе.

Тем не менее, курсы немного предназначены для людей, которые имеют базовые навыки работы с данными, такие как Python и Math. Но это не значит, что новички не могут опробовать курсы — в конце концов, их руководство очень проницательно.

MLCourse содержит десять тем для изучения, которые предназначены для изучения в структуре; они есть:

  1. EDA с пандами
  2. Визуальный анализ данных
  3. Классификация, дерево решений и K-NN
  4. Обычный метод наименьших квадратов и линейная модель
  5. Бэгинг
  6. Разработка функций и выбор функций
  7. Неконтролируемый анализ
  8. Оптимизация
  9. Временная последовательность
  10. Повышение градиента

Каждая тема содержит простое руководство, блокнот с примерами, задание и видеокурс.

Минус MLCourse в том, что разработка остановилась в 2019 году для английского языка (русский язык возрождается в 2022 году). Тем не менее, материал по-прежнему актуален для нашей текущей области науки о данных — особенно для начинающих.

3. ПроектОбучение

ProjectLearn — это проект с открытым исходным кодом, который предоставляет кураторский список учебных проектов. Создатель ProjectLearn стремится к практическому изучению приложений, а не к теоретическому, поэтому вы можете ожидать, что вы освоите определенный набор навыков, а не общий.

ProjectLearn не относится к науке о данных, потому что вы также можете изучать веб-разработку, разработку мобильных устройств и игр. Однако есть специальный раздел для машинного обучения и искусственного интеллекта, чего мы и хотим.

Большая часть проекта представляет собой внешнюю ссылку на другую статью или видео, но эти проекты уже курируются и идеально подходят для тех, кто хочет узнать, что можно сделать с помощью машинного обучения.

4. Дипкафа

Deepkapha — это проект с открытым исходным кодом, который курировал множество руководств по искусственному интеллекту и глубокому обучению, чтобы люди могли учиться. Когда я смотрю на Deepkapha, я чувствую, что проект предназначен для людей, которые имеют базовые знания в области науки о данных и программирования, поэтому лучше изучить Deepkapha, когда вы будете готовы.

Многие Deepkapha фокусируются на глубоком обучении и различных учебных пособиях по фреймворкам, что идеально подходит, если вы хотите изучить концепцию глубокого обучения и различия между фреймворками. Тем не менее, вы все равно можете изучить много учебного материала, хотя он и не такой уж конкретный.

Еще один раздел, который я считаю особенным, — это Коллекция блогов по глубокому обучению, которая состоит из различных авторов и блогов по глубокому обучению. Коллекция настолько полная, что изучение всех блогов может занять несколько дней.

5. Лучшее из ML Python

Best-of ML Python является частью проекта Best-of с открытым исходным кодом, который ежедневно курирует различные пакеты и инструменты с открытым исходным кодом. Best-of ML Python предназначен для курируемых пакетов машинного обучения с открытым исходным кодом для языка программирования Python.

В серии «Лучшее из» не было специального руководства по использованию или изучению основных концепций. Тем не менее, вместо этого они классифицировали все потрясающие пакеты Python, чтобы мы могли их опробовать.

Как вы можете видеть из GIF выше, список обширен и сегментирован в зависимости от того, что вам нужно. Почти все, что вам нужно для изучения определенного предмета с помощью пакета Python, присутствует, поэтому постарайтесь изучить как можно больше.

Выводы

Изучать науку о данных непросто, и мы можем запутаться, если не знаем, с чего начать. Вот почему в этой статье я хочу представить свой лучший проект с открытым исходным кодом для изучения науки о данных. Проекты:

  1. Вирджилио
  2. MLCourse
  3. ПроектОбучение
  4. Дипкапха
  5. Лучшее из ML Python

Я надеюсь, что это помогает!

Посетите меня в моем LinkedIn или Twitter.

Если вам нравятся мои материалы и вы хотите получить более глубокие знания о данных или просто о повседневной жизни специалиста по данным, подпишитесь на мою новостную рассылку здесь.

Если вы не подписаны как участник Medium, рассмотрите возможность подписки через моего реферала.