С ростом популярности Data Science (хотя и не везде) было предложено множество курсов, обещающих иногда больше, чем возможно, а в некоторых случаях то, что не нужно, или не хватает того, что нужно. Фальшивых курсов относительно много. В этом посте мы покажем, что должен (и не должен) охватывать настоящий курс Data Science.

Настоящий курс Data Science должен охватывать требуемую квалификацию. Это кажется очевидным. Но есть критические области. Курс может быть ориентирован на руководителей, менеджеров или на тех, кто хочет стать учеными данных. Эти группы имеют заметно разные интересы и требования к курсам. Курсы для руководителей и менеджеров должны быть больше ориентированы на возможности и способности, тогда как другая группа требует действительно технических курсов.

Содержание курса

Настоящий технический курс (или серия курсов) по науке о данных должен включать следующее:

  • Предварительная обработка данных: выбор и извлечение признаков, работа с пропущенными значениями, преобразование данных для отдельных и множественных предикторов, нелинейные преобразования предикторов, добавление и удаление предикторов, средства устранения серьезного дисбаланса классов.
  • Настройка модели, переобучение, компромисс смещения и дисперсии, разделение данных и стратегия модели, методы повторной выборки, перекрестная проверка.
  • Классическое статистическое моделирование: простая и множественная линейная регрессия, логистическая регрессия, линейный дискриминантный анализ, анализ главных компонент.
  • Регуляризация через усадку (гребенчатая регрессия, лассо), регуляризация через инкрементную модель, выбор подмножества, методы уменьшения размерности, регрессия в больших размерностях.
  • Методы на основе дерева, сплайны регрессии, сплайны сглаживания, машины опорных векторов, нейронные сети, методы на основе правил.
  • Методы ансамбля: бэггинг, случайный лес, AdaBoost, повышение градиента, параллельные и последовательные ансамбли.
  • Программная инженерия: объектно-ориентированная разработка ПО, функциональное программирование, чистый код, базовые принципы (KISS, DRY, DRITW, Kaizen, эмпирические правила).
  • Моделирование баз данных, реляционные базы данных, SQL, базы данных noSQL.
  • Apache Spark: модель программирования Spark, PySpark, RDD, Scala для специалистов по данным, SparkSQL, MLlib.
  • R (в лучшем случае с RStudio и Shiny) и/или Python (в лучшем случае с Anaconda).
  • Глубокое обучение с TensorFlow и Keras.

О чем я рассказываю на своих семинарах

Я предлагаю курсы по всему вышеперечисленному, а также для руководителей и менеджеров. Курсы могут проводиться на вашем собственном сайте или в выбранных местах. Пожалуйста, свяжитесь со мной для получения дополнительной информации.