Недавно компания O’Reilly Media попросила меня помочь в разработке новой учебной программы, состоящей из трех частей, под названием Pro Series: Data Science. В нашем подходе смешанного обучения для этой серии используются методы перевернутого класса, практические упражнения с записными книжками, чтения из первоисточников, анализ тематических исследований, а также групповые проекты - все это объединено в формате, который является неотъемлемой частью онлайн и частично лично.

Эта учебная программа направлена ​​на растущую потребность в повышении квалификации в корпоративных организациях, а также в сфере B2C. Другими словами, мы проводим курсы для людей, которые уже имеют некоторый опыт работы в отрасли и теперь хотят начать работу в группах по анализу данных. Предварительные требования включают некоторый опыт работы в отрасли, некоторый опыт программирования на Python и алгебру в средней школе. Существует программа сертификации сразу после последовательности из трех курсов; однако это не предназначено для того, чтобы кто-то стал «сертифицированным специалистом по данным», это скорее шаг на пути, который предполагает последующую практическую работу, наставничество в вашей организации и т. д.

Каждый из трех курсов начинается с онлайн-части. Мы начинаем с часового формата живого онлайн-курса, который включает введение, короткие лекции и вопросы и ответы. Затем есть расширенный путь обучения в течение двух недель самостоятельного онлайн-обучения, который включает упражнения из записной книжки, чтения, тематические исследования и т. Д. В этом материале используются разделы последних книг и обучающие видео, и что еще более важно, это выдержки из последние видео с конференций экспертов в области науки о данных, представленные на Strata Data Conference и The AI ​​Conf. Каждый раздел материала в течение этих двух недель онлайн-обучения завершается формирующей самооценкой и интерактивным онлайн-сеансом вопросов и ответов, также известным в рабочие часы с инструктором. Мы также предоставляем репозитории Git с контейнерами Docker с записными книжками Jupyter для всех упражнений, чтобы вы могли использовать их после курса.

Затем мы переходим к личной части, где на два полных дня мы будем заниматься групповыми проектами. Инструктор читает несколько дополнительных лекций, проводит всех через несколько быстрых групповых упражнений «ледокола», затем класс разбивается на группы по 3–4 человека для заключительного проекта. Мы удивим класс набором данных (взятым из открытых данных) плюс набор требований, по которым группы будут сотрудничать, выполнять и представлять. Во время работы над проектом инструктор и технические консультанты будут работать в группах в качестве «консультантов». Затем, в заключительной части, группы по очереди представляют свои результаты, в то время как их коллеги просматривают и дают отзывы.

Групповые проекты объединяют ряд тем и навыков, включая обычных подозреваемых, плюс несколько новых поворотов: подготовка данных, обнаружение и визуализация, машинное обучение, разработка функций, построение и оценка моделей, потоковая передача данных, развертывание моделей, глубокое обучение, трансферное обучение и т. Д. контрольные списки этических норм, вопросы безопасности и конфиденциальности, соответствие требованиям, методы DevOps, руководство командой, переводчик аналитики, координирующий работу с заинтересованными сторонами, создание групп по анализу данных, навыки презентации и критический анализ результатов в области науки о данных. Мы максимально делаем упор на практические упражнения, и мы будем использовать Python плюс его экосистему библиотек с открытым исходным кодом и тесно связанные с ними фреймворки, такие как Pandas, NumPy, Jupyter, PySpark, Spark Streaming, TensorFlow, Skater. Мы также подчеркиваем, что у нас есть прочное основание в истории того, что привело к достижениям в области науки о данных, возвращаясь к первоисточникам. Я написал много нового материала, чтобы включить это, в том числе новую мини-книгу, которая внимательно рассматривает «Пятьдесят лет управления данными» и не только.

Я особенно рад тому, как мы включаем последние видео конференций от Strata Data и AI Conf. Одно из моих самых больших сомнений по поводу разработки учебной программы по науке о данных заключается в том, что такой контент так быстро устаревает. Например, проект Apache Spark имеет контракт с Apache Software Foundation, согласно которому он должен выпускать новую версию каждые 90 дней. Следовательно, любая книга или видео о Spark, которым исполнилось 2 года, будут выпущены уже на 8 устаревших. Использование видеоконференцсвязи гарантирует, что на этих курсах будут представлены самые свежие и актуальные материалы непосредственно от экспертов в данной области и руководителей проектов с открытым исходным кодом.

Первый курс охватывает введение в науку о данных - как и следовало ожидать. Второй курс переключает передачи, чтобы подготовить людей к работе с командами разработчиков платформ (DevOps, SRE, systems eng и т. Д.) Для запуска моделей в производство. Не «как стать инженером данных», а как продуктивно работать с инженерами. Третий курс посвящен лидерству в области науки о данных. Не «как стать менеджером», а как быть наставником, как стать руководителем группы, как начать свой путь к менеджменту и, что наиболее важно, как эффективно работать с руководством компании. Такие вопросы, как конфиденциальность данных, этика, соответствие нормативным требованиям, дрейф модели, нарушения безопасности и т. Д., Быстро превращаются в вопросы, переданные на рассмотрение исполнительному персоналу и совету директоров, и могут даже потребовать раскрытия информации акционерами. Хотя о трениях между специалистами по обработке данных и инженерами по данным было опубликовано много публикаций, по-настоящему важные проблемы связаны с взаимодействием с клиентами «последней мили», и это почти все вопросы бизнеса. Мы рассмотрим весь спектр и включим наиболее важные аспекты в наши групповые проекты с экспертной оценкой.

FWIW, я буду преподавать первую последовательность - в Нью-Йорке для очной части - и регистрация уже началась. После первой последовательности у нас выстроились в очередь другие опытные инструкторы, чтобы преподавать это в дополнительных районах метро.

Присоединяйтесь к нам в Pro Series: Data Science!

Расписание курсов:

Дополнительные ресурсы: