В настоящее время наука о данных является очень популярной областью, многие технологические компании используют данные для улучшения услуг, продуктов. Поэтому изучение науки о данных, по крайней мере, гарантирует вам возможность работать аналитиком данных, инженером данных, специалистом по данным или кем-то еще. Если вы читаете эту статью, вы можете быть непрофессионалом, который пытается найти онлайн-курс по науке о данных для начала, разработчиком, который ищет онлайн-курс по науке о данных для привычки, или профессионалом, который работает в отрасли науки о данных, но пытается чтобы лучше понять науку о данных (хотя бы пересмотреть некоторые концепции), эта программа также может помочь вам в некоторых аспектах. Кстати, Йоав Фройнд, один из создателей алгоритма AdaBoost, будет вести последний курс — Аналитика больших данных с использованием Spark в этой программе. Его взгляды на некоторые знакомые алгоритмы просто феноменальны.

Этот обзор будет посвящен только Программе MicroMasters по науке о данных, предлагаемой UCsanDiego на edX. Сначала я уточню базовую структуру этой программы и оставлю несколько комментариев. В конце я подытожу свой отзыв, чтобы вы могли определить, подходит ли вам этот курс.

Обзор:

Вся программа стоит 1400 долларов США, студент может подать заявку на финансовую помощь со скидкой до 90% на каждый курс программы. Студент также может бесплатно зарегистрировать каждый курс, но некоторые материалы могут быть недоступны.

Эта программа, названная программой «MicroMasters», предоставляет сертификаты и кредиты для получения степени магистра в Университете Кертина и Рочестерском технологическом институте (RIT). Если кандидат будет принят, программа будет засчитываться как 30% от полной степени магистра в Университете Кертина и 25% курсовой работы, необходимой для получения диплома в RIT соответственно.

Эта программа включает в себя четыре курса:

  1. Python для науки о данных (10 недель): знакомство с python, блокнотами Jupyter, pandas, numpy, matplotlib, git, scikit Learn, NLTK.
    Цели обучения:
    а) Базовый процесс науки о данных
    б) Записные книжки Python и jupyter
    в) Прикладное понимание того, как манипулировать и анализировать некурируемые наборы данных
    г) базовый статистический анализ и методы машинного обучения
    д) как эффективно визуализировать результаты
  2. Вероятность и статистика в науке о данных с использованием Python (10 недель): введение в комбинаторику, дискретную вероятность, условную вероятность и правило Байеса, случайные величины (математическое ожидание, дисперсию и корреляцию), общие семейства распределений, непрерывные распределения. , вероятностные неравенства, концентрация и предельные теоремы, регрессия, выборка, оценка параметров, доверительные интервалы и проверка гипотез.
    Цели обучения:
    Курс научит студентов визуализировать, понимать и рассуждать о вероятностных и статистических концепциях, а также о том, как применять знания учащихся для анализа наборов данных и получения значимых выводов из данных, он будет охватывать как теоретические, так и практические аспекты, и будет начинать каждую тему с мотивации и интуиции, а затем будет приводить строгие аргументы и доказуемые методы. .
  3. Основы машинного обучения (10 недель):знакомит с ближайшими соседями, функциями расстояния, обобщением, генеративным моделированием, линейной алгеброй, линейной регрессией, логистической регрессией, оптимизацией, методами опорных векторов, ядерными методами, деревьями решений, бустингом, случайные леса, кластеризация, информативные прогнозы, глубокое обучение.
    Цели обучения:
    Курс представляет собой интенсивное введение в наиболее широко используемые методы машинного обучения.
    а) обеспечить базовое интуитивное понимание этих методов: для чего они нужны, как они работают, как они соотносятся друг с другом, а также их сильные и слабые стороны.
    б) понимать методы машинного обучения на уровне глубже, углубившись в их математические основы.
  4. Аналитика больших данных с использованием искры (10 недель):вводит иерархию памяти, задержку и пропускную способность, основы искры, фреймы данных и SQL, PCA, k-средние, внутренние измерения, дерево решений, бустинг, случайные леса, нейронные сети. сети и тензорный поток.
    Цели обучения:
    а) Использование крупномасштабных платформ анализа данных (Spark, XGBoost и Tensorflow).
    б) Комбинирование методов статистики и машинного обучения для выполнения больших масштабный анализ, определение статистически значимой закономерности и визуализация статистических сводок.

На каждую неделю предоставляются программные и лекционные материалы, а также задачи и викторины для проверки знаний. Кроме того, студент должен закончить два проекта на первом курсе (Python для науки о данных), на всех курсах, кроме первого, студенту дается задание по программированию на каждую неделю. Конечно, каждый курс включает выпускной экзамен.

Я вижу, что профессионалы пытаются сделать материалы по коду более интерактивными, например, вы можете настроить некоторые параметры и сразу увидеть результат, чтобы лучше понять алгоритмы в материалах по программированию. Некоторые задания по программированию также сложны, студенту может потребоваться несколько дней, чтобы решить проблемы в задании. Кроме того, некоторые наборы задач очень интересны, особенно в разделе «Вероятность и статистика в науке о данных с использованием Python», он включает в себя множество вопросов, которые могут вас удивить. Например:

1) The set {1,2,3} contains 6 non-empty intervals: {{1}, {2}, {3}, {1,2}, {2,3}, {1,2,3}}, how many non-empty intervals does {1,2,..., 10} contain?
2) A rectangle in an m*n chessboard is a cartesian product SxT, where S and T are non-empty intervals in {1,...,m} and {1,...,n} respectively. How many rectangles does the 3*6 chessboard have?

Однако позже на некоторых лекциях предполагается, что вы заранее много читаете об определенных функциях в блокноте jupyer и быстро проходите их (профессора просто хотят показать, на что способны эти методы), что может быть недостатком для студентов, которые просто хотят в первую очередь усвоить некоторые важные концепции, но с материалами студенты могут продолжать повторять, пока полностью не поймут лекции. Ведь практика важна. Более того, в финальном курсе Йоав Фройнд также фокусируется не только на том, как применять модели, но и на том, каковы различия между моделями, и демонстрирует множество методов сжатия с использованием машинного обучения, несмотря на то, что у курса очень ограниченные ресурсы для их более подробного изучения. глубоко.

Стоит ли мне проходить эту программу?

Если вы знаете основы линейной алгебры, исчисления, вы находитесь в хорошем месте, это может определенно улучшить ваше понимание науки о данных. Эта программа также предлагает несколько лекций по линейной алгебре для студентов, которые ранее не знали эти темы. Задания, связанные с этими темами, также имеют пошаговые инструкции (выполнение остается за вами), так что это не будет проблемой, если вы действительно вникнете в это.

Самый сложный курс — «Вероятность и статистика в науке о данных с использованием Python». Многие студенты говорили, что многие наборы задач не связаны с лекциями, потому что этот курс требует некоторой математической подготовки, студентам также может потребоваться выполнить некоторые вычисления в более поздних наборах задач. (функция непрерывной плотности и т. д.), но эти наборы задач учитываются менее чем в 5% от всего курса, так что я считаю, что это нормально.

Что касается магистерских направлений, к сожалению, другие программы MicroMasters, включая MIT Программа MicroMasters по статистике и науке о данных, предоставляют больше вариантов, поэтому, если вы просто ищете путь к степени магистра, я не буду рекомендовать эту программу для вас.

Если вы можете посвятить этой программе 10 часов в неделю и можете позволить себе это время/фактические денежные затраты на эту программу, при условии, что вы признаете приведенную выше информацию, это хороший выбор для изучения науки о данных.