Сдача экзамена - это эффективный способ накопить фундаментальные знания и определить путь обучения по определенной теме. Как архитектор программного обеспечения в компании среднего размера, важно быть подготовленным со стратегическими знаниями до того, как бизнес-сценарии начнут набирать обороты. «ИИ» и «машинное обучение» - модные слова, часто возникающие на деловых встречах, они побуждают внутреннее стремление опередить это и начать добавлять машинное обучение в качестве одного из инструментов в моем пуле знаний.

До начала

Мой уровень знаний в области машинного обучения в лучшем случае только зарождается. Около 18 месяцев назад я сдал сертификационный экзамен AWS Solution Architect Associate. С тех пор у меня была возможность применить несколько сервисов AWS на работе и запустить нашу первую платформу SaaS на AWS. Несмотря на то, что для сдачи этого экзамена необязательно иметь предварительные сертификаты, рекомендуется иметь дополнительный сертификат для начала.

Первая половина подготовки (около 3 недель)

Я начал с Специального учебного курса по машинному обучению, сертифицированного AWS в LinuxAcademy. Это был идеальный выбор для подготовки к экзамену для тех, у кого нет предварительных знаний о машинном обучении. Это 21-часовой курс, и тренер Майк Чемберс проделал огромную работу по вживлению в мою голову большинства фундаментальных концепций. Я даже научился некоторым техникам презентации из его курса.

  1. Жизненный цикл машинного обучения. От подготовки данных - ›обучения модели -› развертывания модели.
  2. Такие концепции машинного обучения, как оптимизация, регуляризация, проверка и гиперпараметры. После первого раунда обучения я не полностью понимал, когда и как использовать эти методы, но это помогло мне узнать эти названия и некоторые из этих концепций.
  3. Охват встроенных алгоритмов AWS SageMaker. Этот курс отличается от других курсов подготовки к экзаменам, которые обычно пытаются заполнить как можно больше тем, чтобы помочь вам сдать экзамен. Этот курс больше пытается объяснить сложные, пугающие математические концепции машинного обучения в понятной и доступной форме. Майк использует очень милые маленькие примеры, простые диаграммы, иногда с юмором, чтобы объяснить эти алгоритмы. Возможно, это не поможет мне напрямую ответить на несколько вопросов на экзамене, но помогло мне понять, как работают эти алгоритмы.
    - Анализ основных компонентов (PCA)
    - Линейная регрессия
    - Логистическая регрессия < br /> - Машина опорных векторов (SVM). После того, как я изучил курс машинного обучения Эндрю Нга во второй половине подготовки, я почувствовал, что его упрощенное объяснение не совсем точное, однако с точки зрения экзамена это не имело особого значения.
    - Деревья решений
    - Случайный лес. AWS имеет встроенный алгоритм Random Cut Forest. Не путайте со случайным лесом.
    - К-средние
    - К-ближайший сосед
    - LDA (скрытое распределение Дирихле)
    - Концепции глубокого обучения
    - Сверточные нейронные сети (CNN)
    - Рекуррентные нейронные сети (RNN)
    Я бы не стал комментировать, насколько точны упрощенные объяснения Майка, но эти объяснения помогли мне быстро вспомнить, что делал каждый алгоритм и как их выбирать. в данном сценарии. Я бы хотел, чтобы он объяснил остальные алгоритмы из 17 встроенных алгоритмов AWS SageMaker.
  4. Матрица путаницы и концепции того, как измерить производительность модели. Маленькие шутки Майка о «чувствительности» и «специфичности» и тщательно подобранные реплики в образе действительно помогли мне быстро их запомнить.
  5. Использование SageMaker для подготовки данных, обучения и развертывания моделей. Его практические занятия интересно смотреть и опробовать.
  6. Встроенные сервисы искусственного интеллекта AWS, такие как Rekognition, Comprehend, Poly, Textract и т. Д. Майк использовал Rekognition, чтобы создать лабораторию, чтобы идентифицировать себя, замаскированного под вора на картинке, - интересный проект, который стоит попробовать.

После первого раунда подготовки я взял образцы вопросов с веб-сайта экзамена AWS Machine Learning Specialty и правильно ответил примерно на треть. Теперь я знаю, что мне нужно продолжить изучение множества деталей. Я подумал, что мне нужно будет пройти больше экзаменационных курсов, чтобы сдать экзамен.

Что касается знаний, мне все еще было не очень ясно, какие детали мне нужно было узнать больше, когда я готовился к экзамену. Электронный учебный курс AWS Готовность к экзаменам: сертифицированное AWS Machine Learning - Specialty ответил на эти вопросы. Это курс продолжительностью четыре с половиной часа, и после того, как я прошел его и опробовал пробные экзаменационные вопросы, я обнаружил, что у меня есть более четкое представление о том, чего мне не хватало, чтобы сдать экзамен.

  1. Методы подготовки данных и способы их использования с сервисами AWS. А именно: Клей, Афина, ЭМИ, Кинезис.
  2. Математические рассуждения машинного обучения. Это поможет определить, когда использовать нормализацию, а когда - оптимизацию. Математическое обоснование различных типов показателей. Далее, как выбрать, какие гиперпараметры настраивать для различных задач вывода.

Вторая половина подготовки (еще 3 недели)

AWS Certified Machine Learning Specialty от Acloud.Guru - второй курс, который я выбрал. Оказалось, что этот курс был именно тем, что мне было нужно. Это совершенно другой стиль и другой акцент на областях знаний по сравнению с первым курсом, который я взял в LinuxAcademy.

Курс организован по 4 экзаменационным доменам с огромным подробным списком экзаменационных заданий. Этот курс заполнил мои пробелы в знаниях по:

  1. Методы инженерии данных. Такие, как текстовые функции, даты инженерии. Методы разработки числовых признаков, такие как нормализация, стандартизация и квантильное разбиение. Методы обработки пропущенных значений, такие как контролируемое обучение, среднее значение, медиана, режим и отбрасывание. Методы выбора компонентов, такие как PCA и Object2Vec, и удаление компонентов.
  2. Сервисы AWS для инженерии данных. Такие как Kinesis, Glue, Athena, EMR, Data Pipeline и DMS.
  3. Анализ и визуализация данных. Эта часть отсутствует в первом курсе. Однако как с точки зрения науки о данных, так и с чисто экзаменационной точки зрения важно понимать все виды визуализации данных, такие как точечная диаграмма, пузырьковая диаграмма, гистограмма, линейная диаграмма, гистограмма, ящичные диаграммы и т. Д.

После того, как я прошел эти два курса, остался один пробел, и по совпадению это также самая сложная часть машинного обучения. Математические теории машинного обучения и глубокого обучения. По словам Майка Чемберса, этот экзамен является единственным экзаменом AWS, который не на 100% посвящен сервисам AWS, а более половины из них посвящен машинному обучению за пределами AWS. Думаю, большинство людей согласятся с тем, что курс Эндрю Нг Машинное обучение на Coursera - идеальный ресурс, чтобы восполнить этот пробел. Я не ждал 11 недель, чтобы закончить полный курс, а вместо этого следил за плейлистом Youtube того же курса и сосредоточился на понимании следующих концепций:

  1. Глава о линейной регрессии, посвященная изучению того, как математика применяется в машинном обучении. и как гипотеза обобщается на основе наборов данных.
  2. И линейная регрессия, и логистическая регрессия, чтобы изучить концепции функции стоимости, идею минимизации функции стоимости J с помощью приличного градиента. Какие проблемы могут вызвать переоснащение? Как скорость обучения влияет на сходимость глобальных минимумов? Идеи использования регуляризации для корректировки функции затрат с целью устранения переобучения.
  3. Различные метрики для измерения производительности модели. Например, RMSE для линейной регрессии, метрики путаницы для классификации.
  4. Основные концепции нейронной сети. Такие как функция активации, вес, смещение, прямое распространение, обратное распространение, входной слой, скрытый слой, выходной слой и т. Д.

Я изучал только главы с 1 по 9 и пропустил линейную алгебру и октаву. Цель прохождения этого курса - добавить некоторые детали в основу моих знаний, созданную на основе предыдущих двух курсов. После того, как я получил знания на предыдущих курсах, в частности, на курсе Майка Чемберса, математические формулы перестали быть такими устрашающими.

С точки зрения подготовки к экзаменам, курс Эндрю Нг научил меня математическим теориям гиперпараметров во встроенных алгоритмах AWS. Кроме того, это дает мне представление о том, как и что настраивать эти гиперпамаметры. Например, скорость обучения, эпохи, batch_size, dropout_rate, momentum и weight_decay и т. Д. Кроме того, общие метрики, которые используются для настройки модели. Такие как точность, прецизионность, f1, RUC, RMSE и т. Д.

Прежде чем приступить к написанию экзамена, настоятельно рекомендуется ознакомиться с документацией по SageMaker. Во время подготовки, когда я сталкиваюсь с неопределенными вопросами пробных экзаменов, связанных с развертыванием, мониторингом и безопасностью, я всегда обращаюсь к документации SageMaker и читаю соответствующие главы.

Сдача экзамена

Трехчасовой экзамен был утомительным. У меня было всего 15 минут, и я потратил их на рассмотрение помеченных вопросов. Через несколько дней вышел окончательный результат; Я набрал 863 из 1000 с проходным баллом 750. Опыт подсказывает мне, что этот экзамен касается не только сервисов AWS и встроенных алгоритмов SageMaker. Я также столкнулся с вопросами, связанными с алгоритмами или концепциями, которые я никогда раньше не видел в SageMaker, или с учебными курсами, которые я прошел. Например, наивный байесовский классификатор или совместная фильтрация для рекомендательных систем. Эти вопросы просты для людей, которые работали с машинным обучением или глубоким обучением, и, вероятно, являются базовыми концепциями, но поскольку у меня не было предыдущих знаний машинного обучения, они были для меня новыми, и, как говорится, я все еще мог использовать то, что я узнал, исключить неправильные ответы.

После экзамена

Поскольку я еще новичок в машинном обучении, сдача экзамена не сразу делает меня компетентным специалистом по данным, однако мне довольно ясно, что будет дальше после экзамена? Инжиниринг данных требует практики. Как вы извлекаете функции из озера данных для своей модели машинного обучения? Это требует практики и постоянного обучения. Настройка гиперпараметров - это не искусство, это наука, основанная на математических формулах. Я не прошел курс Эндрю Нг во время подготовки к экзамену, поэтому я зарегистрировал его полный курс на coursera, чтобы продолжить этот путь. Шагните в реальный мир, для любого специалиста по машинному обучению: как мы можем использовать полученные знания, чтобы помочь лицам, принимающим бизнес-решения, найти применение машинного обучения и открыть для себя новые возможности для бизнеса.

Удачи вам с экзаменом по специальности AWS Certified Machine Learning Speciality.