Как подготовиться к экзамену за 5 шагов и чего не делать.

Сертификат AWS Machine Learning немного отличается от всех других сертификатов; вам нужно хорошо разбираться во всех вещах Amazon Web Services, а также понимать основы машинного обучения и глубокого обучения. Это может быть непростой задачей в зависимости от вашего опыта.

Этот экзамен проходят многие люди: от инженеров до экспертов по облачным технологиям, а также от специалистов по обработке данных и аналитиков. Конечно, идеальным с точки зрения хороших шансов на сдачу экзамена было бы быть опытным мастером на все руки, который может чувствовать себя комфортно во всех этих темах. Это случается редко, поскольку люди обычно хорошо разбираются в своей области, но более слабые, когда речь идет о вещах, которые они не изучали или с которыми не работали. Все мы знаем, что единорогов не существует

Чтобы помочь в этой ситуации, эта статья покажет вам:

  • Даже не имея опыта во всех темах, можно наверстать упущенное.
  • Ресурсы существуют, но вам также придется поэкспериментировать с сервисами AWS самостоятельно.
  • Когда дело доходит до понимания AWS, нет ничего лучше, чем опыт из первых рук.
  • Тайм-менеджмент на экзамене чрезвычайно важен.
  • Полное незнание или недостаточные знания о машинном обучении и глубоком обучении - это билет к неудаче.

Стратегия

Подводя итог, вот 5 баллов, которые помогли мне сдать экзамен. Мы рассмотрим их ниже:

1- Прочтите технические документы, особенно Sagemaker, но в идеале все из основных сервисов AWS.

2- Попробуйте как можно больше сервисов AWS, если вы раньше с ними не работали. Играйте с ними, чувствуйте себя комфортно.

3- Забудьте о процентах официальной структуры контента AWS; имейте в виду, что это 50% ML / DL, 25% Sagemaker и 25% другие сервисы AWS.

4- Не зацикливайтесь и / или не думайте, сколько времени у вас осталось; 180 минут достаточно, но используйте это время с умом.

5- Не дайте себя обмануть постоянным приемам экзамена, которые пытаются вас запутать. Как только вы прочитаете сложный вопрос как следует, вы заметите, что это не так уж и сложно.

1- Прочтите официальные документы

Хотя вы можете найти онлайн-ресурсы и платные курсы, лучший способ понять AWS - это прочитать документацию по сервисам. Да, очень много. Но по мере их изучения вы сможете соединить точки воедино и получить общее и столь необходимое понимание. Бесплатные учебные курсы Amazon также могут помочь вам, но некоторые из них представляют собой простые учебные пособия, которые не дадут вам глубоких знаний по предмету (обычно это внутренние презентации и общедоступные формы). Самая важная услуга - это Sagemaker, и именно здесь вам следует приложить усилия. Поверните оттуда.

2- Поиграйте с AWS

Если у вас его еще нет, откройте аккаунт AWS и начните использовать его сервисы машинного обучения. Уровень бесплатного пользования предлагает часы для вычислений и позволяет использовать более 60 сервисов бесплатно в течение 12 месяцев. Там есть отличные демонстрации и бесплатные инструменты, которые помогут вам разобраться в сценариях использования и сценариях, а также самостоятельно попробовать предварительно обученные алгоритмы. Это бесценно.

3- Процент контура содержания

Amazon предоставляет список доменов, которые вам необходимо знать: Разработка данных и Реализации и операции машинного обучения (каждая составляет 20% экзамена), Исследовательские данные Анализ (24%) и Моделирование (36%). После сдачи экзамена я считал, что в них нет особого смысла. Более реальный раздел будет таким:

Машинное обучение и глубокое обучение (50% экзамена)

Вам должен быть комфортно работать со всем циклом машинного обучения; от сбора и подготовки данных до исследовательского анализа и моделирования. Первостепенное значение имеет хорошее понимание того, как формулировать проблемы и измерять успех. Какие показатели использовать, играют важную роль на экзамене. Какие типы данных (структурированные, неструктурированные) существуют и что делает данные хорошими в проекте машинного обучения.

Подготовка данных - ключевой шаг в науке о данных, и вам следует ожидать несколько вопросов по обработке пропущенных значений, категориальному кодированию, условному исчислению и другим этапам разработки функций. Обратите внимание на масштабирование (нормализацию и стандартизацию) для числовых данных, n-граммов и мешка слов для текстовых данных, а также Term Frequency - Inverse Document Frequency (tf-idf), так как вам, возможно, придется решать простые проблемы с данными корпуса. Также помните, как и почему формат recordIO protobuf будет лучше работать в заданиях AWS.

Некоторые вопросы могут представлять вам визуализацию данных и спрашивать вас об этих данных. Это явно попытка проверить свои навыки анализа данных. Вам должно быть комфортно знать различные типы графиков и их цель (сравнение, состав, отношения и распределения). Знайте, как они используются и как они могут помочь в исследовательском анализе данных.

В экзамене явно присутствует и модельный дизайн. Как выбрать хорошую модель, какой подход машинного обучения лучше в конкретной ситуации (регрессии, классификации) и какие показатели и стратегии следует использовать. Что касается алгоритмов, вам должно быть комфортно со всей классикой (K-средние и его различия с K-ближайшими соседями, случайными лесами и деревьями решений), а также с сверточными нейронными сетями .

Вам нужно будет понять концепции данных обучения, тестирования и проверки, определить потенциальные ошибки, вызванные недостаточным разбиением, и дополнительные меры, которые можно использовать для увеличения ценности данных. Какого рода обобщение мы ищем в процессе машинного обучения, как оно будет использоваться (в режиме реального времени, пакетная обработка, приложения API) и как определить, работает ли обобщение (тесты точности), - это повсеместная тема. на всем экзамене. Вам нужно будет объяснить, как работают матрицы неточностей, отзыв, точность и ложноположительный коэффициент.

Что касается оценки моделей, вам необходимо понимать автономную и онлайн-валидацию и, по крайней мере, концептуально разбираться в канареечных развертываниях. Недостаточное и переоснащение и способы их преодоления, точность регрессии (RMSE), гистограммы и асимметрия в них, показатели AUC в классификации и все компромиссы в оценке, которые могут потребовать различных оптимизаций, - все это очень важно на экзамене. Кроме того, вам очень помогут особенности настройки модели и хотя бы некоторое понимание байесовской оптимизации.

Sagemaker (25% экзамена)

Хотя на экзамене от вас ожидают знания машинного обучения, звездой игры является Sagemaker, центральный и ключевой сервис AWS для всего, что связано с искусственным интеллектом. Sagemaker поможет вам пройти весь цикл машинного обучения от начала до конца, и вам, вероятно, придется объяснять, как с ним взаимодействуют сервисы AWS. Имейте в виду, что он будет появляться в вопросах довольно часто, и вам нужно знать его тонкости, когда дело доходит до моделей обучения (как создать API-интерфейс учебного задания, как настроить репозиторий эластичных контейнеров, выводы).

Еще одна важная вещь, которую следует знать, - это встроенные алгоритмы Sagemaker. От линейных обучающихся до машин факторизации, анализа изображений и обнаружения аномалий, а также различий между алгоритмами анализа текста (управление и объяснение, когда использовать LDA, Neural Topic Modeling, Seq2Seq и вспыхивающий текст могут и, вероятно, будут появляться часто). Как широко используемый алгоритм как в задачах регрессии, так и в задачах классификации, XGBoost также проявляется в сравнении с другими алгоритмами. Помните, что необходимо знать основные гиперпараметры и показатели встроенных алгоритмов.

И последнее, но не менее важное: необходимо знать, как запустить модели Sagemaker в производство и как работают ноутбуки Jupyter. В вопросах могут появиться службы хостинга Sagemaker (как создавать конфигурации конечных точек) и конвейеры вывода для объединения алгоритмов, контейнеров докеров и эластичного вывода. Вы также должны знать, как работает автоматическое масштабирование.

Другие сервисы AWS (25% экзамена)

Здесь экзамен становится похожим на другие сертификаты AWS. Если у вас уже есть архитектор решений или сертифицированный специалист по большим данным (у меня не было), все это наверняка будет вам знакомо. Наиболее важными из них являются AWS Glue и Athena (для заданий ETL), семейство Kinesis (для потоковой передачи данных), S3, RDS, DynamoDB и Redshift (как хранилища данных) и экосистема кластера Hadooq Elastic Map Reduce (EMR). Вы должны глубоко понимать, как все они работают, в чем их сильные стороны и почему их следует использовать в конкретных ситуациях. Официальные документы для этих сервисов довольно хороши, но в идеале у вас должен быть некоторый опыт работы с ними. Если это ваш случай, вы защищены.

Некоторые вопросы могут побудить вас выбрать правильный порядок услуг для использования в той или иной бизнес-ситуации. Вам нужно будет знать каждую услугу, ее цель и варианты использования, которые будут представлены вам в вопросах. Помните обо всех инструментах мониторинга и оценки развертываний, которые предлагает AWS. Я бы порекомендовал подробно изучить CloudWatch и CloudTrail, если вы никогда раньше ими не пользовались.

Вы должны знать несколько сервисов для разработчиков ИИ, но хорошая новость в том, что они довольно простые: Forecast, Lex, Personalize, Polly, Rekognition, Transcribe и Translate - все это простые в использовании службы, доступные в консоли, которую вы просто нужно попробовать себя понять.

Для развертываний вне Sagemaker AWS предлагает некоторые вещи, которые вам следует проверить: Elastic Container Service, EC2 AMI, Elastic Map Reduce и локальные варианты (инфраструктуры MXNet и TensorFlow).

4- Время

Хотя у вас будет чуть меньше трех минут на вопрос (чего более чем достаточно), я считаю, что лучшая стратегия - это сначала ответить на все те вопросы, которые вы знаете, - или не сомневаться - а более сложные оставьте на потом.

Это означает, что нужно один раз ответить на вопросы и отметить те, которые вызывают у вас сомнения. Затем посвятите большую часть своего времени сложным вопросам. Если вы все сделаете правильно, у вас может быть даже последние 20–30 минут экзамена, чтобы сделать последнюю проверку и получить интуитивное представление о том, как вы только что прошли.

5- Экзаменационная логика

Вы заметите на экзамене несколько многословных вопросов, но, прочитав их, вы увидите, что они просто пытаются вас запутать. Внимательно прочтите ответы. Даже до самих вопросов. Обычно они указывают на службу или решение лучше, чем вопрос .

Это важный момент: экзамен будет пытаться обмануть вас почти постоянно. Он попытается найти, где ваши знания тоньше, с помощью очень похожих ответов, которые внешне могут выглядеть одинаково. Если вопрос кажется сложным, оставьте его на потом. Худшее, что вы можете сделать, - это застрять в вопросе и потратить на него 10 минут, потому что они, вероятно, вам понадобятся в конце теста.

Также есть вероятность, что вам придется произвести некоторые расчеты. Попросите бумагу и ручку или любой другой вариант в вашем экзаменационном центре. Это может показаться глупым, но возможность записать сомнения и набросать простую математику может изменить правила игры на экзамене, и кто не хочет, чтобы все шансы были в ее / его пользу?

Удачи!

Оригинальная статья здесь.