Пару месяцев назад меня осенило, что мои личные знания в области ИИ можно было бы немного улучшить. Вот почему я потратил время, чтобы освежить в памяти различные понятия, начиная от сбора данных и заканчивая оценкой развернутой модели.

Освежая свои знания, я также подумал о том, как я мог бы поделиться этим с сообществом, а также получить краткий обзор всего, что я узнал, с указателями и советами о том, на что мне следует обратить внимание, чтобы более подробно изучить тему. В конечном итоге это заставило меня создать следующие боевые карты, которые, я надеюсь, будут полезны для всех, чтобы распечатать и использовать их в качестве своего рода «шпаргалок».

Как вы могли заметить, на шаге 2 sklearn не используется. Это связано с тем, что я хотел провести четкое различие между инженером данных и специалистом по данным. следующие рассуждения:

  • Инженер данных. Они часто используют Spark, поэтому мы хотим использовать силу и возможности масштабирования Spark, не полагаясь полностью на головной узел. Поэтому я максимально использую примеры Pandas, которые можно масштабировать через платформу Koalas.
  • Data Scientist: они часто используют разные библиотеки, в том числе sklearn.

Примечание. Я понимаю, что они далеки от совершенства, но я хочу, чтобы они были такими. Если вы столкнетесь с какими-либо замечаниями, пожалуйста, опубликуйте их ниже, и я постараюсь их учесть :)

Версия для печати:

Шаг 1 — Сбор данных

Шаг 2 — Очистка данных, подготовка и изменение

Шаг 3 — Обучение и настройка модели

Шаг 4 — Оценка модели