Пару месяцев назад меня осенило, что мои личные знания в области ИИ можно было бы немного улучшить. Вот почему я потратил время, чтобы освежить в памяти различные понятия, начиная от сбора данных и заканчивая оценкой развернутой модели.
Освежая свои знания, я также подумал о том, как я мог бы поделиться этим с сообществом, а также получить краткий обзор всего, что я узнал, с указателями и советами о том, на что мне следует обратить внимание, чтобы более подробно изучить тему. В конечном итоге это заставило меня создать следующие боевые карты, которые, я надеюсь, будут полезны для всех, чтобы распечатать и использовать их в качестве своего рода «шпаргалок».
Как вы могли заметить, на шаге 2 sklearn не используется. Это связано с тем, что я хотел провести четкое различие между инженером данных и специалистом по данным. следующие рассуждения:
- Инженер данных. Они часто используют Spark, поэтому мы хотим использовать силу и возможности масштабирования Spark, не полагаясь полностью на головной узел. Поэтому я максимально использую примеры Pandas, которые можно масштабировать через платформу Koalas.
- Data Scientist: они часто используют разные библиотеки, в том числе sklearn.
Примечание. Я понимаю, что они далеки от совершенства, но я хочу, чтобы они были такими. Если вы столкнетесь с какими-либо замечаниями, пожалуйста, опубликуйте их ниже, и я постараюсь их учесть :)
Версия для печати:
- "Сбор данных"
- Очистка, подготовка и модификация данных
- Обучение и настройка модели
- Оценка модели
- Один пейджер