Аналитический контрольный список - Руководство специалиста по анализу данных

Контрольный список pdf | Подготовка данных | Исследовательский анализ данных | Сбор данных

Аналитический контрольный список - Руководство специалиста по анализу данных

Справочный контрольный список для профессионалов в области анализа данных

Если вы не планируете, вы планируете потерпеть неудачу. Каждый проект требует планирования. Построение модели машинного обучения ничем не отличается. В этой статье мы узнаем, как планировать действия по интеллектуальному анализу данных и какие шаги следует выполнять во время исследовательского анализа данных (EDA). Эта статья - не практическое руководство, а справочный контрольный список для профессионалов в области анализа данных. Он предоставит вам список соображений при построении модели машинного обучения.

Все мы слышали о CRISP-DM: межотраслевом стандартном процессе интеллектуального анализа данных. Это модель, которая описывает наиболее широко используемые подходы к анализу данных, и ей следует большинство экспертов по интеллектуальному анализу данных.

Контрольный список здесь разбит в соответствии с процессами CRISP-DM:

1. Деловое понимание:

Попробуйте задать эти вопросы, прежде чем погрузиться в анализ данных.

Какую главную тему или проблему пытается решить этот проект?
Есть ли у вас все данные для обсуждения этой темы, а если нет, можете ли вы их получить?
Что должно быть самым важным результатом этого проекта?
Кто ваши стейкхолдеры и почему этот проект для них ценен?

2. Понимание и подготовка данных:

Во-первых, спросите себя, доверяете ли вы источнику данных. Качество данных должно иметь первостепенное значение при выборе источников данных.

Анализ данных -

Сколько наблюдений и функций в наборе данных?
Пытаться разобраться в каждой особенности интуитивно? Обратитесь к метаданным, если они доступны.
Имеют ли смысл значения для каждой функции и находятся ли они в правильном масштабе?
Отсутствуют ли какие-либо данные, и ожидаете ли вы проблемы с отсутствием данных?
Все ли функции создаются с использованием правильного типа данных?

Построить распределения -

Постройте графики распределения для всех функций и посмотрите, имеет ли каждый из этих распределений смысл для вас.
Ищите выбросы и разреженные данные.
Если вы обнаружите какие-либо неожиданные распределения, присмотритесь к этим функциям.

Корреляции -

Сегментируйте категориальные признаки и / или целевую переменную.
Проверьте корреляцию между функциями, построив корреляционную матрицу.

Очистка данных -

Отбросьте повторяющиеся наблюдения.
Отбросьте все не относящиеся к делу наблюдения.
Проверьте, есть ли какие-либо особенности, которые следует закодировать как бинарные индикаторные переменные. Например, такая функция, как «Пол», может быть закодирована как 1 для женщин и 0 для мужчин.
Исправьте опечатки и непоследовательное использование заглавных букв в категориальных признаках.
Проверьте классы в категориальных признаках, которые относятся к одному и тому же. (e .g. «Неприменимо» и «Неприменимо» означают одно и то же)
Рассмотрите возможность исключения выбросов. Помните, что выбросы невиновны, пока вина не будет доказана, поэтому убедитесь, что у вас есть веская причина для удаления каждого выброса.
Обозначьте отсутствующие значения в категориальных объектах.
Отметьте и заполните отсутствующие значения в числовых объектах.
Проверьте, требуется ли какая-либо форма обработки данных, например агрегирование данных.
Сгруппируйте разреженные классы по категориальным признакам.
Проверьте, можно ли разработать какие-либо новые функции.

Разработка функций -

Основываясь на ваших знаниях в предметной области, посмотрите, есть ли какие-либо функции, которые вы могли бы разработать, которые потенциально улучшили бы производительность вашей модели.
Есть ли какие-нибудь функции взаимодействия, которые вы могли бы создать? Например, если у вас есть ежемесячный доход, вы можете создать функцию «годовой доход»
Есть ли какие-нибудь особенности индикатора, которые вы могли бы создать? Например, годовой доход выше 100 тыс. может быть отмечен как "высокий", а доход ниже 30 тыс. - как "низкий".
Сгруппируйте разреженные классы по своим категориальным признакам.
Проверьте, есть ли какие-либо порядковые категориальные признаки, которые можно закодировать как числовые.
Есть ли какой-нибудь потенциально полезный набор данных, который вы могли бы объединить?
Создайте фиктивные переменные для категориальных функций.

Подумайте о том, чтобы отказаться от ненужных и избыточных функций. (Например, столбцы индекса, столбцы с именами и т. Д.)

3. Моделирование и оценка:

При выборе модели задайте себе вопрос:

Почему вы выбрали этот алгоритм?
Какие основные гиперпараметры нужно настроить для выбранной вами модели?
Затем проверьте, разделили ли вы набор данных на отдельные наборы поездов и тестов.
Установите случайное начальное число для воспроизводимых результатов.
Настройте объекты GridSearchCV для каждого из ваших алгоритмов для выполнения перекрестной проверки и настройки гиперпараметров.
Модели пихты с использованием каждого алгоритма. Проверьте модели на лучший результат перекрестной проверки.
Проверьте, какая модель работает лучше всего на тестовом наборе.
При необходимости используйте любые дополнительные показатели производительности для оценки модели.

Обратите внимание, что простая проверка всех пунктов в этом списке не гарантирует идеальной модели, но постановка этих вопросов и их обсуждение определенно поможет вам улучшить свой анализ и, в конечном итоге, результаты.

Спасибо за чтение. Мы будем благодарны за любые отзывы.

Свяжитесь с нами, если у вас возникнут дополнительные вопросы, через LinkedIn.

Swapnil Kangralkar
Swapnil Kangralkar. Я специалист по данным среднего уровня из Оттавы, Канада. swapnilin.github.io

Аналитический контрольный список - Руководство специалиста по анализу данных

Контрольный список pdf | Подготовка данных | Исследовательский анализ данных | Сбор данных

Аналитический контрольный список - Руководство специалиста по анализу данных

Справочный контрольный список для профессионалов в области анализа данных

Вопросы по теме