Контрольный список pdf | Подготовка данных | Исследовательский анализ данных | Сбор данных

Аналитический контрольный список - Руководство специалиста по анализу данных

Справочный контрольный список для профессионалов в области анализа данных

Если вы не планируете, вы планируете потерпеть неудачу. Каждый проект требует планирования. Построение модели машинного обучения ничем не отличается. В этой статье мы узнаем, как планировать действия по интеллектуальному анализу данных и какие шаги следует выполнять во время исследовательского анализа данных (EDA). Эта статья - не практическое руководство, а справочный контрольный список для профессионалов в области анализа данных. Он предоставит вам список соображений при построении модели машинного обучения.

Все мы слышали о CRISP-DM: межотраслевом стандартном процессе интеллектуального анализа данных. Это модель, которая описывает наиболее широко используемые подходы к анализу данных, и ей следует большинство экспертов по интеллектуальному анализу данных.

Контрольный список здесь разбит в соответствии с процессами CRISP-DM:

1. Деловое понимание:

Попробуйте задать эти вопросы, прежде чем погрузиться в анализ данных.

  • Какую главную тему или проблему пытается решить этот проект?
  • Есть ли у вас все данные для обсуждения этой темы, а если нет, можете ли вы их получить?
  • Что должно быть самым важным результатом этого проекта?
  • Кто ваши стейкхолдеры и почему этот проект для них ценен?

2. Понимание и подготовка данных:

Во-первых, спросите себя, доверяете ли вы источнику данных. Качество данных должно иметь первостепенное значение при выборе источников данных.

Анализ данных -

  • Сколько наблюдений и функций в наборе данных?
  • Пытаться разобраться в каждой особенности интуитивно? Обратитесь к метаданным, если они доступны.
  • Имеют ли смысл значения для каждой функции и находятся ли они в правильном масштабе?
  • Отсутствуют ли какие-либо данные, и ожидаете ли вы проблемы с отсутствием данных?
  • Все ли функции создаются с использованием правильного типа данных?

Построить распределения -

  • Постройте графики распределения для всех функций и посмотрите, имеет ли каждый из этих распределений смысл для вас.
  • Ищите выбросы и разреженные данные.
  • Если вы обнаружите какие-либо неожиданные распределения, присмотритесь к этим функциям.

Корреляции -

  • Сегментируйте категориальные признаки и / или целевую переменную.
  • Проверьте корреляцию между функциями, построив корреляционную матрицу.

Очистка данных -

  • Отбросьте повторяющиеся наблюдения.
  • Отбросьте все не относящиеся к делу наблюдения.
  • Проверьте, есть ли какие-либо особенности, которые следует закодировать как бинарные индикаторные переменные. Например, такая функция, как «Пол», может быть закодирована как 1 для женщин и 0 для мужчин.
  • Исправьте опечатки и непоследовательное использование заглавных букв в категориальных признаках.
  • Проверьте классы в категориальных признаках, которые относятся к одному и тому же. (e .g. «Неприменимо» и «Неприменимо» означают одно и то же)
  • Рассмотрите возможность исключения выбросов. Помните, что выбросы невиновны, пока вина не будет доказана, поэтому убедитесь, что у вас есть веская причина для удаления каждого выброса.
  • Обозначьте отсутствующие значения в категориальных объектах.
  • Отметьте и заполните отсутствующие значения в числовых объектах.
  • Проверьте, требуется ли какая-либо форма обработки данных, например агрегирование данных.
  • Сгруппируйте разреженные классы по категориальным признакам.
  • Проверьте, можно ли разработать какие-либо новые функции.

Разработка функций -

  • Основываясь на ваших знаниях в предметной области, посмотрите, есть ли какие-либо функции, которые вы могли бы разработать, которые потенциально улучшили бы производительность вашей модели.
  • Есть ли какие-нибудь функции взаимодействия, которые вы могли бы создать? Например, если у вас есть ежемесячный доход, вы можете создать функцию «годовой доход»
  • Есть ли какие-нибудь особенности индикатора, которые вы могли бы создать? Например, годовой доход выше 100 тыс. может быть отмечен как "высокий", а доход ниже 30 тыс. - как "низкий".
  • Сгруппируйте разреженные классы по своим категориальным признакам.
  • Проверьте, есть ли какие-либо порядковые категориальные признаки, которые можно закодировать как числовые.
  • Есть ли какой-нибудь потенциально полезный набор данных, который вы могли бы объединить?
  • Создайте фиктивные переменные для категориальных функций.

Подумайте о том, чтобы отказаться от ненужных и избыточных функций. (Например, столбцы индекса, столбцы с именами и т. Д.)

3. Моделирование и оценка:

При выборе модели задайте себе вопрос:

  • Почему вы выбрали этот алгоритм?
  • Какие основные гиперпараметры нужно настроить для выбранной вами модели?
  • Затем проверьте, разделили ли вы набор данных на отдельные наборы поездов и тестов.
  • Установите случайное начальное число для воспроизводимых результатов.
  • Настройте объекты GridSearchCV для каждого из ваших алгоритмов для выполнения перекрестной проверки и настройки гиперпараметров.
  • Модели пихты с использованием каждого алгоритма. Проверьте модели на лучший результат перекрестной проверки.
  • Проверьте, какая модель работает лучше всего на тестовом наборе.
  • При необходимости используйте любые дополнительные показатели производительности для оценки модели.

Обратите внимание, что простая проверка всех пунктов в этом списке не гарантирует идеальной модели, но постановка этих вопросов и их обсуждение определенно поможет вам улучшить свой анализ и, в конечном итоге, результаты.

Спасибо за чтение. Мы будем благодарны за любые отзывы.

Свяжитесь с нами, если у вас возникнут дополнительные вопросы, через LinkedIn.