Исследовательский анализ данных (EDA) — это, по сути, первый шаг в конвейере машинного обучения. Есть много методов, используемых для EDA, таких как:

  • Проверка всех столбцов: имя, тип, сегменты
  • Установка ожидания относительно того, что может означать переменная и как она может повлиять на цель — и проверка гипотезы
  • Анализ целевой переменной
  • Использование функции describe() в Pandas для получения сводки всех переменных
  • Проверка асимметрии и эксцесса
  • Создание точечных диаграмм (pairplot() в Seaborn, вероятно, самый простой способ), диаграмм распределения и блочных диаграмм
  • Создание корреляционной матрицы (тепловой карты); увеличенная тепловая карта, если требуется
  • Создание диаграмм разброса между наиболее коррелированными переменными; созерцая, имеет ли корреляция смысл или нет
  • Проверить наличие отсутствующих данных (если в столбце более 15% отсутствующих данных, вероятно, лучше удалить столбец, а не заменять отсутствующие значения)
  • Проверка на выбросы (одномерные и двумерные)

Помимо этого, вот несколько менее известных советов для EDA:

  • Линейность. Поиск линейных закономерностей на точечных диаграммах. Если шаблоны нелинейны, преобразование данных может помочь получить лучшие результаты.
  • Нормальность. Проверка одномерной и многомерной нормальности. На этом основаны несколько статистических тестов. Поиск преобразований функций (например, преобразование журнала), которые могут помочь достичь более нормального распределения. Хотя в больших наборах данных (> 200 наблюдений) нормальность не является такой проблемой.
  • Отсутствие коррелированных ошибок. Выясните, приводит ли одна ошибка к другой ошибке (например, одна положительная ошибка систематически вызывает отрицательную ошибку). Если вы что-то обнаружите, попробуйте добавить переменную, которая может объяснить эффект, который вы получаете.
  • Гомоскедастичность: проверьте, демонстрируют ли зависимые переменные одинаковые уровни дисперсии в диапазоне переменных-предикторов. Лучше, чтобы член ошибки был одинаковым для всех значений независимых переменных.