Исследовательский анализ данных (EDA) — это, по сути, первый шаг в конвейере машинного обучения. Есть много методов, используемых для EDA, таких как:
- Проверка всех столбцов: имя, тип, сегменты
- Установка ожидания относительно того, что может означать переменная и как она может повлиять на цель — и проверка гипотезы
- Анализ целевой переменной
- Использование функции
describe()
в Pandas для получения сводки всех переменных - Проверка асимметрии и эксцесса
- Создание точечных диаграмм (
pairplot()
в Seaborn, вероятно, самый простой способ), диаграмм распределения и блочных диаграмм - Создание корреляционной матрицы (тепловой карты); увеличенная тепловая карта, если требуется
- Создание диаграмм разброса между наиболее коррелированными переменными; созерцая, имеет ли корреляция смысл или нет
- Проверить наличие отсутствующих данных (если в столбце более 15% отсутствующих данных, вероятно, лучше удалить столбец, а не заменять отсутствующие значения)
- Проверка на выбросы (одномерные и двумерные)
Помимо этого, вот несколько менее известных советов для EDA:
- Линейность. Поиск линейных закономерностей на точечных диаграммах. Если шаблоны нелинейны, преобразование данных может помочь получить лучшие результаты.
- Нормальность. Проверка одномерной и многомерной нормальности. На этом основаны несколько статистических тестов. Поиск преобразований функций (например, преобразование журнала), которые могут помочь достичь более нормального распределения. Хотя в больших наборах данных (> 200 наблюдений) нормальность не является такой проблемой.
- Отсутствие коррелированных ошибок. Выясните, приводит ли одна ошибка к другой ошибке (например, одна положительная ошибка систематически вызывает отрицательную ошибку). Если вы что-то обнаружите, попробуйте добавить переменную, которая может объяснить эффект, который вы получаете.
- Гомоскедастичность: проверьте, демонстрируют ли зависимые переменные одинаковые уровни дисперсии в диапазоне переменных-предикторов. Лучше, чтобы член ошибки был одинаковым для всех значений независимых переменных.