Менее известные методы исследования данных

Исследовательский анализ данных (EDA) — это, по сути, первый шаг в конвейере машинного обучения. Есть много методов, используемых для EDA, таких как:

Проверка всех столбцов: имя, тип, сегменты
Установка ожидания относительно того, что может означать переменная и как она может повлиять на цель — и проверка гипотезы
Анализ целевой переменной
Использование функции describe() в Pandas для получения сводки всех переменных
Проверка асимметрии и эксцесса
Создание точечных диаграмм (pairplot() в Seaborn, вероятно, самый простой способ), диаграмм распределения и блочных диаграмм
Создание корреляционной матрицы (тепловой карты); увеличенная тепловая карта, если требуется
Создание диаграмм разброса между наиболее коррелированными переменными; созерцая, имеет ли корреляция смысл или нет
Проверить наличие отсутствующих данных (если в столбце более 15% отсутствующих данных, вероятно, лучше удалить столбец, а не заменять отсутствующие значения)
Проверка на выбросы (одномерные и двумерные)

Помимо этого, вот несколько менее известных советов для EDA:

Линейность. Поиск линейных закономерностей на точечных диаграммах. Если шаблоны нелинейны, преобразование данных может помочь получить лучшие результаты.
Нормальность. Проверка одномерной и многомерной нормальности. На этом основаны несколько статистических тестов. Поиск преобразований функций (например, преобразование журнала), которые могут помочь достичь более нормального распределения. Хотя в больших наборах данных (> 200 наблюдений) нормальность не является такой проблемой.
Отсутствие коррелированных ошибок. Выясните, приводит ли одна ошибка к другой ошибке (например, одна положительная ошибка систематически вызывает отрицательную ошибку). Если вы что-то обнаружите, попробуйте добавить переменную, которая может объяснить эффект, который вы получаете.
Гомоскедастичность: проверьте, демонстрируют ли зависимые переменные одинаковые уровни дисперсии в диапазоне переменных-предикторов. Лучше, чтобы член ошибки был одинаковым для всех значений независимых переменных.

Менее известные методы исследования данных

Вопросы по теме