Обработка искаженных данных во время анализа данных:

Скажите, что вы хотели бы проверить распределение вашей целевой переменной, поэтому вы продвигаетесь вперед и строите график ее распределения. Теперь вы заметили, что ваши данные разбросаны повсюду на графике, когда вы ожидали, что распределение будет нормальным или близким к нормальному, теперь этот «странный» разброс данных также известен как асимметрия данных в распределении.

Существуют в основном 2 типа искаженных данных:

1) положительные или искаженные вправо данные

2) Отрицательные или искаженные влево данные, иллюстрации которых приведены ниже, пролистайте!

Теперь, как нам устранить эту асимметрию, чтобы повысить точность нашей модели машинного обучения?

Просто примените преобразование журнала к этой конкретной переменной функции, вам не нужно ничего делать, все прекрасные функции доступны в красивой библиотеке numpy! Теперь давайте завершим это примером на питоне! Для вашего лучшего понимания.

Рассмотрим этот пример целевой переменной,

Эта строка кода даст вам распределение любой целевой переменной или функции в вашем наборе данных.

Sns.distplot(df[‘продажная цена’])

Как вы можете видеть, приведенное выше распределение имеет положительную асимметрию, теперь давайте применим логарифмическое преобразование и увидим волшебство!

Палочки наготове 😋, шучу!

Преобразование журнала можно выполнить с помощью этой простой строки кода!

Импортировать numpy как np
np.log(df[‘salesprice’])

Тадааа!

теперь наше распределение близко к нормальному!

Важно преобразовать переменные признаков в нормальное или гауссово распределение, потому что большинство моделей машинного обучения предполагают, что переменные будут нормально распределены или близки к нормальному распределению, следите за новостями, чтобы узнать больше таких сообщений!

Спасибо!

Удачного кодирования!

Обработка искаженных данных во время анализа данных:

Теперь, как нам устранить эту асимметрию, чтобы повысить точность нашей модели машинного обучения?

Вопросы по теме