Привет народ,

Добро пожаловать в мой первый пост!

Начав свое путешествие в области машинного обучения, вы наверняка встретили термин КОДИРОВАНИЕ. Когда я начинал, я ломал голову над своим набором данных.

  • Что это за кодировка?
  • Почему эта кодировка?
  • Типы категориальных переменных?

Все, что я думал, было «Кодирование - это кодирование», почему люди пишут: «Для разных категориальных переменных нужен другой способ обработки?».

Что ж, я думаю, что та же самая мысль может запутать тебе мозг.

Вкратце, давайте посмотрим на необходимость кодирования и с помощью простых для понимания иллюстраций ..!

Предположим, что один из наших категориальных столбцов - это фрукты. Если мы кодируем столбец с фруктами, то это проиллюстрировано преобразованием фруктов в числовую форму.

Все выглядит идеально, правда ?? Ждать..!! Существует проблема. Давайте узнаем по иллюстрации

В то время как кодирование метки будет хорошо работать в случае порядковых категориальных переменных, как показано на изображении.

Решение всегда существует, только если мы определим, в чем проблема! Для указанной выше проблемы есть решение.

Создание одной горячей кодировки :)

Для категориальных переменных, в которых нет таких порядковых отношений, кодировки метки недостаточно.

Кроме того, вы заметите, что столбец Виноград очень слабо виден. Это означает, что столбец необходимо отбросить, чтобы избежать ловушки фиктивной переменной. Пожалуйста, прочтите о ловушке фиктивной переменной, которая очень необходима для такого кодирования.

Вывод: перед кодированием проанализируйте, является ли категориальная переменная номинальной или порядковой категориальной переменной.

Если это помогло, дайте мне знать.

Помогите мне с вашими отзывами о предоставленном содержании.

Ждите следующего замечательного поста о методах кодирования.

Контент подготовлен с любовью специалистом по анализу данных.