Публикации по теме 'categorical-data'


Работа с категориальными данными: кодирование категориальных признаков для агоритмов машинного обучения
В реальной жизни полученные необработанные данные редко имеют формат, который мы можем взять и использовать непосредственно для наших моделей машинного обучения. Следовательно, необходима некоторая предварительная обработка, чтобы привести данные к нужному формату, выбрать информативные данные или уменьшить их размерность, чтобы иметь возможность извлечь из данных максимальную пользу. В этом посте мы поговорим о кодировании, чтобы иметь возможность использовать категориальные данные в..

Приближение к категориальным переменным
Многие люди испытывают трудности с обработкой категориальных переменных. В этой статье я расскажу о различных типах категориальных данных и о том, как подойти к проблеме с категориальными переменными. Что такое категориальные переменные? Категориальные переменные / характеристики - это характеристики любого типа, которые можно разделить на два основных типа: Номинальный Порядковый Номинальные переменные - это переменные, которые имеют две или более категорий, с которыми не..

Правильная обработка категориальных данных
Правильная обработка категориальных данных Самый недооцененный способ кодирования данных и то, что вы делаете неправильно Категориальные данные - это просто информация, объединенная в группы, а не в числовых форматах, например Пол , Пол или Образование Уровень . Они присутствуют почти во всех реальных наборах данных, но текущие алгоритмы все еще не могут с ними справиться. Возьмем, к примеру, XGBoost или большинство моделей SKlearn. Если вы попытаетесь обучить их..

Замедление get_dummies (горячее кодирование) для конвейера ML
Все мы полагаемся на особенности или переменные, чтобы построить нашу идеальную модель машинного обучения. Мы часами занимаемся разработкой функций и контролируем, какие функции будут соответствовать модели, а какие нет. Однако одна вещь, которую мы не можем контролировать, - это то, какие ценности эта функция имеет или может иметь в будущем. С количественными переменными легко поиграть, но как насчет категориальных? « Ага! что насчет этого? А ?! » Некоторые модели, например..

Встраивание сущностей с использованием t-SNE
Хорошо известный инструмент уменьшения размерности может быть полезен для встраивания категориальных признаков. Мы обсуждали некоторые из возможных способов внедрения категориальных функций: Kernel PCA и Spectral Encoding . Цель такого внедрения - отобразить категориальные признаки в векторы в низкоразмерном пространстве. Преимущество этого сопоставления в том, что оно значительно снижает переоснащение по сравнению с 1-горячим кодированием. Однако мы можем потерять информацию и..