Одно горячее кодирование
Иногда вы работаете с категориальными данными в машинном обучении. Возможно, метки классов для задач классификации или, возможно, категориальные входные переменные. Обычно категориальные переменные кодируют, чтобы упростить работу с ними и их изучение с помощью некоторых методов. Популярным кодированием категориальных переменных является одно горячее кодирование. Одно горячее кодирование — это создание таблицы для представления переменной с одним столбцом для каждой категории и строкой для каждого примера в наборе данных. Проверка или одно значение добавляется в столбец для категориального значения для данной строки, а нулевое значение добавляется ко всем остальным столбцам. Например, переменная переменная цвета с 3 строками:
red green blue
Может быть закодировано как:
red green blue 1 0 0 0 1 0 0 0 1
Каждая строка кодируется как двоичный вектор, вектор с нулем или одним значением, и это пример разреженного представления, целого подполя линейной алгебры.