Одно горячее кодирование

Иногда вы работаете с категориальными данными в машинном обучении. Возможно, метки классов для задач классификации или, возможно, категориальные входные переменные. Обычно категориальные переменные кодируют, чтобы упростить работу с ними и их изучение с помощью некоторых методов. Популярным кодированием категориальных переменных является одно горячее кодирование. Одно горячее кодирование — это создание таблицы для представления переменной с одним столбцом для каждой категории и строкой для каждого примера в наборе данных. Проверка или одно значение добавляется в столбец для категориального значения для данной строки, а нулевое значение добавляется ко всем остальным столбцам. Например, переменная переменная цвета с 3 строками:

red
green
blue

Может быть закодировано как:

red green blue
 1    0    0
 0    1    0
 0    0    1

Каждая строка кодируется как двоичный вектор, вектор с нулем или одним значением, и это пример разреженного представления, целого подполя линейной алгебры.