Предыстория: я работаю над классификацией данных из данных системы продажи билетов на неудачные или успешные запросы. Запрос проходит несколько этапов, прежде чем будет выполнен. Каждый запрос назначается разным командам и отдельным лицам, прежде чем он будет помечен как завершенный. Используя исторические данные, я хочу создать прогнозы для этих билетов в конечном состоянии x, прежде чем они будут отмечены как завершенные (успех или неудача).
Среди различных функций имя человека, который работает над записями, и названия команд являются очень важными факторами при анализе этих данных. Поскольку это огромная организация, я ожидаю, что каждый день будет добавляться 5-10 новых имен.
Исторические данные
60 тыс. записей (используются для обучения, проверки и тестирования). Имеет 10 тыс. уникальных имен.
Текущие данные Всего 1 000 записей – содержит 200 имен.
Я столкнулся с проблемой из-за данных с высокой кардинальностью, таких как отдельные имена, число которых не фиксировано и продолжает расти. 1. Вызов, делая фактические прогнозы - нет. столбцов для текущих данных будет каждый раз отличаться и никогда не будет соответствовать длине функции обучающих данных. - Так что мне приходится каждый раз тренировать свою модель, я хочу делать прогнозы. 2. Проблема при подготовке данных. Вышеупомянутое также представляет собой проблему для подготовки данных, поскольку теперь мне всегда приходится кодировать полные данные и запрашивать закодированные данные, чтобы разделить их на текущие и будущие данные.
Извините за долгий рассказ.
Что я ищу?
Есть ли лучший способ приблизиться? Эти высокие и постоянно меняющиеся размеры - боль. Любые предложения о том, как я могу справиться с ними, чтобы каждый раз не тренироваться?
Примечание. Я пытался использовать PCA и автоэнкодеры для тусклого красного. (Результаты были не очень хорошими для моего сильно несбалансированного набора данных, поэтому я работаю только с данными с большими размерами)