Проблемы с данными высокой кардинальности

Предыстория: я работаю над классификацией данных из данных системы продажи билетов на неудачные или успешные запросы. Запрос проходит несколько этапов, прежде чем будет выполнен. Каждый запрос назначается разным командам и отдельным лицам, прежде чем он будет помечен как завершенный. Используя исторические данные, я хочу создать прогнозы для этих билетов в конечном состоянии x, прежде чем они будут отмечены как завершенные (успех или неудача).

Среди различных функций имя человека, который работает над записями, и названия команд являются очень важными факторами при анализе этих данных. Поскольку это огромная организация, я ожидаю, что каждый день будет добавляться 5-10 новых имен.

Исторические данные

60 тыс. записей (используются для обучения, проверки и тестирования). Имеет 10 тыс. уникальных имен.

Текущие данные Всего 1 000 записей – содержит 200 имен.

Я столкнулся с проблемой из-за данных с высокой кардинальностью, таких как отдельные имена, число которых не фиксировано и продолжает расти. 1. Вызов, делая фактические прогнозы - нет. столбцов для текущих данных будет каждый раз отличаться и никогда не будет соответствовать длине функции обучающих данных. - Так что мне приходится каждый раз тренировать свою модель, я хочу делать прогнозы. 2. Проблема при подготовке данных. Вышеупомянутое также представляет собой проблему для подготовки данных, поскольку теперь мне всегда приходится кодировать полные данные и запрашивать закодированные данные, чтобы разделить их на текущие и будущие данные.

Извините за долгий рассказ.

Что я ищу?

Есть ли лучший способ приблизиться? Эти высокие и постоянно меняющиеся размеры - боль. Любые предложения о том, как я могу справиться с ними, чтобы каждый раз не тренироваться?

Примечание. Я пытался использовать PCA и автоэнкодеры для тусклого красного. (Результаты были не очень хорошими для моего сильно несбалансированного набора данных, поэтому я работаю только с данными с большими размерами)


person Nitin Mahajan    schedule 07.05.2018    source источник


Ответы (2)


Поскольку у вас есть динамические данные, как вы сказали, вы можете использовать нейронную сеть для идентификации и объединения обновляемых переменных и данных.

Также вы должны использовать классификаторы, такие как

  1. CVParameterSelection: для выбора параметра перекрестной проверки.

  2. ЧАСТЬ: Очень полезно для создания дерева решений, поскольку оно работает по правилу «разделяй и властвуй».

  3. Дерево REP (обрезано): для уменьшения ошибок в выводе за счет разделения значений ошибок.

И, наконец, когда у вас есть системы, вы можете запустить модель прогнозирования!

person Pranshu    schedule 08.05.2018

Вы можете заменить все идентификационные номера и имена в данных стандартным токеном, например <ID> или <NAME>. Это должно быть сделано во время предварительной обработки. Затем вы должны выбрать фиксированный словарный запас. Как и все слова, которые встречаются не менее 5 раз в обучающих данных.

person Aaron    schedule 08.05.2018