Я работаю над довольно простым процессом в RapidMiner 5.3.013, который считывает CSV-файл и использует его в качестве тренировочного набора для обучения классификатора дерева решений. Результатом процесса является модель. Второй CSV-файл считывается и используется как немаркированный набор. Модель (рассчитанная ранее) применяется к немаркированному тестовому набору, чтобы правильно его пометить.
Каждая строка файла CSV содержит несколько атрибутов, например:
15, 0, 1555, abc*15, label1.
но некоторые строки обучающей выборки могут быть такими:
15, 0, *, abc*15, label2
Это сделано потому, что третье значение может принимать разные значения, поэтому создатель тренировочного набора использовал звездочку в качестве подстановочного знака вместо значения.
Что я хотел бы сделать, так это сообщить дереву решений, что звездочка там означает "соответствует чему угодно", чтобы оно буквально не соответствовало только звездочке.
Примечания:
- звездочка в 4-м поле (abc*15) должна соответствовать буквально, а не как подстановочный знак.
- если бы 3-е поле всегда содержало звезды, я мог бы просто не включать его в атрибуты, но это не так. Иногда 3-е поле содержит целочисленные значения, которые должны сопоставляться буквально.
- Пробовал оставить поле пустым, не работает
Итак, есть ли способ использовать регулярные выражения или хотя бы простой подстановочный знак при обучении классификатора или использовании модели?
Другими словами: Могу ли я указать классификатору не использовать некоторые атрибуты в некоторых записях (строках в CSV)?
Спасибо!