Я работаю с темой электронного письма, поэтому у меня есть 20 писем, которые я хочу классифицировать, и файл с 20 строками - одна строка имеет одну тему письма. Я работал над этим, но не могу понять, к чему относятся эти функции и формат входного файла для svmlight. Любые советы по дальнейшим действиям будут полезны. Заранее спасибо!
Изменить: я взял tf-idf из первых 500 строк темы в качестве пробного. Однако по формату svm-light нам понадобятся:
<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
У меня есть только tf-idf на 500 строк. К сожалению, svm-light не читает это, так как ему нужна пара «характеристики / значение». Есть идеи о том, какое значение может быть или как я могу изменить файл, чтобы его можно было прочитать?
Представление о файле, который у меня есть (первые 5 функций электронной почты):
1 201 1.0
2 280 0.123165672613
2 313 0.343915400191
2 515 0.157569797284
2 588 0.343915400191
2 652 0.343915400191
2 657 0.343915400191
2 774 0.23622904941
2 921 0.283118375032
2 1158 0.254849368195
2 1240 0.343915400191
2 1348 0.343915400191
2 1362 0.222321349873
3 57 0.342220321154
3 185 0.391349077827
3 244 0.391349077827
3 300 0.391349077827
3 693 0.391349077827
3 730 0.342220321154
3 1391 0.391349077827
4 57 0.342220321154
4 185 0.391349077827
4 244 0.391349077827
4 300 0.391349077827
4 693 0.391349077827
4 730 0.342220321154
4 1391 0.391349077827
5 32 0.323558487577
5 102 0.323558487577
5 157 0.364177022553
5 160 0.364177022553
5 718 0.151013895297
5 1171 0.364177022553
5 1277 0.323558487577
5 1308 0.364177022553
5 1336 0.364177022553
Пожалуйста помоги!