Деревья решений для классификации документов

Привет, я хотел знать, можно ли использовать деревья решений для классификации документов, и если да, то каким должно быть представление данных? Мне известно об использовании пакета R party для деревьев решений.

Shreyas Karnik 24.06.2010 источник

Ответы (3)

arrow_upward
2
arrow_downward

Один из способов — иметь огромную матрицу, где каждая строка — это документ, а каждый столбец — это слово. А значения в ячейках — это количество раз, которое это слово появлялось в этом документе.

Затем, если вы имеете дело со случаем «обучения с учителем», у вас должен быть еще один столбец для классификатора, и оттуда вы можете использовать такую команду, как «rpart» (из пакета rpart), для создания вашего дерева классификации. Команда будет вводить формулу для rpart так же, как и для линейной модели (lm).

Если вы хотите, вы также можете попробовать сначала сгруппировать свои слова в «группы слов», а затем сделать так, чтобы каждый столбец принадлежал к другой группе слов, с числом, указывающим, сколько слов в документе принадлежит к этой группе. Для этого я бы посмотрел на пакет «tm». (Если вы в конечном итоге сделаете что-то с этим, рассмотрите возможность публикации об этом здесь, чтобы мы могли извлечь из этого уроки)

Бест, Таль

Tal Galili 25.06.2010

comment

Привет, Таль, спасибо за подсказки, на самом деле я вычислил матрицу документа слова и ассоциативную матрицу наиболее часто встречающихся слов. Придется все еще вычислять деревья rpart, но я иду в указанном вами направлении. Также очень помогли функции в пакете tm. Я опубликую код здесь, как только получу некоторые результаты. - Нео - Shreyas Karnik; 25.06.2010

comment

Есть одна проблема с деревьями решений — они склонны к переоснащению. Я бы посоветовал вам попробовать метод случайного леса (например, в пакете randomForest), который свободен от этого недостатка. - mbq; 26.06.2010

comment

Привет, mbq, из того, что я прочитал здесь: en.wikipedia.org/wiki/Random_forest#Disadvantages Я вижу, что случайные леса также могут падать в случае переобучения (и я думаю, что этот случай может быть одним из них, так как я ожидаю, что будет много переменных, которые являются просто шумом). Что вы думаете? Таль - Tal Galili; 26.06.2010

comment

Это утверждение основано на очень специфической попытке сломать RF и демонстрирует поведение, характерное для других классификаторов. Более того, в случае высокого уровня шума мера важности атрибута RF работает довольно хорошо и может быть использована для очистки множества и повышения точности. - mbq; 27.06.2010

arrow_upward
2
arrow_downward

В этой статье дается обзор различных методов категоризации текста и их точности. Короче говоря, вы можете классифицировать текст с помощью деревьев решений, но есть и другие алгоритмы, которые намного лучше.

Себастьяни, Ф. (2002). Машинное обучение в автоматизированной категоризации текста. Вычислительные исследования ACM, cs.IR/0110053v1. Доступно по адресу: http://arxiv.org/abs/cs.IR/0110053v1. .

Ken Bloom 30.06.2010

arrow_upward
0
arrow_downward

Я сомневаюсь в этом - по крайней мере, как обычно определяется, дерево решений использует один критерий для указания подветви. При классификации документов вы редко можете основывать что-либо на одном критерии — вам нужно несколько критериев, и даже тогда вы не получите четкого древовидного решения, но «это немного ближе к этому, чем к другому». другое дело" вид результата.

Jerry Coffin 25.06.2010

comment

Я думаю, что ОП больше относится к деревьям классификации, чем к деревьям решений. Здесь некоторая неясность в терминологии. - Matt Parker; 25.06.2010

comment

... как указано во втором абзаце этой страницы Википедии: en.wikipedia.org/wiki/Decision_tree_learning< /а> - Matt Parker; 25.06.2010

comment

Да, я согласен с Мэттом, с моей стороны есть небольшая двусмысленность, извините за это, я имею в виду классифицировать документы с использованием деревьев решений. - Shreyas Karnik; 25.06.2010

Вопросы по теме

Сбой междоменного HTTP-запроса в AngularJS
не могу создать каталог с помощью mkdir
Почему в моем запросе не работает функция Neo4j None?
несколько растровых изображений против рисунков - влияние на производительность и память
удаление элемента в конкретном связанном списке
MongoDB: последняя запись для каждой категории по метке времени
Невероятно, но порядок просмотра раскадровки не соблюдается для представлений контейнера, исправить?
Django REST Как правильно хешировать пароль
Передача NSString между классами
Ошибка Ajax: код ответа 200
Приложение WinRT зависает при вызове BitmapDecoder.CreateAsync(stream)
Ошибка в поле выбора OpenERP версии 7
установить паруса вручную на сервер ubuntu
подстановочный знак classpath в @PropertySource
Получить и удержать вызов в twilio
Столбец автозаполнения на основе данных другого столбца
Фильтрация в пандах: исключение строк, содержащих часть строки [дубликаты]
Получить значения заголовков в ASP.NET MVC
Почему опечатка в объявлении функции Haskell приводит к тому, что GHCi выдает ошибки вокруг ранее скомпилированного кода?
как перепривязать сетку данных Silverlight