Деревья решений для классификации документов

Привет, я хотел знать, можно ли использовать деревья решений для классификации документов, и если да, то каким должно быть представление данных? Мне известно об использовании пакета R party для деревьев решений.


person Shreyas Karnik    schedule 24.06.2010    source источник


Ответы (3)


Один из способов — иметь огромную матрицу, где каждая строка — это документ, а каждый столбец — это слово. А значения в ячейках — это количество раз, которое это слово появлялось в этом документе.

Затем, если вы имеете дело со случаем «обучения с учителем», у вас должен быть еще один столбец для классификатора, и оттуда вы можете использовать такую ​​​​команду, как «rpart» (из пакета rpart), для создания вашего дерева классификации. Команда будет вводить формулу для rpart так же, как и для линейной модели (lm).

Если вы хотите, вы также можете попробовать сначала сгруппировать свои слова в «группы слов», а затем сделать так, чтобы каждый столбец принадлежал к другой группе слов, с числом, указывающим, сколько слов в документе принадлежит к этой группе. Для этого я бы посмотрел на пакет «tm». (Если вы в конечном итоге сделаете что-то с этим, рассмотрите возможность публикации об этом здесь, чтобы мы могли извлечь из этого уроки)

Бест, Таль

person Tal Galili    schedule 25.06.2010
comment
Привет, Таль, спасибо за подсказки, на самом деле я вычислил матрицу документа слова и ассоциативную матрицу наиболее часто встречающихся слов. Придется все еще вычислять деревья rpart, но я иду в указанном вами направлении. Также очень помогли функции в пакете tm. Я опубликую код здесь, как только получу некоторые результаты. - Нео - person Shreyas Karnik; 25.06.2010
comment
Есть одна проблема с деревьями решений — они склонны к переоснащению. Я бы посоветовал вам попробовать метод случайного леса (например, в пакете randomForest), который свободен от этого недостатка. - person mbq; 26.06.2010
comment
Привет, mbq, из того, что я прочитал здесь: en.wikipedia.org/wiki/Random_forest#Disadvantages Я вижу, что случайные леса также могут падать в случае переобучения (и я думаю, что этот случай может быть одним из них, так как я ожидаю, что будет много переменных, которые являются просто шумом). Что вы думаете? Таль - person Tal Galili; 26.06.2010
comment
Это утверждение основано на очень специфической попытке сломать RF и демонстрирует поведение, характерное для других классификаторов. Более того, в случае высокого уровня шума мера важности атрибута RF работает довольно хорошо и может быть использована для очистки множества и повышения точности. - person mbq; 27.06.2010

В этой статье дается обзор различных методов категоризации текста и их точности. Короче говоря, вы можете классифицировать текст с помощью деревьев решений, но есть и другие алгоритмы, которые намного лучше.

Себастьяни, Ф. (2002). Машинное обучение в автоматизированной категоризации текста. Вычислительные исследования ACM, cs.IR/0110053v1. Доступно по адресу: http://arxiv.org/abs/cs.IR/0110053v1. .

person Ken Bloom    schedule 30.06.2010

Я сомневаюсь в этом - по крайней мере, как обычно определяется, дерево решений использует один критерий для указания подветви. При классификации документов вы редко можете основывать что-либо на одном критерии — вам нужно несколько критериев, и даже тогда вы не получите четкого древовидного решения, но «это немного ближе к этому, чем к другому». другое дело" вид результата.

person Jerry Coffin    schedule 25.06.2010
comment
Я думаю, что ОП больше относится к деревьям классификации, чем к деревьям решений. Здесь некоторая неясность в терминологии. - person Matt Parker; 25.06.2010
comment
... как указано во втором абзаце этой страницы Википедии: en.wikipedia.org/wiki/Decision_tree_learning< /а> - person Matt Parker; 25.06.2010
comment
Да, я согласен с Мэттом, с моей стороны есть небольшая двусмысленность, извините за это, я имею в виду классифицировать документы с использованием деревьев решений. - person Shreyas Karnik; 25.06.2010