Я видел несколько вопросов о дисбалансе классов в мультиклассовой среде. Однако у меня проблема с несколькими этикетками, как бы вы с ней справились в этом случае?
У меня есть набор из примерно 300 тысяч текстовых примеров. Как упоминалось в заголовке, каждый пример имеет по крайней мере одну метку, и существует только 100 возможных уникальных меток. Я свел эту проблему к двоичной классификации для Vowpal Wabbit, воспользовавшись преимуществами пространств имен, например
От:
healthy fruit | bananas oranges jack fruit
evil monkey | bipedal organism family guy
...
To:
1 |healthy bananas oranges jack fruit
1 |fruit bananas oranges jack fruit
0 |evil bananas oranges jack fruit
0 |monkey bananas oranges jack fruit
0 |healthy bipedal organism family guy
0 |fruit bipedal organism family guy
1 |evil bipedal organism family guy
1 |monkey bipedal organism family guy
...
Я использую параметры по умолчанию, предоставленные VW (я думаю, это онлайн-SGD с функцией потерь в квадрате). Я использую квадрат потерь, потому что он очень похож на потерю Хэмминга.
После обучения, при тестировании на одном и том же наборе обучения, я заметил, что все примеры были предсказаны с меткой «0» ... что, я полагаю, является одним из способов минимизировать потери. На данный момент я не знаю, что делать. Я думал об использовании экономичной классификации «один против всех», чтобы попытаться сбалансировать классы, но сокращение нескольких меток до нескольких классов невозможно, поскольку существует 2 ^ 100 комбинаций меток. Мне интересно, есть ли у кого-нибудь еще какие-нибудь предложения.
Изменить: у меня наконец-то появилась возможность протестировать классовый дисбаланс, особенно для vw
. vw
очень плохо справляется с дисбалансом, по крайней мере, для многомерных, редко заполненных текстовых функций. Я пробовал соотношения от 1: 1 до 1:25, при этом производительность резко ухудшалась при соотношении 1: 2.
0
. И метки являются пространствами имен в двоичной редукции. - person richizy   schedule 02.04.2014--loss_function logistic
. - person Zach   schedule 22.10.2015