Увеличение текстовых данных для задач НЛП
Обучение на небольшой выборке данных увеличивает вероятность переобучения. Аугментация данных — это метод создания искусственных подобных образцов существующих данных. Методы увеличения данных часто используются для задач, когда модель ожидает большой объем данных, но у нас есть ограниченный доступ к данным. Это может помочь модели хорошо обобщить даже небольшую выборку данных.
Увеличение данных очень успешно и часто используется в моделях нейронной сети свертки (CNN), поскольку оно создает искусственный образец данных изображения путем внесения небольших изменений, таких как сдвиг, переворачивание, вращение, размытие, масштабирование и т. д. Но когда дело доходит до НЛП задачи, увеличение данных текстовых данных не так просто.
В этой статье мы обсудим статью Джейсона Вея и Кая Зоу, в которой обсуждается, как можно выполнить аугментацию данных для текстовых данных, чтобы повысить производительность задачи классификации текста.
Начиная:
В статье “Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks”
Джейсона Вея и Кай Зоу исследуются 4 простых, но мощных метода увеличения текста, которые служат хорошей основой для увеличения текстовых данных:
- Замена синонимов (SR)
- Случайная вставка (RI)
- Случайный обмен (RS)
- Случайное удаление (RD)
В документе также были применены вышеупомянутые методы расширения для 5 эталонных задач классификации текста, что привело к повышению производительности как для сверточных, так и для рекуррентных нейронных сетей.
Теперь мы обсудим, как каждый из вышеупомянутых методов увеличения текста работает под капотом, и его улучшения в задачах классификации текста.
1) Замена синонимов (SR):
Метод замены синонимов случайным образом выбирает n слов из предложения, исключая стоп-слова, и заменяет эти слова их синонимами, выбранными случайным образом. Этот метод выполняет замену слов на месте.
Для приведенного ниже образца предложения мы случайным образом выбираем n=2 слова (грустный, играемый) и заменяем их их синонимами.
Приговор:вероятно, мой самый любимый фильм, рассказывающий о самоотверженности, самопожертвовании и преданности благородному делу.
Обновленное предложение:Возможно, мой самый дорогой фильм, рассказывающий о самоотверженности, отречении и преданности благородному делу.
2) Случайная вставка (RI):
Случайная вставка — это аналогичный метод замены синонимов, но в этом случае синонимы случайно выбранных n-слов вставляются в случайную позицию без удаления исходного слова.
Для приведенного ниже образца предложения мы случайным образом выбираем n=1 слово (комедия) и вставляем его слово-синоним в случайную позицию.
Приговор: возможно, мой самый любимый фильм, история самоотверженности, самопожертвования и преданности благородному делу.
Обновленное предложение:Возможно, мой любимый фильм всех времен, рассказ о самоотверженности, самопожертвовании и хроникальной преданности благородному делу.
3) Случайный обмен (RS):
Техника случайной замены случайным образом выбирает любые два слова из предложения и меняет их местами. Этот метод может быть выполнен n раз для n-пар слов.
Для приведенного ниже образца предложения мы случайным образом выбираем n=1 пару слов (the, road) и вставляем их слово-синоним в случайную позицию.
Приговор: возможно, мой самый любимый фильм, история самоотверженности, самопожертвования и преданности благородному делу.
Обновленное предложение:вероятно, мой любимый фильм всех времен, благородный самоотверженный, самоотверженный и посвященный истории делу.
4) Случайное удаление (RD):
Техника случайного удаления случайным образом удаляет каждое слово в предложении с вероятностью «p».
Приговор: возможно, мой самый любимый фильм, история самоотверженности, самопожертвования и преданности благородному делу.
Обновленное предложение:Возможно, мой любимый фильм всех времен, фильм о бескорыстии, самопожертвовании и преданности благородному делу.
В документе обсуждались 4 вышеупомянутых метода увеличения текста. Авторы не упомянули, почему они выбрали именно эти правила аугментации и что еще они пробовали, но не получилось.
Сравнительный анализ:
Теперь они используют методы увеличения для оценки изменений производительности для 5 задач классификации текста:
- SST-2: Стэнфордское дерево настроений
- CR: отзывы клиентов
- SUBJ: набор данных субъективности/объективности
- TREC: набор данных типа вопроса
- ПК: набор данных Pro-Con
Из приведенных выше контрольных показателей мы можем сделать вывод, что среднее улучшение производительности составило 0,8% для полных наборов данных и 3,0% для наборов данных с 500 случайными выборками.
Заключение:
В этой статье мы обсудили 4 метода увеличения текстовых данных, которые повышают производительность задач классификации текста, выполняемых на небольшом выборочном наборе данных. Мы наблюдали увеличение производительности примерно на 3% для меньшего размера выборки (~ 500) по сравнению с большими данными. Это элегантно описывает, что методы увеличения данных работают достаточно хорошо для небольших наборов данных.
Использованная литература:
[1] Простые методы увеличения данных для повышения производительности в задачах классификации текста. Статья Джейсона Вея и Кай Зоу: https://arxiv.org/abs/1901.11196
Спасибо за чтение