Увеличение текстовых данных для задач НЛП

Обучение на небольшой выборке данных увеличивает вероятность переобучения. Аугментация данных — это метод создания искусственных подобных образцов существующих данных. Методы увеличения данных часто используются для задач, когда модель ожидает большой объем данных, но у нас есть ограниченный доступ к данным. Это может помочь модели хорошо обобщить даже небольшую выборку данных.

Увеличение данных очень успешно и часто используется в моделях нейронной сети свертки (CNN), поскольку оно создает искусственный образец данных изображения путем внесения небольших изменений, таких как сдвиг, переворачивание, вращение, размытие, масштабирование и т. д. Но когда дело доходит до НЛП задачи, увеличение данных текстовых данных не так просто.

В этой статье мы обсудим статью Джейсона Вея и Кая Зоу, в которой обсуждается, как можно выполнить аугментацию данных для текстовых данных, чтобы повысить производительность задачи классификации текста.

Начиная:

В статье “Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks” Джейсона Вея и Кай Зоу исследуются 4 простых, но мощных метода увеличения текста, которые служат хорошей основой для увеличения текстовых данных:

  • Замена синонимов (SR)
  • Случайная вставка (RI)
  • Случайный обмен (RS)
  • Случайное удаление (RD)

В документе также были применены вышеупомянутые методы расширения для 5 эталонных задач классификации текста, что привело к повышению производительности как для сверточных, так и для рекуррентных нейронных сетей.

Теперь мы обсудим, как каждый из вышеупомянутых методов увеличения текста работает под капотом, и его улучшения в задачах классификации текста.

1) Замена синонимов (SR):

Метод замены синонимов случайным образом выбирает n слов из предложения, исключая стоп-слова, и заменяет эти слова их синонимами, выбранными случайным образом. Этот метод выполняет замену слов на месте.

Для приведенного ниже образца предложения мы случайным образом выбираем n=2 слова (грустный, играемый) и заменяем их их синонимами.

Приговор:вероятно, мой самый любимый фильм, рассказывающий о самоотверженности, самопожертвовании и преданности благородному делу.

Обновленное предложение:Возможно, мой самый дорогой фильм, рассказывающий о самоотверженности, отречении и преданности благородному делу.

2) Случайная вставка (RI):

Случайная вставка — это аналогичный метод замены синонимов, но в этом случае синонимы случайно выбранных n-слов вставляются в случайную позицию без удаления исходного слова.

Для приведенного ниже образца предложения мы случайным образом выбираем n=1 слово (комедия) и вставляем его слово-синоним в случайную позицию.

Приговор: возможно, мой самый любимый фильм, история самоотверженности, самопожертвования и преданности благородному делу.

Обновленное предложение:Возможно, мой любимый фильм всех времен, рассказ о самоотверженности, самопожертвовании и хроникальной преданности благородному делу.

3) Случайный обмен (RS):

Техника случайной замены случайным образом выбирает любые два слова из предложения и меняет их местами. Этот метод может быть выполнен n раз для n-пар слов.

Для приведенного ниже образца предложения мы случайным образом выбираем n=1 пару слов (the, road) и вставляем их слово-синоним в случайную позицию.

Приговор: возможно, мой самый любимый фильм, история самоотверженности, самопожертвования и преданности благородному делу.

Обновленное предложение:вероятно, мой любимый фильм всех времен, благородный самоотверженный, самоотверженный и посвященный истории делу.

4) Случайное удаление (RD):

Техника случайного удаления случайным образом удаляет каждое слово в предложении с вероятностью «p».

Приговор: возможно, мой самый любимый фильм, история самоотверженности, самопожертвования и преданности благородному делу.

Обновленное предложение:Возможно, мой любимый фильм всех времен, фильм о бескорыстии, самопожертвовании и преданности благородному делу.

В документе обсуждались 4 вышеупомянутых метода увеличения текста. Авторы не упомянули, почему они выбрали именно эти правила аугментации и что еще они пробовали, но не получилось.

Сравнительный анализ:

Теперь они используют методы увеличения для оценки изменений производительности для 5 задач классификации текста:

  • SST-2: Стэнфордское дерево настроений
  • CR: отзывы клиентов
  • SUBJ: набор данных субъективности/объективности
  • TREC: набор данных типа вопроса
  • ПК: набор данных Pro-Con

Из приведенных выше контрольных показателей мы можем сделать вывод, что среднее улучшение производительности составило 0,8% для полных наборов данных и 3,0% для наборов данных с 500 случайными выборками.

Заключение:

В этой статье мы обсудили 4 метода увеличения текстовых данных, которые повышают производительность задач классификации текста, выполняемых на небольшом выборочном наборе данных. Мы наблюдали увеличение производительности примерно на 3% для меньшего размера выборки (~ 500) по сравнению с большими данными. Это элегантно описывает, что методы увеличения данных работают достаточно хорошо для небольших наборов данных.

Использованная литература:

[1] Простые методы увеличения данных для повышения производительности в задачах классификации текста. Статья Джейсона Вея и Кай Зоу: https://arxiv.org/abs/1901.11196

Спасибо за чтение