Французский язык имеет долгую историю в качестве основного или второго языка в Организации Объединенных Наций, Европейском Союзе, на Олимпийских играх и в бесчисленном множестве других международных арен и организаций. Тем не менее, доля исследований в области обработки естественного языка (НЛП) в сообществе машинного обучения, сосредоточенных на языке Вольтера, остается относительно небольшой. Теперь команда из Facebook AI Research, Inria и Sorbonne Université выпустила CamemBERT, по сути, французскую версию изменяющей правила игры предварительно обученной языковой модели Google AI BERT (двунаправленные представления кодировщика от Transformers).

Предварительно обученные языковые модели с архитектурами на основе преобразователей, такими как BERT, GPT-2, RoBERTa, ALBERT и T5, позволили быстро продвинуться в науке НЛП и понимания естественного языка (NLU), в том числе изменение подхода машин к общим запросам. Однако большинство лучших моделей, вышедших из этой горячей области исследований, прошли обучение и были ориентированы на английский язык. Например, RoBERTa была обучена на более чем 100 ГБ англоязычных данных.

Поскольку производительность предварительно обученных языковых моделей может быть значительно улучшена за счет использования большего количества обучающих данных, исследователи собрали кучу французского текста из недавно доступного большого многоязычного корпуса OSCAR. Не перемешанная версия корпуса французского OSCAR включает 138 ГБ несжатого текста и 32,7 млрд токенов SentencePiece.

Исследователи оценили CamemBERT по четырем последующим задачам:

  • Маркировка части речи (POS), синтаксическая задача низкого уровня, которая включает присвоение каждому слову соответствующей грамматической категории.
  • Анализ зависимостей, который включает в себя прогнозирование помеченного синтаксического дерева, фиксирующего синтаксические отношения между словами.
  • Распознавание именованных сущностей (NER), задача маркировки последовательностей для прогнозирования того, какие слова относятся к объектам реального мира, таким как люди, местоположения, артефакты и организации.
  • Логический вывод на естественном языке (NLI), который включает в себя предсказание того, является ли гипотеза предполагаемой, нейтральной или противоречащей предположению-посылке.

CamemBERT превзошел другие франкоязычные модели в тестах. Исследователи считают, что новую предварительно обученную модель можно эффективно настроить для различных последующих задач, и что она открывает многообещающий путь для будущих исследований французского НЛП.

Сообщество исследователей машинного обучения быстро отреагировало на выпуск CamemBERT. Клемент Деланге, генеральный директор NLP-стартапа Hugging Face, написал в Твиттере: CamemBERT произведет революцию в том, как делать НЛП на французском языке, точно так же, как BERT сделал для английского языка. С нетерпением жду, когда это произойдет с каждым языком, чтобы по-настоящему демократизировать НЛП .

Статья CamemBERT, вкусная французская языковая модель находится на arXiv.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.