Мысли и теория

Последние достижения в области трансферного обучения для обработки естественного языка

Обзор эволюции последних методов передачи знаний для обработки естественного языка (НЛП)

Ниже приводится выдержка из моей недавно выпущенной книги «Трансферное обучение для обработки естественного языка». Отрывок суммирует некоторые недавние архитектуры моделей НЛП, основанные на концепции трансферного обучения.

Искусственный интеллект (ИИ) коренным образом изменил современное общество. Задачи, которые раньше выполнялись людьми, теперь могут выполняться машинами быстрее, дешевле и в некоторых случаях более эффективно. Популярные примеры этого включают приложения компьютерного зрения, связанные с обучением компьютеров пониманию изображений и видео, например, для обнаружения преступников в каналах видеонаблюдения с камер видеонаблюдения. Другие приложения компьютерного зрения включают обнаружение заболеваний по изображениям органов пациента и определение видов растений по листьям растений. Еще одна важная ветвь ИИ, которая занимается, в частности, анализом и обработкой данных естественного языка человека, называется обработкой естественного языка (НЛП). Примеры приложений НЛП включают в себя преобразование речи в текст и перевод между различными языками, среди многих других. AI и NLP сопоставлены на диаграмме Венна с соседними полями на рисунке 1.

Последнее воплощение технической революции в области искусственного интеллекта, робототехники и автоматизации, которое некоторые называют четвертой промышленной революцией, было вызвано пересечением алгоритмических достижений для обучения больших нейронных сетей, доступностью огромных объемов данных через Интернет, а также готовность к массовому параллелизму с помощью графических процессоров (GPU), которые изначально были разработаны для рынка персональных игр. В частности, недавний быстрый прогресс в автоматизации задач, основанных на человеческом восприятии, в частности компьютерного зрения и НЛП, потребовал этих успехов в теории и практике нейронных сетей. Это позволило изучить сложные представления между входными данными и желаемыми выходными сигналами для решения этих сложных проблем.

В то же время прогнозы того, что ИИ сможет сделать в ближайшем будущем, значительно превзошли то, что было достигнуто на практике. Нас предупреждают об апокалиптическом будущем, которое уничтожит большинство человеческих рабочих мест и заменит всех нас, потенциально даже представляя для нас серьезную угрозу. Естественно, что НЛП не исключено из этих предположений, и сегодня это одна из самых активных областей исследований в области ИИ.

Трансферное обучение направлено на использование предшествующих знаний из разных условий - будь то другая задача, язык или предметная область - чтобы помочь решить возникшую проблему. Он вдохновлен тем, как люди учатся, поскольку мы обычно не изучаем что-то с нуля для какой-либо конкретной проблемы, а, скорее, опираемся на предшествующие знания, которые могут быть связаны. Например, считается, что научиться игре на музыкальном инструменте легче, если человек уже знает, как играть на другом инструменте. Очевидно, что чем больше похожи инструменты, например орган по сравнению с фортепиано, тем полезнее предварительные знания и тем легче научиться играть на новом инструменте. Однако, даже если инструменты сильно различаются, например, барабан и фортепиано, некоторые предварительные знания могут быть полезны, даже если это не так. В этом мысленном эксперименте это может быть отчасти потому, что соблюдение ритма было бы навыком, общим для обоих инструментов.

Крупные исследовательские лаборатории, такие как Ливерморские национальные лаборатории Лоуренса или Сандийские национальные лаборатории, а также крупные интернет-компании, такие как Google и Facebook, могут изучать очень большие сложные модели, обучая очень глубокие нейронные сети на миллиардах слов и миллионах изображений. Например, модель BERT НЛП Google была предварительно обучена более чем 3 миллиардам слов из английской Википедии (2,5 миллиарда слов) и BooksCorpus (0,8 миллиарда слов). Точно так же глубокие сверточные нейронные сети (CNN) были обучены на более чем 14 миллионах изображений набора данных ImageNet, а изученные параметры были широко переданы на аутсорсинг рядом организаций. Ресурсы, необходимые для обучения таких моделей с нуля, обычно недоступны среднему практикующему специалисту в области нейронных сетей сегодня, например, инженерам НЛП, работающим на малых предприятиях, учащимся в небольших школах и т. Д. Означает ли это, что более мелкие игроки заблокированы в достижении современных результатов в решении своих проблем? К счастью, концепция трансферного обучения обещает снять эту проблему, если ее правильно применить.

Почему важно трансферное обучение?

Трансферное обучение позволяет вам адаптировать или переносить знания, полученные из одного набора задач и / или областей, в другой набор задач и / или областей. Это означает, что модель, обученная с использованием огромных ресурсов, включая данные, вычислительную мощность, время, стоимость и т. Д., После создания открытого исходного кода может быть доработана и повторно использована в новых условиях более широким инженерным сообществом за небольшую часть времени. исходные требования к ресурсам. Это большой шаг вперед на пути к демократизации НЛП и, в более широком смысле, ИИ. Эта парадигма проиллюстрирована на рисунке 2 на примере обучения игре на музыкальном инструменте. Из рисунка видно, что обмен информацией между различными задачами / доменами может привести к сокращению объема данных, необходимых для достижения той же производительности для более поздней или нисходящей задачи B.

Последние достижения в трансферном обучении НЛП

Традиционно обучение проходило либо под полностью контролируемым, либо полностью неконтролируемым образом для любой конкретной постановки задачи - определенной комбинации задачи, предметной области и языка - с нуля. Полу-контролируемое обучение было признано еще в 1999 году в контексте векторных машин поддержки (SVM) как способ решения проблемы потенциально ограниченной доступности помеченных данных. Первоначальный неконтролируемый предварительный этап обучения на больших коллекциях немаркированных данных упростил последующее контролируемое обучение. Варианты этого изучали, как обращаться с потенциально зашумленными, то есть, возможно, неправильными, ярлыками - подход, который иногда называют слабо контролируемым обучением. Однако часто предполагалось, что одинаковое распределение выборки справедливо как для помеченных, так и для немаркированных наборов данных.

Трансферное обучение ослабляет эти предположения. Потребность в трансферном обучении была широко признана в 1995 году - как необходимость «обучения, чтобы учиться» в редакции NeurIPS 1995 года. NeurIPS, вероятно, крупнейшая конференция в области машинного обучения. По сути, он предусматривал, что интеллектуальные машины должны обладать способностями к обучению на протяжении всей жизни, которые повторно используют полученные знания для новых задач. С тех пор он изучается под разными названиями, включая обучение, чтобы учиться, передача знаний, индуктивная предвзятость, многозадачное обучение. и т. д. При многозадачном обучении алгоритм обучается хорошо выполнять несколько задач одновременно, тем самым раскрывая функции, которые могут быть более полезными. Однако только в 2018 году практические и масштабируемые методы были разработаны для достижения этого в НЛП для решения самых сложных проблем восприятия.

2018 год ознаменовался революцией в области НЛП. Понимание того, как лучше всего представлять коллекции текста в виде векторов, резко изменилось. Более того, стало широко признано, что модели с открытым исходным кодом можно настраивать или переносить на разные задачи, языки и области. В то же время несколько крупных интернет-компаний выпускали все больше и больше моделей НЛП для вычисления таких представлений, а также определили четко определенные процедуры для их точной настройки. Внезапно способность достигать самых современных результатов в НЛП стала доступной для среднего практикующего, даже для независимого. Это даже широко упоминалось как «момент ImageNet» в НЛП, имея в виду взрыв приложений компьютерного зрения, который произошел после 2012 года, когда нейронная сеть, обученная на GPU, выиграла конкурс компьютерного зрения ImageNet. Как и в случае с первоначальным моментом ImageNet, впервые стала доступна библиотека предварительно обученных моделей для большого подмножества произвольных данных НЛП вместе с четко определенными методами их настройки для конкретных задач под рукой с помощью помеченные наборы данных размером значительно меньше, чем потребовалось бы в противном случае. Цель этой книги - описать, прояснить, оценить, наглядно применить, сравнить и сопоставить различные техники, попадающие в эту категорию. Далее мы кратко рассмотрим эти методы.

Ранние исследования трансферного обучения для НЛП были сосредоточены на аналогиях с компьютерным зрением, где оно успешно используется более десяти лет. Одна из таких моделей - Семантический вывод для моделирования онтологий (SIMOn) - SIMOn, использовала CNN на уровне символов в сочетании с двунаправленными сетями долгосрочной краткосрочной памяти (LSTM) для структурной семантической классификации текста. . Он продемонстрировал методы трансферного обучения НЛП, прямо аналогичные тем, которые использовались в компьютерном зрении. Обширный объем знаний о переносном обучении для приложений компьютерного зрения мотивировал этот подход. Было показано, что функции, изученные с помощью этой модели, также полезны для задач обучения без учителя и хорошо работают с языковыми данными социальных сетей, которые могут быть несколько своеобразными и сильно отличаться от языка в Википедии и других больших наборах данных на основе книг.

Одним из заметных недостатков оригинальной формулировки word2vec было устранение неоднозначности. Не было возможности различить различные варианты использования слова, которые могут иметь разные значения в зависимости от контекста, то есть омографы: например, утка (поза) против утки (птицы) и ярмарка (собрание) против ярмарки (справедливость). В некотором смысле исходная формулировка word2vec представляет каждое такое слово как средний вектор векторов, представляющих каждое из этих различных значений омографа. Вложения из языковых моделей - сокращенно ELMo после популярного символа Улицы Сезам - это попытка разработать контекстуализированные вложения слов с использованием двунаправленных LSTM. Архитектурная схема высокого уровня модели ELMo показана на рисунке 3.

Встраивание слова в эту модель во многом зависит от его контекста, при этом соответствующее числовое представление различно для каждого такого контекста. ELMo добился этого, будучи обученным предсказывать следующее слово в последовательности слов, что является важной задачей в мире языкового моделирования. Огромные наборы данных, например Википедия и различные наборы данных книг легко доступны для обучения в этой среде.

Тонкая настройка универсальной языковой модели (ULM-FiT) - это метод, который был предложен для точной настройки любой языковой модели на основе нейронных сетей для любой конкретной задачи и первоначально был продемонстрирован в контексте текстовая классификация. Ключевой концепцией этого метода является отличительная тонкая настройка, при которой разные уровни сети обучаются с разной скоростью. OpenAI Generative Pretrained Transformer (GPT) изменил архитектуру кодировщика-декодера преобразователя для достижения тонко настраиваемой языковой модели для NLP. Архитектура этой модели представлена ​​на рисунке 4.

GPT отказался от кодировщиков, сохранив декодеры и их подслои самовнимания. Представления двунаправленного кодера от преобразователей (BERT), возможно, сделали обратное, изменив архитектуру преобразователя, сохранив кодеры и отбросив декодеры, а также полагаясь на маскирование слов, которое могло бы тогда необходимо точно спрогнозировать показатель обучения. BERT визуализирован на рисунке 5.

Эти концепции подробно обсуждаются в книге в контексте практических примеров проблем, таких как обнаружение спама, классификация фейковых новостей, классификация типов столбцов, чат-боты и многие другие.

Во всех этих основанных на языковых моделях методах - ELMo, ULM-FiT, GPT и BERT - было показано, что сгенерированные вложения могут быть точно настроены для конкретных последующих задач NLP с относительно небольшим количеством помеченных точек данных. Акцент на языковых моделях был преднамеренным; была выдвинута гипотеза, что вызванная ими гипотеза будет в целом полезной, а данные для массового обучения, как известно, легко доступны.

С тех пор было разработано множество новых моделей, основанных на ранее описанных идеях - от таких моделей, как ALBERT и DistilBERT, которые направлены на уменьшение размера BERT при достижении почти такой же производительности, до таких моделей, как LongFormer и BigBird, предназначенных для обработки длинные документы.

Сфера трансферного обучения НЛП в настоящее время чрезвычайно активна и интересна, и сейчас отличное время, чтобы научиться использовать ее!

Чтобы узнать больше, загляните в этот отличный блог Себастьяна Рудера и выдающуюся библиотеку трансформеров от Hugging Face. Также посмотрите мой репозиторий репрезентативных примеров кода на GitHub и Kaggle.

Печатные копии и версии электронных книг Трансферное обучение для обработки естественного языка доступны на сайтах manning.com, Amazon, Barnes & Noble и Target.