Присоединившись к исследовательской группе Saama, я был рад начать работать над обработкой естественного языка для моего родного языка, тамильского. Проработав в исследованиях НЛП уже добрых 8 лет, я был взволнован, увидев, как мы можем применить современные техники НЛП для этого малоресурсного языка. Благодаря английскому колониализму и империалистической политике, которые фактически прекратились в 1945 году в конце Второй мировой войны, они оставили после себя два основных пережитка их систематической узурпации - (а) Содружество и (б) установление английского языка в качестве глобального лингва-франка. В то время как многие части Европы отстаивают свою языковую идентичность политически и в пространстве НЛП, Индия медленно, но верно работает над тем, чтобы сделать то же самое со своими бесчисленными языками. Естественно, что сохранение древнейшего языка классической древности в цифровом пространстве - это полноценная задача.

Характеристики தமிழ்

தமிழ் отличается от английского по-разному.

  1. Порядок предложений в тамильском языке повторяется. Подлежащее, глагол и объект можно свободно менять местами, при этом они остаются грамматически правильными.
  2. Тамильский - агглютинативный язык, то есть суффиксы играют важную роль. Суффиксы могут быть добавлены множеством способов, чтобы слово могло естественным образом расти и образовывать значимое слово. Это приводит к практически бесконечному набору грамматически правильных слов, которые невозможно сохранить.
  3. Мелкие различия в буквах могут значительно изменить значение. Это более актуально со статистической точки зрения.
  4. Тамильский язык чрезвычайно чувствителен к контексту по сравнению с индоарийскими языками. Например, при изменении порядка предложений могут потребоваться разные суффиксы.

Современное НЛП для தமிழ்

В исследованиях НЛП на английском языке алгоритмы глубокого обучения являются доминирующей парадигмой для построения языковых моделей. Даже в этом случае приложения, развернутые на мобильных устройствах, по-прежнему зависят от статистического машинного обучения для создания легких приложений.

Из-за (а) нехватки данных и (б) потребности в гораздо больших языковых ресурсах по сравнению с английским, чтобы справиться с этой сложностью, нейронные архитектуры для тамильского языка далеки от практичности.

Несмотря на эти проблемы, недавние исследования в области нейронного пространства были выполнены. Например, экспериментировали с тамильскими моделями word2vec и BERT.

В Saama Research мы сейчас создаем программу проверки орфографии на тамильском языке с открытым исходным кодом. С суффиксами, как упоминалось ранее, существует бесконечное количество вариантов написания производного слова. Этот пост посвящен повышению точности проверки орфографии с помощью морфологических правил, чтобы не только исправить слово в лексиконе, но и его преобразованные формы.

Что такое морфологический процесс?

Морфология в контексте языка - это изучение синтаксической структуры и грамматики. В рамках этого обсуждения мы ограничимся изучением того, как суффиксы влияют на структуру слова. Первая концепция заключается в том, что два слова не просто соединяются. В большинстве индийских языков есть эта особенность, когда конкатенация обозначается небольшим изменением в написании, часто называемым сандхи. Далее мы опишем типы морфологической обработки.

Инфлекция: добавление суффикса с сохранением категории (например, существительного, глагола и т. д.). Например, பூனை (кошка) превращается в பூனைகள் (кошки) с добавлением суффикса, но категория существительного сохраняется. (существительное в единственном числе и существительное во множественном числе)

Производные: добавление суффикса, приводящее к изменению категории. Чтобы проиллюстрировать, வீரம் (храбрость: существительное) превращается в வீரமான (храбрый: прилагательное).

Составление - образование нового слова путем сочетания двух слов. Примером может служить கண் + நீர் - ›கண்ணீர்.

Моделирование морфологии

Морфология традиционно моделируется с помощью преобразователя конечных состояний (Jurafsky, 2013). Конечный преобразователь (FST) очень похож на базовые детерминированные конечные автоматы (DFA), которые мы изучаем в теории вычислений. В DFA мы строим модели таким образом, чтобы регулярное выражение принималось или отклонялось. Другими словами, у нас есть только одна входная лента. С другой стороны, в FST у нас есть как входная, так и выходная лента. Следовательно, регулярное выражение не просто принимается или отклоняется, но преобразуется из одного в другое. Это тоже обратимый процесс.

Скажем, в английском языке у нас есть FST для образования множественного числа этого слова. Можно создать основные правила, определяющие, нужно ли добавлять «s» или «es». Проницательный читатель поймет, что все еще будет большой простор для нестандартных, которые нужно кодировать вручную. Поскольку этот процесс обратим, единственное число можно преобразовать во множественное и наоборот.

Однако на тамильском языке сложность их создания высока. Как упоминалось ранее, для получения неузнаваемо длинного слова в результате можно использовать различные варианты словоизменения, словообразования и сложного слова. Кроме того, склонения могут сильно различаться в зависимости от пола, времени, падежа и т. Д. По изучению литературы наблюдается устойчивая работа в морфологических анализаторах тамильского языка. Однако мне было трудно найти облегченную реализацию с открытым исходным кодом. Недавняя реализация с открытым исходным кодом на языке Малаялам (близкий родственник тамильского языка) показывает, насколько сложна и сложна эта задача, начиная с создания пользовательских тегов POS (их 87) и заканчивая аннотированием слов в лексиконе в большое количество категорий (таких как существительные, имена людей, топонимы, послелоги, местоимения, квантификаторы, сокращения, прилагательные, глаголы, наречия, утвердительные слова, союзы, указательные формы, заимствованные из английского языка существительные, существительные с санскритскими корнями, междометия, названия языков и т. д.). Эти ручные аннотации закладывают основу для разработки правил морфологического процесса.

Заключительные замечания

Сделать шкалу современной техники - непростая задача даже для английского языка. С учетом сложности тамильского языка становится все более актуальным применять традиционные методы морфологического анализа. Изучение правил для того же самого не могло не напомнить мне о десятилетних усилиях по разработке WordNet в Принстоне. Я также считаю, что происходит много нового изобретения колеса, поскольку я видел много работ с 2011 года, описывающих реализации морфологических анализаторов для тамильского языка. Потребность часа в том, чтобы иметь реализацию того же самого с открытым исходным кодом.

Сказав это, я также удивлен тем, какие статистические методы можно применить к тому же самому. Дети не заучивают правила морфологического спряжения и не запоминают. Используя язык, они учатся органично. Я могу представить себе наивный подход к использованию аннотированного набора данных для преобразования базовых форм в их преобразованные формы (которые можно сканировать с помощью простых правил подмножества / надмножества). Это также будет масштабироваться до неизвестных слов в лексиконе. Хотя это более обобщенный подход, это тоже будет сложной задачей.