Краткое описание японских библиотек НЛП из PyCon JP 2019

PyCon JP 2019 проводится с 16.09.2019 по 17.09.2019 в течение двух дней. Я опубликую несколько сообщений об интересующих меня переговорах.

Как инженер НЛП, я рад найти доклад, связанный с НЛП. Этот пост представляет собой краткое английское изложение разговора о нагисе из Тайши Икеда. Вы можете найти слайды здесь и учебное пособие здесь на японском языке.

Две библиотеки

Существует множество японских библиотек НЛП, но вопрос о том, как выбрать хорошую для использования, требует некоторого исследования. Спасибо Тайши Икеде, которая сэкономила нам время. На рисунке выше собрано множество японских библиотек НЛП и проведено довольно подробное сравнение между ними. Если вы не знаете японского, не беспокойтесь. Я просто рекомендую два инструмента: Джуман ++ и нагиса.

Простой критерий для определения производительности - наличие в библиотеке нейронной модели для прогнозирования. Другими словами, обновляют ли сопровождающие библиотеку вместе с развитием технологий? По словам Тайши Икеда, Juman ++ и nagisa - единственные две библиотеки, которые предоставляют нейронную модель.

Нагиса

Поскольку речь Тайши Икэда в основном идет о нагисе, я кратко представлю нагису. Модель, используемая Нагисой, - это Bi-LSTM-CRF. Уровень CRF игнорируется, потому что он не хочет сбивать с толку тех, кто не знаком с НЛП.

Корпус, на котором тренировалась Нагиса, называется KWDLC. И Нагиса хорошо работает, особенно с символами эмодзи.

Тайши Икеда любезно предоставил блокнот Colab для быстрой игры.

  1. Basic_usage.ipynb [Блокнот Colab]
  2. Word_cloud.ipynb [Блокнот Colab]

Просмотрите другие мои сообщения на Medium с категориальным представлением!
GitHub: BrambleXu
LinkedIn: Xu Liang
Блог: BrambleXu

Ссылка