Краткое описание японских библиотек НЛП из PyCon JP 2019
PyCon JP 2019 проводится с 16.09.2019 по 17.09.2019 в течение двух дней. Я опубликую несколько сообщений об интересующих меня переговорах.
Как инженер НЛП, я рад найти доклад, связанный с НЛП. Этот пост представляет собой краткое английское изложение разговора о нагисе из Тайши Икеда. Вы можете найти слайды здесь и учебное пособие здесь на японском языке.
Две библиотеки
Существует множество японских библиотек НЛП, но вопрос о том, как выбрать хорошую для использования, требует некоторого исследования. Спасибо Тайши Икеде, которая сэкономила нам время. На рисунке выше собрано множество японских библиотек НЛП и проведено довольно подробное сравнение между ними. Если вы не знаете японского, не беспокойтесь. Я просто рекомендую два инструмента: Джуман ++ и нагиса.
Простой критерий для определения производительности - наличие в библиотеке нейронной модели для прогнозирования. Другими словами, обновляют ли сопровождающие библиотеку вместе с развитием технологий? По словам Тайши Икеда, Juman ++ и nagisa - единственные две библиотеки, которые предоставляют нейронную модель.
Нагиса
Поскольку речь Тайши Икэда в основном идет о нагисе, я кратко представлю нагису. Модель, используемая Нагисой, - это Bi-LSTM-CRF. Уровень CRF игнорируется, потому что он не хочет сбивать с толку тех, кто не знаком с НЛП.
Корпус, на котором тренировалась Нагиса, называется KWDLC. И Нагиса хорошо работает, особенно с символами эмодзи.
Тайши Икеда любезно предоставил блокнот Colab для быстрой игры.
Просмотрите другие мои сообщения на Medium с категориальным представлением!
GitHub: BrambleXu
LinkedIn: Xu Liang
Блог: BrambleXu