Получите контроль над ландшафтом обработки естественного языка! Начните свое путешествие в мир НЛП с этой Периодической таблицы из более чем 80 задач НЛП.

Русский химик Дмитрий Менделеев опубликовал первую Периодическую таблицу в 1869 году. Теперь пришло время организовать задачи НЛП в стиле Периодической таблицы!

Варианты и структура задач НЛП бесконечны. Тем не менее, вы можете подумать о построении конвейеров НЛП на основе стандартных задач НЛП и разделении их на группы. Но что влекут за собой эти задачи?

Объяснено более 80 часто используемых задач НЛП!

Группа 11: Неконтролируемая сигнализация

53. Извлечение ключевых слов

Укажите наиболее релевантные слова из этого документа. Это задача извлечения ключевых слов. Он часто используется в качестве отправной точки при неконтролируемой текстовой аналитике. Термин Ключевые слова также известен как общие фразы, многословные выражения и словосочетания n-грамм.

Расчет ключевых слов может быть выполнен, например, с помощью алгоритма Textrank или путем обнаружения Ngrams.

54. Извлекающее обобщение

Извлекающее суммирование (или генерация сводки) работает так же, как извлечение ключевых слов. Извлекаются наиболее релевантные предложения. Алгоритм выбирает предложения, находя комбинацию слов, которые важны или кажутся репрезентативными для всего текста. Вот почему пакеты, поддерживающие суммирование, часто также поддерживают обнаружение ключевых слов. Вариант - многодокументное реферирование.

Извлекающее обобщение также важно для задачи ответа на вопрос. Собрав наиболее релевантные документы для конкретного вопроса, составитель сводных данных может составить связный контекст для ответа. В обратную сторону тоже интересно. При построении обучающих данных для задачи обеспечения качества вам необходимо генерировать соответствующие вопросы; Извлекающее обобщение может определить важные предложения, о которых вы хотите задать вопросы.

55. Тематическое моделирование

Чтобы разделить набор документов на N неконтролируемых тем, документы должны быть представлены компактными векторами. Термин Частота * Обратная частота документа (TF-IDF), латентное семантическое индексирование (LSI) и латентное размещение Дирихле (LDA) являются наиболее известными алгоритмами модели векторного пространства для преобразования документа в вектор.

Важным шагом в тематическом моделировании является определение того, насколько похожими должны быть эти векторы, какие документы относятся к определенной теме и сколько тем следует различать. В большинстве библиотек вы должны определить, сколько тем (кластеров) должен генерировать алгоритм.

Однако библиотека Top2vec автоматически уменьшает количество измерений и находит плотные области в этом уменьшенном пространстве. Таким образом, он определяет количество тем для вас. Вы можете сократить это количество тем, последовательно объединяя каждую наименьшую тему с наиболее похожей темой, пока не достигнете целевого числа. Он также объединяет векторы документов и векторы слов для определения тем (векторов) и их наиболее важных слов.

Еще одним информативным инструментом, о котором следует упомянуть, является pyLDAvis, представляющий собой библиотеку для визуализации интерактивной тематической модели (демо).

56. Обнаружение тренда

Актуальные темы в потоковых данных Twitter — один из лучших примеров для задачи Trend Detection. Фиксация тем, мыслей и эмоций во времени дает очень полезную отправную точку для анализа.

Вы можете количественно определить отклонение определенного количества слов от ожидаемой изменчивости, и вы можете определить порог, выше которого вы называете количество тенденцией. Если есть исторические данные, вы можете учитывать закономерности сезонности при анализе временных рядов.

Сложность в том, что часто заранее не знаешь масштаб, размер или временной интервал изменения. В зависимости от вашего варианта использования возможны различные настройки. Тем не менее, все алгоритмы имеют компромиссы, включая простоту и надежность, точность, полноту и время обнаружения. Более старый пакет Python от Twitterdev может дать вам быстрый старт.

Интересным вариантом является обнаружение холодного тренда. Это показывает, какие темы имеют самые высокие отрицательные изменения в оценках и остывают в определенное время.

57. Обнаружение выбросов

Выбросы или аномалии обычно определяются как выборки, которые исключительно далеки от основных (текстовых) данных. Порог, когда что-то является выбросом, очень субъективен. Если у вас есть словарный запас, выброс может быть определен как слово вне словарного запаса (OOV).

Другой способ заключается в том, что выброс является результатом крайнего дисбаланса классов и может быть измерен с точки зрения его вектора слова или документа.

Читайте следующую статью о Группе 12:



ОБ ЭТОМ ПОСТЕ

Я попытался сделать Периодическую таблицу задач НЛП как можно более полной. Поэтому это больше для долгого чтения, чем некоторые автономные статьи в блогах. Я разделил 80 статей на группы периодической таблицы.

Другие статьи группы вы можете найти здесь!

Устройство и состав Периодической таблицы субъективны. Разделение задач и категорий можно было бы осуществить несколькими другими способами. Я ценю ваши отзывы и новые идеи в форме ниже. Я постарался сделать четкое и краткое описание для каждой задачи. Я опустил более глубокие детали, но предоставил ссылки на дополнительную информацию, где это возможно. Если у вас есть улучшения, вы можете отправить их ниже или связаться со мной в LinkedIn.

Пожалуйста, напишите мне, если у вас есть какие-либо дополнения!

Скачать Периодическую таблицу задач НЛП здесь!

Создайте свою собственную периодическую таблицу здесь!

ОБО МНЕ

Основатель @ innerdoc.com | НЛП эксперт-инженер-энтузиаст | Пишет о том, как получить значение из текстовых данных | Живет в Нидерландах

Не стесняйтесь связаться со мной в LinkedIn или подписаться на меня здесь, на Medium.