Публикации по теме nlp

Публикации по теме 'nlp'

Арабское НЛП: уникальные проблемы и их решения

Предварительная обработка арабского текста для машинного обучения с использованием пакета Python camel-tools В этой статье я даю краткий и точный обзор проблем работы с арабским текстом в проектах НЛП… и инструментов, доступных для их решения. Я в значительной степени полагаюсь на пакет Python camel-tools , разработанный в лаборатории CAMeL Lab Нью-Даби в Абу-Даби, и на этот отличный веб-семинар его директора д-ра Низара Хабаша . Благодарим их за то, что они проделали..

XLNet - умное решение для языкового моделирования

Для создания словесных представлений с глубоким двунаправленным контекстом TL;DR Неконтролируемое изучение распределения вероятностей последовательностей слов в языке путем прогнозирования каждого слова в контексте его предложения в большом корпусе оказалось полезным для создания моделей и представлений слов, которые затем можно точно настроить для последующих задач НЛП. Два фактора, по-видимому, играют ключевую роль в повышении производительности при точной настройке моделей для..

Введение в техники НЛП

Существует особый вид красоты, которая рождается в языке, в языке и для языка. Специалисты по данным работают с огромным количеством данных, и часто эти данные включают в себя естественные языки, такие как текст и речь. Этот текст обычно очень похож на естественный язык, который мы используем в повседневной жизни. Они должны преобразовать эти естественные языки в машиночитаемые формы. В этом блоге мы рассмотрим некоторые распространенные методы НЛП, с помощью которых мы можем начать..

Идентификация предварительно обученных моделей из точно настроенных LM

Недавние разработки больших языковых моделей, таких как GPT-3 , PaLM , продемонстрировали возможности генерации текста на уровне человека, из-за чего людям часто очень трудно отличить реальный текст от синтетического. Тогда злоумышленнику становится очень легко распространять дезинформацию в автоматическом режиме в больших масштабах. Это часто происходит, когда злоумышленник настраивает одну из больших предварительно обученных моделей для своего конкретного случая использования. В..

Давайте извлечем некоторые темы из текстовых данных — Часть I: Скрытое распределение Дирихле (LDA)

Узнайте, что влечет за собой тематическое моделирование и его реализацию с помощью пакетов Python nltk, gensim, sklearn и pyLDAvis. Введение Тематическое моделирование – это тип задачи обработки естественного языка (NLP), в которой используются неконтролируемые методы обучения для извлечения основных тем некоторых текстовых данных, с которыми мы имеем дело. Слово «Без присмотра» здесь означает, что нет обучающих данных со связанными метками тем. Вместо этого алгоритмы пытаются..

Тенденции представления входных данных для современных моделей НЛП (2019 г.)

Самый естественный/интуитивный способ представления слов, когда они вводятся в языковую модель (или любую модель задач НЛП) , — это просто представлять слова такими, какие они есть — как единое целое. Например, если мы обучаем языковую модель на корпусе, мы традиционно представляем каждое слово в виде вектора и заставляем модель изучать вложения слов — значения для каждого измерения этого вектора. Затем впоследствии, во время теста, если нам дается новое предложение, языковая модель может..

Создайте систему ответов на вопросы на естественном языке с помощью IBM Watson

Недавно я начал новый проект по созданию системы контроля качества для Mindvalley. После короткого обсуждения с моими коллегами мы решили использовать победителя риска 2011 г. ( Watson ). Как вы, возможно, знаете, Watson - это компьютерная система с ответами на вопросы, способная отвечать на вопросы, заданные на естественном языке. Она была разработана в рамках проекта IBM DeepQA исследовательской группой под руководством главного исследователя Дэвида Ферруччи. IBM также выпустила..