Публикации по теме 'nlp'


Нейронные сети для встраивания слов
Это третья часть моей серии статей о НЛП. В Части 1 мы говорили о модели Сумка слов , наивном представлении языка, которое создает векторы на основе того, сколько раз термин встречается в документе. В Части 2 мы использовали векторизатор Tf-idf для классификации текстовых сообщений, который берет модель Сумка слов и повторно вычисляет весовой коэффициент на основе релевантности термина для документа. Теперь мы рассмотрим гораздо более сложный набор вложений, созданных с..

Разговорный ИИ - но где же я?
Я помню, как впервые увидел компьютер, это был Power Macintosh 5260 (с островом обезьян). Мне было около 5 лет, и я смотрел на него так, как будто он принадлежал другой вселенной. Это произошло, мне не разрешили приблизиться к нему в радиусе 5 миль; это был мой старший брат! Это меня не остановило. Я просматривал его часами. Возможности компьютеров были безграничны и подпитывались вдохновением научно-фантастических миров мечтой о говорящих машинах, машинах, которые могут помогать..

«Языковая модель - все, что вам нужно» Amazon Alexa AI исследует NLU в качестве QA
Новое исследование Amazon Alexa AI утверждает, что нынешние подходы к пониманию естественного языка (NLU) далеки от того, как люди понимают язык, и спрашивает, можно ли эффективно и эффективно сопоставить все проблемы NLU с проблемами ответов на вопросы (QA) с помощью трансферного обучения. Трансферное обучение - это подход машинного обучения для применения знаний, полученных из исходного домена, в целевой домен. Он дал многообещающие результаты в обработке естественного языка (NLP),..

Методы подслов для нейронного машинного перевода
Нейронный машинный перевод (NMT) — это современный современный метод машинного перевода, обеспечивающий плавный перевод. Однако на модели NMT влияют проблемы с отсутствием словарного запаса (OOV) и редкими словами, что снижает качество перевода. Слова OOV — это слова, которые не встречаются в корпусе, а редкие слова — это слова, которые встречаются в корпусе очень мало раз. При переводе таких неизвестных слов эти слова заменяются токенами UNK. Следовательно, переводы становятся хуже,..

Обзор: искусственный интеллект в 2018 году
Искусственный интеллект больше не модное слово. По состоянию на 2018 год это хорошо развитая ветвь аналитики больших данных с несколькими приложениями и активными проектами. Вот краткий обзор темы. ИИ - это общий термин для различных подходов к анализу больших данных, таких как модели машинного обучения и сети глубокого обучения. Недавно мы демистифицировали термины AI, ML и DL и различия между ними, так что не стесняйтесь проверить это. Короче говоря, алгоритмы ИИ - это различные..

Предварительная обработка текста НЛП, уровень 1
Краткое практическое руководство по токенизации, стеммингу, стоп-словам и лемматизации с использованием NLTK и Python Существует множество приложений NLP, но без надлежащей предварительной обработки данных / текста создание надежных и точных систем NLP всегда будет обреченной на провал задачей для любого инженера AI или ML. Здесь я рассмотрю темы предварительной обработки данных и их коды на самом базовом уровне реализаций системы НЛП, чтобы дать интуитивное представление о том, как..

AdapterHub: платформа для адаптации трансформаторов
Нет больше медленной тонкой настройки: эффективное обучение передачи с помощью преобразователей HuggingFace в 2 дополнительных строчках кода Это сообщение в блоге представляет собой введение в AdapterHub , новую платформу, выпущенную Pfeiffer et al (2020b) , которая позволяет выполнять переносное обучение обобщенные предварительно обученные преобразователи, такие как BERT, RoBERTa и XLM-R , в последующие задачи , такие как ответы на вопросы, классификация и т. д. с..