Публикации по теме 'nlp'


NLTK — Должен знать вещи!
Языковая обработка и Python НЛТК NLTK означает набор инструментов для работы с естественным языком. Этот набор инструментов с открытым исходным кодом является одной из самых мощных библиотек обработки естественного языка, которая содержит пакеты, позволяющие машинам понимать человеческий язык. Он содержит библиотеки обработки текста для токенизации, синтаксического анализа, классификации, выделения корней, тегов и семантических рассуждений на высоком уровне, но также имеет следующие..


Мойте свой текст и извлекайте ценные данные! Инструменты обработки естественного языка
В последнее время слово «добыча полезных ископаемых» можно услышать на каждом углу. Причина заключается не только в ажиотаже биткойнов, но и в волне интереса к инструментам машинного обучения и инструментам для анализа поведения клиентов. Текстовый майнинг - один из таких инструментов. В серии следующих статей я поделюсь с вами самыми мощными методами интеллектуального анализа текста и определю некоторые из наиболее часто используемых инструментов обработки языка. Также я постараюсь..

Классификация настроений с использованием логистической регрессии в PyTorch
Реализация логистической регрессии в PyTorch для классификации настроений в данных Yelp Restaurant Review, где входной функцией является пакет слов (BOW) Логистическая регрессия для классификации данных обзоров по различным настроениям будет реализована в среде глубокого обучения PyTorch. Это эксперимент, чтобы познакомиться с основными функциями фреймворка PyTorch, например, как определить нейронную сеть? а как настроить гиперпараметры модели в PyTorch? будет рассмотрен в этом..

Тематическое моделирование с помощью LDA
Что такое тематическое моделирование? Тематическое моделирование — это тип статистического моделирования, который используется для выявления « тем » путем изучения, извлечения и распознавания значения слов, предложений, абзацев и документов в данной коллекции или корпусе. Что такое ЛДА? Чтобы определить темы, которые лучше всего описывают документ, нам нужно следовать некоторым приемам. LDA ( Скрытое распределение Дирихле ) — это один из методов моделирования, который мы используем..

Классификация спама с помощью ПЕРЧАТКИ
Я расскажу о другом способе создания встраивания слов, потому что традиционный Word2vec может использовать любую из двух архитектур моделей для создания распределенного представления слов: непрерывный пакет слов (CBOW) или непрерывный скип-грамм . В архитектуре непрерывного набора слов модель предсказывает текущее слово из окна окружающих контекстных слов. Порядок контекстных слов не влияет на предсказание (допущение мешка слов ). В архитектуре непрерывной скип-граммы модель..

Каким будет обучение виртуальным наукам о данных на ODSC Europe 2020
Виртуальное обучение дает возможность освоить новые востребованные навыки и инвестировать в свое будущее таким образом, который отражает ваши ограничения по времени и поездкам. Этой осенью ODSC привнесет свои уникальные преимущества в виртуальную платформу, чтобы сделать виртуальную конференцию ODSC Europe 2020 еще лучше . [Статья по теме: Чего ожидать от виртуальной конференции Europe 2020 ] На Виртуальной конференции ODSC Europe 2020 у нас будут возможности для..