Публикации по теме 'nlp'


Учебное пособие по классификации настроений в Твиттере НЛП
Руководство по классификации настроений в Twitter Twitter - популярная платформа социальных сетей, которой пользуются сотни миллионов людей по всему миру. Фактически, текущая оценка пользователей Twitter составляет примерно 330 миллионов активных пользователей в месяц и 145 миллионов активных пользователей в день в Twitter. 63 процента всех пользователей Твиттера во всем мире находятся в возрасте от 35 до 65 лет. На протяжении всей этой статьи я буду ссылаться на свой проект,..

Преобразование текстов в матрицу терминов документа с использованием векторизатора счета
Работа с текстом в ML — одно из самых интеллектуально стимулирующих упражнений, но недостатком этого упражнения является то, что наши алгоритмы ML не могут напрямую работать с текстом, все эти алгоритмы ML требуют чисел в качестве параметров. Это означает, что наши текстовые данные должны быть преобразованы в векторы чисел. На жаргоне обработки естественного языка это называется извлечением признаков. В частности, извлечение текстовых признаков. CountVectorizer — это класс, написанный на..

Учебное пособие по API Codeq NLP
Часть 9. Семантическое сходство В этом уроке мы продемонстрируем модуль Codeq’s NLP API , который можно использовать для анализа семантического сходства между текстами. Предыдущие уроки из этой серии можно найти здесь: Часть 1. Начало работы и отправка запросов к API. Часть 2. Вызов аннотаторов НЛП для лингвистического анализа . Часть 3. Использование текстовых классификаторов для классификации чувств и эмоций и выявления сарказма в текстах . Часть 4. Выявление..

AutoEmbedder - обучение встраиванию слоев в неконтролируемые задачи
Как AutoEncoders можно использовать для обучения встраиванию объектов без учителя Встраивания стали стандартным способом представления категориальных функций в машинном обучении. Возможность кодировать слова, сущности или значения категорий в осмысленные, плотные векторные представления и выполнять числовые операции и сравнения между ними привела к значительному прогрессу в этой области за последние годы. В этом посте я хотел бы сделать краткий обзор различных стратегий встраивания..

Методы тематического моделирования
Краткий обзор различных техник, используемых для тематического моделирования в НЛП, вместе с абстрактными примерами кода Было ли у вас когда-нибудь много текста из разных источников и вы хотели проанализировать широкую тему / темы, о которых говорят люди, и разделить их на определенные группы, ну, моделирование темы здесь для вас. Итак, что такое тематическое моделирование. Тематическое моделирование - это статистический процесс, с помощью которого вы можете идентифицировать,..

Реализация word2vec в PyTorch (модель skip-gram)
Вы, наверное, слышали о встраивании word2vec. Но вы действительно понимаете, как это работает? Я думал, что знаю. Но я этого не сделал, пока не реализовал это. Вот почему я создаю это руководство. Обновление 2021 года : более подробную статью можно найти на странице https://neptune.ai/blog/word-embeddings-guide . Предпосылки Я полагаю, вы более-менее знаете, что такое word2vec. Корпус Чтобы отслеживать каждый шаг, я использую следующий нанокорпус: Создание словарного..

Как настроить BERT для задачи классификации текста?
BERT (двунаправленные представления кодировщика от трансформаторов) - это архитектура на основе трансформаторов, представленная Google в статье Внимание - все, что вам нужно » в 2016 году. Модель BERT была опубликована в 2019 году в статье « BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка ». Когда он был выпущен, он показал самые современные результаты по тесту GLUE . Вступление Сначала я немного расскажу об..