Публикации по теме 'nlp'
Учебное пособие по классификации настроений в Твиттере НЛП
Руководство по классификации настроений в Twitter
Twitter - популярная платформа социальных сетей, которой пользуются сотни миллионов людей по всему миру. Фактически, текущая оценка пользователей Twitter составляет примерно 330 миллионов активных пользователей в месяц и 145 миллионов активных пользователей в день в Twitter. 63 процента всех пользователей Твиттера во всем мире находятся в возрасте от 35 до 65 лет. На протяжении всей этой статьи я буду ссылаться на свой проект,..
Преобразование текстов в матрицу терминов документа с использованием векторизатора счета
Работа с текстом в ML — одно из самых интеллектуально стимулирующих упражнений, но недостатком этого упражнения является то, что наши алгоритмы ML не могут напрямую работать с текстом, все эти алгоритмы ML требуют чисел в качестве параметров. Это означает, что наши текстовые данные должны быть преобразованы в векторы чисел. На жаргоне обработки естественного языка это называется извлечением признаков. В частности, извлечение текстовых признаков.
CountVectorizer — это класс, написанный на..
Учебное пособие по API Codeq NLP
Часть 9. Семантическое сходство
В этом уроке мы продемонстрируем модуль Codeq’s NLP API , который можно использовать для анализа семантического сходства между текстами. Предыдущие уроки из этой серии можно найти здесь:
Часть 1. Начало работы и отправка запросов к API. Часть 2. Вызов аннотаторов НЛП для лингвистического анализа . Часть 3. Использование текстовых классификаторов для классификации чувств и эмоций и выявления сарказма в текстах . Часть 4. Выявление..
AutoEmbedder - обучение встраиванию слоев в неконтролируемые задачи
Как AutoEncoders можно использовать для обучения встраиванию объектов без учителя
Встраивания стали стандартным способом представления категориальных функций в машинном обучении. Возможность кодировать слова, сущности или значения категорий в осмысленные, плотные векторные представления и выполнять числовые операции и сравнения между ними привела к значительному прогрессу в этой области за последние годы.
В этом посте я хотел бы сделать краткий обзор различных стратегий встраивания..
Методы тематического моделирования
Краткий обзор различных техник, используемых для тематического моделирования в НЛП, вместе с абстрактными примерами кода
Было ли у вас когда-нибудь много текста из разных источников и вы хотели проанализировать широкую тему / темы, о которых говорят люди, и разделить их на определенные группы, ну, моделирование темы здесь для вас. Итак, что такое тематическое моделирование. Тематическое моделирование - это статистический процесс, с помощью которого вы можете идентифицировать,..
Реализация word2vec в PyTorch (модель skip-gram)
Вы, наверное, слышали о встраивании word2vec. Но вы действительно понимаете, как это работает? Я думал, что знаю. Но я этого не сделал, пока не реализовал это.
Вот почему я создаю это руководство.
Обновление 2021 года : более подробную статью можно найти на странице https://neptune.ai/blog/word-embeddings-guide .
Предпосылки
Я полагаю, вы более-менее знаете, что такое word2vec.
Корпус
Чтобы отслеживать каждый шаг, я использую следующий нанокорпус:
Создание словарного..
Как настроить BERT для задачи классификации текста?
BERT (двунаправленные представления кодировщика от трансформаторов) - это архитектура на основе трансформаторов, представленная Google в статье Внимание - все, что вам нужно » в 2016 году. Модель BERT была опубликована в 2019 году в статье « BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка ». Когда он был выпущен, он показал самые современные результаты по тесту GLUE .
Вступление
Сначала я немного расскажу об..