Публикации по теме 'nlp'


Простое расширение запроса
Это руководство актуально, если вы не ищете механизмы обратной связи по релевантности при расширении запроса. Еще одно ограничение этого руководства заключается в том, что оно применимо для общих случаев использования, поскольку WordNet используется в качестве корпуса для расширения запроса. Для расширения запроса, зависящего от предметной области, в корпусе предметно-ориентированной области может использоваться такой метод, как динамическое создание матрицы терминов документа. Что..

Настроение Союза: анализ президентского состояния союзных адресов с помощью Python
Анализ адресов президента страны в Союзе с помощью инструментов анализа настроений и Python В разделе 3 статьи II Конституции президенту Соединенных Штатов предписывается «предоставлять Конгрессу информацию о состоянии Союза и рекомендовать его рассмотрение таких мер, которые он сочтет необходимыми и целесообразными». Учитывая новости, связанные с обращением Трампа о положении дел в 2019 году, было бы интересно взглянуть на эти обращения с течением времени и посмотреть, сможем ли мы..

Обработка естественного языка: векторизация подсчета с помощью scikit-learn
Векторизация подсчета (также известное как One-Hot Encoding) Если вы еще этого не сделали, ознакомьтесь с моей предыдущей записью в блоге о встраивании слов: Введение в встраивание слов . В этом сообщении блога мы говорим о множестве различных способов представления слов для использования в машинном обучении. Это общий обзор, который мы расширим здесь и посмотрим, как на самом деле можно использовать векторизацию счетчика для некоторых реальных текстовых данных. Краткий обзор..

Насколько на самом деле капризны немцы в Твиттере?
Пошаговое руководство по извлечению настроений из (немецких) твитов путем предварительной обработки данных и обучения модели машинного обучения с использованием Python. Вы когда-нибудь задумывались, как немцы ведут себя в Твиттере? Наверняка пишут много негатива, ведь немцы любят жаловаться, да? Что ж, есть способ выяснить это: анализ тональности. Тем не менее, анализ тональности для немецкого Твиттера может быть сложным из-за отсутствия хороших, предварительно обученных моделей для..

Классификация текста с помощью API Hugging Face
Нет необходимости в дорогостоящем оборудовании или внутренних разработчиках для развертывания новейших и лучших моделей Transformer для классификации текста. В этой статье мы обсудим, как реализовать модели классификации текста с помощью Hugging Face's Inference API. Люди часто испытывают затруднения при развертывании моделей Transformer, поскольку для правильной реализации требуется система со значительными знаниями в области вычислений и внутреннего программирования. С помощью API..

DistillBERT - BERT, теперь скидка 50%
Вступление В недавних публикациях в рамках НЛП представлены модели с количеством параметров, которые одна за другой продолжают увеличиваться и теперь достигают десятых долей миллиардов ( Google T5 с параметрами 11B ). Хотя большее количество параметров может быть ключом к оптимальной производительности, это препятствует обучению и обслуживанию модели там, где вычислительный бюджет может быть ограничен. В документе, кратко изложенном в этой статье, DistillBERT, дистиллированная..

Введение в БЕРТ
BERT (представление двунаправленного кодировщика от трансформаторов) BIRT, или представления двунаправленного кодировщика от трансформеров, — это новый метод предварительной подготовки языковых представлений, который позволяет получить самые современные результаты в широком спектре задач обработки естественного языка (NLP). Он обучает универсальную модель «понимания языка» на большом текстовом корпусе (например, Википедии), а затем использует модель для последующих задач НЛП, которые нас..