Публикации по теме nlp

Публикации по теме 'nlp'

Простое расширение запроса

Это руководство актуально, если вы не ищете механизмы обратной связи по релевантности при расширении запроса. Еще одно ограничение этого руководства заключается в том, что оно применимо для общих случаев использования, поскольку WordNet используется в качестве корпуса для расширения запроса. Для расширения запроса, зависящего от предметной области, в корпусе предметно-ориентированной области может использоваться такой метод, как динамическое создание матрицы терминов документа. Что..

Настроение Союза: анализ президентского состояния союзных адресов с помощью Python

Анализ адресов президента страны в Союзе с помощью инструментов анализа настроений и Python В разделе 3 статьи II Конституции президенту Соединенных Штатов предписывается «предоставлять Конгрессу информацию о состоянии Союза и рекомендовать его рассмотрение таких мер, которые он сочтет необходимыми и целесообразными». Учитывая новости, связанные с обращением Трампа о положении дел в 2019 году, было бы интересно взглянуть на эти обращения с течением времени и посмотреть, сможем ли мы..

Обработка естественного языка: векторизация подсчета с помощью scikit-learn

Векторизация подсчета (также известное как One-Hot Encoding) Если вы еще этого не сделали, ознакомьтесь с моей предыдущей записью в блоге о встраивании слов: Введение в встраивание слов . В этом сообщении блога мы говорим о множестве различных способов представления слов для использования в машинном обучении. Это общий обзор, который мы расширим здесь и посмотрим, как на самом деле можно использовать векторизацию счетчика для некоторых реальных текстовых данных. Краткий обзор..

Насколько на самом деле капризны немцы в Твиттере?

Пошаговое руководство по извлечению настроений из (немецких) твитов путем предварительной обработки данных и обучения модели машинного обучения с использованием Python. Вы когда-нибудь задумывались, как немцы ведут себя в Твиттере? Наверняка пишут много негатива, ведь немцы любят жаловаться, да? Что ж, есть способ выяснить это: анализ тональности. Тем не менее, анализ тональности для немецкого Твиттера может быть сложным из-за отсутствия хороших, предварительно обученных моделей для..

Классификация текста с помощью API Hugging Face

Нет необходимости в дорогостоящем оборудовании или внутренних разработчиках для развертывания новейших и лучших моделей Transformer для классификации текста. В этой статье мы обсудим, как реализовать модели классификации текста с помощью Hugging Face's Inference API. Люди часто испытывают затруднения при развертывании моделей Transformer, поскольку для правильной реализации требуется система со значительными знаниями в области вычислений и внутреннего программирования. С помощью API..

DistillBERT - BERT, теперь скидка 50%

Вступление В недавних публикациях в рамках НЛП представлены модели с количеством параметров, которые одна за другой продолжают увеличиваться и теперь достигают десятых долей миллиардов ( Google T5 с параметрами 11B ). Хотя большее количество параметров может быть ключом к оптимальной производительности, это препятствует обучению и обслуживанию модели там, где вычислительный бюджет может быть ограничен. В документе, кратко изложенном в этой статье, DistillBERT, дистиллированная..

Введение в БЕРТ

BERT (представление двунаправленного кодировщика от трансформаторов) BIRT, или представления двунаправленного кодировщика от трансформеров, — это новый метод предварительной подготовки языковых представлений, который позволяет получить самые современные результаты в широком спектре задач обработки естественного языка (NLP). Он обучает универсальную модель «понимания языка» на большом текстовом корпусе (например, Википедии), а затем использует модель для последующих задач НЛП, которые нас..