Публикации по теме 'nlp'
Простое расширение запроса
Это руководство актуально, если вы не ищете механизмы обратной связи по релевантности при расширении запроса. Еще одно ограничение этого руководства заключается в том, что оно применимо для общих случаев использования, поскольку WordNet используется в качестве корпуса для расширения запроса. Для расширения запроса, зависящего от предметной области, в корпусе предметно-ориентированной области может использоваться такой метод, как динамическое создание матрицы терминов документа.
Что..
Настроение Союза: анализ президентского состояния союзных адресов с помощью Python
Анализ адресов президента страны в Союзе с помощью инструментов анализа настроений и Python
В разделе 3 статьи II Конституции президенту Соединенных Штатов предписывается «предоставлять Конгрессу информацию о состоянии Союза и рекомендовать его рассмотрение таких мер, которые он сочтет необходимыми и целесообразными».
Учитывая новости, связанные с обращением Трампа о положении дел в 2019 году, было бы интересно взглянуть на эти обращения с течением времени и посмотреть, сможем ли мы..
Обработка естественного языка: векторизация подсчета с помощью scikit-learn
Векторизация подсчета (также известное как One-Hot Encoding)
Если вы еще этого не сделали, ознакомьтесь с моей предыдущей записью в блоге о встраивании слов: Введение в встраивание слов .
В этом сообщении блога мы говорим о множестве различных способов представления слов для использования в машинном обучении. Это общий обзор, который мы расширим здесь и посмотрим, как на самом деле можно использовать векторизацию счетчика для некоторых реальных текстовых данных.
Краткий обзор..
Насколько на самом деле капризны немцы в Твиттере?
Пошаговое руководство по извлечению настроений из (немецких) твитов путем предварительной обработки данных и обучения модели машинного обучения с использованием Python.
Вы когда-нибудь задумывались, как немцы ведут себя в Твиттере? Наверняка пишут много негатива, ведь немцы любят жаловаться, да? Что ж, есть способ выяснить это: анализ тональности. Тем не менее, анализ тональности для немецкого Твиттера может быть сложным из-за отсутствия хороших, предварительно обученных моделей для..
Классификация текста с помощью API Hugging Face
Нет необходимости в дорогостоящем оборудовании или внутренних разработчиках для развертывания новейших и лучших моделей Transformer для классификации текста.
В этой статье мы обсудим, как реализовать модели классификации текста с помощью Hugging Face's Inference API. Люди часто испытывают затруднения при развертывании моделей Transformer, поскольку для правильной реализации требуется система со значительными знаниями в области вычислений и внутреннего программирования. С помощью API..
DistillBERT - BERT, теперь скидка 50%
Вступление
В недавних публикациях в рамках НЛП представлены модели с количеством параметров, которые одна за другой продолжают увеличиваться и теперь достигают десятых долей миллиардов ( Google T5 с параметрами 11B ). Хотя большее количество параметров может быть ключом к оптимальной производительности, это препятствует обучению и обслуживанию модели там, где вычислительный бюджет может быть ограничен. В документе, кратко изложенном в этой статье, DistillBERT, дистиллированная..
Введение в БЕРТ
BERT (представление двунаправленного кодировщика от трансформаторов)
BIRT, или представления двунаправленного кодировщика от трансформеров, — это новый метод предварительной подготовки языковых представлений, который позволяет получить самые современные результаты в широком спектре задач обработки естественного языка (NLP). Он обучает универсальную модель «понимания языка» на большом текстовом корпусе (например, Википедии), а затем использует модель для последующих задач НЛП, которые нас..