Публикации по теме nlp

Публикации по теме 'nlp'

Методы разработки признаков для текстовых данных

Краткое изложение методов преобразования текстовых данных для НЛП Почему мы заботимся о Feature Engineering Когда у вас есть базовая модель для любой проблемы, которую вы пытаетесь решить, вы хотите ее улучшить. Хотя попытка подобрать различные типы моделей, безусловно, является одним из способов сделать это, и попытка найти оптимальный гиперпараметр поможет. Еще один важный шаг — разработка функций . Известный как секретный источник для создания более эффективных моделей..

Анализ настроений с интеллектуальным анализом текста

Узнайте, как подготовить текстовые данные и запустить два разных классификатора, чтобы предсказать тональность твитов. В этом руководстве я исследую некоторые методы интеллектуального анализа текста для анализа тональности. Сначала мы потратим некоторое время на подготовку текстовых данных. Это будет включать в себя очистку текстовых данных, удаление стоп-слов и стемминга. Для этой цели приятно работать с набором данных Twitter об настроениях авиакомпаний США на Kaggle . Он..

Делаем мини GPT-2 с диалектными подсказками

Это скорее случайный, чем строгий исследовательский пост, но я хотел рассмотреть текущий (сентябрь 2020 г.) быстрый и простой способ настройки пользовательской модели GPT-2. Если вы работаете на английском языке: вам повезло! Вы можете начать с основных предварительно обученных моделей GPT-2 из OpenAI и настроить их для конкретного варианта использования. Я рекомендую SimpleTransformers, и есть множество других руководств . тонкая настройка:..

Механизм внимания в Seq2Seq и BiDAF - иллюстрированное руководство

Полное руководство по BiDAF - Часть 3 из 4 Механизм внимания в Seq2Seq и BiDAF - иллюстрированное руководство Последовательность-последовательность (seq2seq) и Двунаправленный поток внимания (BiDAF) являются влиятельными моделями НЛП. В этих моделях используется метод, называемый «внимание», который включает сравнение двух последовательностей. В этой статье я объясняю, как механизм внимания работает в этих двух моделях. Эта статья является третьей в серии из четырех статей, целью..

Создание тега части речи (POS) для доменных слов в отчетах об ошибках

В этом блоге я буду документировать свой прогресс в работе над инструментом обработки естественного языка (NLP) в рамках моего комплексного проекта для старшеклассников в Occidental College. Мой проект Скажем, я на вечеринке в пятницу вечером, и кто-то спрашивает меня, над чем я работаю для моего комплексного проекта для старшеклассников (или «композиций», для краткости). Я бы, наверное, сказал что-то вроде: «Я создаю инструмент, который, надеюсь, облегчит жизнь программистам»...

🤗 Токенизатор BERT с нуля

В рамках выпуска 🤗 Tokenizers 0.9 еще никогда не было так просто создавать чрезвычайно быстрые и универсальные токенизаторы для вашей следующей задачи NLP. Нет лучшего способа продемонстрировать новые возможности токенизаторов, чем создать токенизатор Bert с нуля. Токенизатор Во-первых, давайте установим последнюю версию пакета на момент написания этой статьи: pip install tokenizers===0.9 BERT использует WordPiece, поэтому мы создаем новый экземпляр Tokenizer с помощью..

Встраивание для исправления орфографии

Автоматическое исправление орфографии, несмотря на то, что над ним работают с 70-х годов, по-прежнему сложно решить из-за отсутствия значительных пользовательских данных. Шумный текст проблематичен для многих задач НЛП, поскольку он приводит к снижению точности методов, основанных на машинном обучении, и увеличивает количество слов вне словарного запаса (OOV), которые не могут быть обработаны популярными методами, такими как Word2Vec или GloVe. Следовательно, в рамках предварительной..