Публикации по теме 'nlp'


Использование NLP (BERT) для повышения точности распознавания текста
Оптическое распознавание символов (OCR) - популярный метод, используемый для извлечения данных из отсканированных документов. Как и следовало ожидать, точность решения OCR зависит от качества изображений, используемых в качестве входных. Одной из проблем, с которыми сталкиваются практические применения решений OCR, является значительное падение точности на уровне слов в зависимости от точности на уровне символов. Решение OCR, которое достигает 98% точности на уровне символов,..

Word2vec с нуля с NumPy
Как реализовать модель Word2vec с Python и NumPy Вступление В последнее время я работал с несколькими проектами, связанными с НЛП. Некоторые из них были как-то связаны с обучением встраиванию слов в компании. В работе задачи в основном решались с помощью библиотеки Python: gensim . Однако я решил реализовать модель Word2vec с нуля только с помощью Python и NumPy, потому что изобретение колеса обычно является отличным способом глубоко изучить что-то. Вложение слов Встраивание слов..

БАРТ: Все ли методы предварительной тренировки созданы равными?
Почему это важно? В этой статье Lewis et al. представить ценную сравнительную работу по различным предтренировочным методикам и показать, как этот вид работы может быть использован для руководства крупными предтренировочными экспериментами, достигающими самых современных результатов (SOTA). Что он предлагает? Авторы предлагают основу для сравнения методов предварительной подготовки и целей языковой модели (LM). Эта структура фокусируется на том, как эти методы могут..

Визуализация тематической модели с использованием pyLDAvis
В этой статье основное внимание будет уделено pyLDAvis для визуализации, для его установки мы будем использовать установку pip, и команда, приведенная ниже, выполнит установку. pip install pyldavis Импорт необходимых библиотек В этой статье мы начнем с создания модели с использованием предопределенного набора данных из sklearn. Чтобы выполнить все эти шаги, нам нужно импортировать все необходимые библиотеки. from __future__ import print_function import pyLDAvis import..

Деидентификация электронных медицинских карт с использованием НЛП
Как защитить конфиденциальность при обработке медицинского текста. В Nedap мы разрабатываем электронные медицинские карты (EHR), чтобы упростить и улучшить медицинское обслуживание. Таким образом, мы регулярно обрабатываем большие объемы конфиденциальных медицинских данных. У этих данных есть много возможностей для улучшения лечения и проведения исследований, но в то же время нам необходимо обеспечить защиту конфиденциальности пациента. Мы искали способы облегчить использование данных..

Социальные сети и гендерное предсказание
Часто, когда мы работаем с данными из социальных сетей, мы хотим знать о пользователях больше, чем то, что явно сообщает нам текст. То есть мы хотим вывести демографические переменные из текстовых данных. Одной из наиболее распространенных демографических переменных, которые следует хотеть, является пол. Исследователи социальных сетей смогли успешно различать пользователей социальных сетей мужчин и женщин, учитывая фрагменты текста приличного размера. Сегодня мы рассмотрим простую..

НЛП : многоклассовая классификация с использованием ULMFiT
Пролог: Зачем это делать..? Потратив безбожное количество часов на поиск подходящего примера «НЛП для многоклассовой классификации», я просто отказался от его поиска и решил сделать все сам. Интернет подозрительно завален множеством примеров, в которых последние достижения НЛП применяются либо к двоичной классификации, либо к многоуровневой классификации, в то время как многоклассовая классификация явно отсутствует. Лучшая возможная причина, которую я могу придумать для отсутствия..