Публикации по теме 'nlp'


Какой теггер частей речи лучше?
Текстовые данные часто неструктурированы. Data Scientist или ML Eng. должны извлекать информацию, потому что эти данные не являются числовыми. В НЛП есть много методов, таких как Bag-of-Words, TF-IDF, Word2Vec, BERT и так далее. Тегирование части речи (POS) является одним из них. По данным НЛП-прогресс , современная модель достигла точности более 90%. Нечего сказать, эта область является зрелой и высокоразвитой. Если у вас много наборов данных POS, легко создать..

Какого черта происходит с fast.ai?
Эту статью, вероятно, лучше назвать «Деконструкция fast.ai» или «Fast.ai из первых принципов», и она будет сосредоточена на построении модели для генерации текста с помощью PyTorch. Прошу прощения за заголовок, который выглядит довольно привлекательно. Я предполагаю, что читатели будут знакомы с fast.ai и, вероятно, прошли онлайн-курс глубокого обучения. Я сделал первую итерацию курса, когда он использовал Керас. Вторая итерация, выпущенная для публики только на прошлой неделе,..

Оптимизация моделей с использованием графиков t-SNE
Оптимизация моделей с использованием графиков t-SNE Как можно использовать высокоразмерные векторные изображения текста для улучшения процесса покупки дома? В Doma мы используем машинное обучение и обработку естественного языка (NLP), чтобы обеспечить быстрое и безболезненное закрытие закладных. Наши данные в формате RTF помогают нам решать ряд интересных задач. В этом посте я поделюсь кратким обзором того, как мы использовали векторное представление наших данных и методы..

Обзор библиотек НЛП для японского языка
Краткое описание японских библиотек НЛП из PyCon JP 2019 PyCon JP 2019 проводится с 16.09.2019 по 17.09.2019 в течение двух дней. Я опубликую несколько сообщений об интересующих меня переговорах. Как инженер НЛП, я рад найти доклад, связанный с НЛП. Этот пост представляет собой краткое английское изложение разговора о нагисе из Тайши Икеда . Вы можете найти слайды здесь и учебное пособие здесь на японском языке. Две библиотеки Существует множество японских библиотек НЛП,..

Manubot, NALU, GluonCV, ml5.js, doc.ai, OpenAI Benchmark, Deep-Speare, Cyberbullying Detection,…
Добро пожаловать в 24-й выпуск информационного бюллетеня НЛП! Я Элвис Саравиа из Белиза. Вот примечательные новости НЛП на этой неделе: боты OpenAI побеждают людей в матче по Dota 2; алгоритм обнаружения киберзапугивания; GluonCV помогает создавать и повторно реализовывать алгоритмы компьютерного зрения; дискуссия о значении и языковом моделировании; инструмент AI для чтения по губам… Об обществе… Anthem в партнерстве с doc.ai использует ИИ, чтобы помочь предсказать, когда..

Встраивание Word2Vec и FastText Word с помощью Gensim
При обработке естественного языка (NLP) мы часто преобразуем слова в векторы, содержащие числовые значения, чтобы машина могла их понять. Встраивание слов - это тип сопоставления, который позволяет словам с одинаковым значением иметь одинаковое представление. В этой статье будут представлены два современных метода встраивания слов, Word2Vec и FastText с их реализацией в Gensim. Традиционный подход Традиционный способ представления слов - это горячий вектор, который по сути..

Оскар Уайльд: «Эпоха Редингской тюрьмы»
Часть серии поэтов с искусственным интеллектом, в которой используются алгоритмы машинного обучения для создания стихов, похожих на произведения известных исторических поэтов. Шесть недель ходил по двору наш гвардеец, В потертом сером костюме: Его крикетная кепка была на голове, И шаг его казался легким и веселым, Но я никогда видел человека, который глядел таким задумчивым взглядом на ту маленькую голубую палатку, которую мы заключенные называли небом , и на каждое беспечное..