Публикации по теме nlp

Публикации по теме 'nlp'

Какой теггер частей речи лучше?

Текстовые данные часто неструктурированы. Data Scientist или ML Eng. должны извлекать информацию, потому что эти данные не являются числовыми. В НЛП есть много методов, таких как Bag-of-Words, TF-IDF, Word2Vec, BERT и так далее. Тегирование части речи (POS) является одним из них. По данным НЛП-прогресс , современная модель достигла точности более 90%. Нечего сказать, эта область является зрелой и высокоразвитой. Если у вас много наборов данных POS, легко создать..

Какого черта происходит с fast.ai?

Эту статью, вероятно, лучше назвать «Деконструкция fast.ai» или «Fast.ai из первых принципов», и она будет сосредоточена на построении модели для генерации текста с помощью PyTorch. Прошу прощения за заголовок, который выглядит довольно привлекательно. Я предполагаю, что читатели будут знакомы с fast.ai и, вероятно, прошли онлайн-курс глубокого обучения. Я сделал первую итерацию курса, когда он использовал Керас. Вторая итерация, выпущенная для публики только на прошлой неделе,..

Оптимизация моделей с использованием графиков t-SNE

Оптимизация моделей с использованием графиков t-SNE Как можно использовать высокоразмерные векторные изображения текста для улучшения процесса покупки дома? В Doma мы используем машинное обучение и обработку естественного языка (NLP), чтобы обеспечить быстрое и безболезненное закрытие закладных. Наши данные в формате RTF помогают нам решать ряд интересных задач. В этом посте я поделюсь кратким обзором того, как мы использовали векторное представление наших данных и методы..

Обзор библиотек НЛП для японского языка

Краткое описание японских библиотек НЛП из PyCon JP 2019 PyCon JP 2019 проводится с 16.09.2019 по 17.09.2019 в течение двух дней. Я опубликую несколько сообщений об интересующих меня переговорах. Как инженер НЛП, я рад найти доклад, связанный с НЛП. Этот пост представляет собой краткое английское изложение разговора о нагисе из Тайши Икеда . Вы можете найти слайды здесь и учебное пособие здесь на японском языке. Две библиотеки Существует множество японских библиотек НЛП,..

Manubot, NALU, GluonCV, ml5.js, doc.ai, OpenAI Benchmark, Deep-Speare, Cyberbullying Detection,…

Добро пожаловать в 24-й выпуск информационного бюллетеня НЛП! Я Элвис Саравиа из Белиза. Вот примечательные новости НЛП на этой неделе: боты OpenAI побеждают людей в матче по Dota 2; алгоритм обнаружения киберзапугивания; GluonCV помогает создавать и повторно реализовывать алгоритмы компьютерного зрения; дискуссия о значении и языковом моделировании; инструмент AI для чтения по губам… Об обществе… Anthem в партнерстве с doc.ai использует ИИ, чтобы помочь предсказать, когда..

Встраивание Word2Vec и FastText Word с помощью Gensim

При обработке естественного языка (NLP) мы часто преобразуем слова в векторы, содержащие числовые значения, чтобы машина могла их понять. Встраивание слов - это тип сопоставления, который позволяет словам с одинаковым значением иметь одинаковое представление. В этой статье будут представлены два современных метода встраивания слов, Word2Vec и FastText с их реализацией в Gensim. Традиционный подход Традиционный способ представления слов - это горячий вектор, который по сути..

Оскар Уайльд: «Эпоха Редингской тюрьмы»

Часть серии поэтов с искусственным интеллектом, в которой используются алгоритмы машинного обучения для создания стихов, похожих на произведения известных исторических поэтов. Шесть недель ходил по двору наш гвардеец, В потертом сером костюме: Его крикетная кепка была на голове, И шаг его казался легким и веселым, Но я никогда видел человека, который глядел таким задумчивым взглядом на ту маленькую голубую палатку, которую мы заключенные называли небом , и на каждое беспечное..