Публикации по теме nlp

Публикации по теме 'nlp'

Введение в обработку естественного языка (NLP)

Компьютеры хорошо обрабатывают числовые значения из электронных таблиц. Но самый распространенный способ общения среди людей - речь (предложения, составленные из слов). НЛП - молодая научная дисциплина. Существует огромный простор для исследований и возможностей трудоустройства. В 1950 году Алан Тьюринг опубликовал статью под названием «Вычислительные машины и интеллект», которую сегодня называют тестом Тьюринга. Это ставит вопрос о том, может ли компьютерная программа обмануть..

Токенизация и теги POS с использованием библиотеки NLTK

NLTK - очень богатая библиотека, используемая для различных операций по обработке естественного языка (NLP). Среди них токенизация и POS-теги. Здесь я собираюсь объяснить, что это такое и как мы можем применить токенизацию и теги POS для данного текстового файла. T - это отдельные слова, а токенизация - это взятие слова или группы слов и разбиение их на отдельные слова. Например, если данное предложение звучит как «НЛП легко понять», то НЛП, легко понять, являются здесь токенами, а..

3W RNN - что, почему и как работает

RNN - это нейронные сети с прямой связью, но с одной загвоздкой, т. Е. У них есть память. Определение: RNN - это класс нейронных сетей, которые работают над моделированием последовательных данных. Рекуррентные нейронные сети используют свои рассуждения из предыдущего опыта для информирования о предстоящих событиях с помощью внутренней памяти. Почему РНС? Прежде чем ответить на этот вопрос, позвольте мне интуитивно понять важность памяти при прогнозировании..

Учебник Tensorflow 2.0 по внедрению категориальных функций

Подробное руководство по встраиванию категориальных признаков Вступление : Хорошо известно, что подготовка данных может составлять до 80% времени, необходимого для создания реального продукта машинного обучения. Кроме того, работа с категориальными функциями - одна из тех вещей, которые могут быть немного сложными и требующими много времени, особенно в случае больших кардинальных данных. Когда у вас есть функции с более чем 1000 категориями, и вам нужно построить на их основе..

АМБЕРТ: многоуровневый BERT

Вклад ByteDance в BERTology (да, люди из TikTok!) Когда мы подумали, что все вариации названий BERT были взяты ( RoBERTa , ALBERT , FlauBERT , ColBERT , CamemBERT и т. Д.), Появляется AMBERT , еще одна инкрементальная итерация маппета-трансформера, которая взял на себя понимание естественного языка. AMBERT был опубликован 27 августа компанией ByteDance , разработчиком TikTok и Toutiao . AMBERT предлагает простой поворот к BERT: дважды разметить входные данные, один раз с..

Кто такой #KnowledgeEngineer?

Недавно меня позвали на собеседование по этому профилю. Честно говоря, тогда я впервые услышал этот термин. Я сделал свою часть; Гугл. Вот резюме: Инженер по знаниям – это человек, который создает, поддерживает и использует базу знаний для систем/приложений с искусственным интеллектом. В его обязанности входит получение данных, применение логических правил, создание базы знаний. Они придумывают системы, которые автоматизируют процесс сбора данных и их хранения в структурированном..

Важность показателей расстояния в моделировании машинного обучения

Ряд алгоритмов машинного обучения - контролируемых или неконтролируемых - используют метрики расстояния, чтобы узнать шаблон входных данных для принятия любого решения на основе данных. Хорошая метрика расстояния помогает значительно улучшить производительность процессов классификации, кластеризации и поиска информации. В этой статье мы обсудим различные метрики расстояния и их помощь в моделировании машинного обучения. Вступление Во многих реальных приложениях мы используем..