Автоматическая классификация текста с использованием машинного обучения

Оцифровка изменила способ обработки и анализа информации. Доступность информации в Интернете растет в геометрической прогрессии. От веб-страниц до электронной почты, научных журналов, электронных книг, учебных материалов, новостей и социальных сетей - все это полно текстовых данных. Идея состоит в том, чтобы быстро создавать, анализировать и сообщать информацию. Это когда автоматическая классификация текста активизируется.

Классификация текста - это умная классификация текста по категориям. А использование машинного обучения для автоматизации этих задач просто делает весь процесс сверхбыстрым и эффективным. Искусственный интеллект и машинное обучение, возможно, являются наиболее полезными технологиями, набирающими обороты в последнее время. Они находят применение везде. Как сказал Джефф Безос в своем годовом письме акционерам:

За последние десятилетия компьютеры автоматизировали задачи, которые программисты могли описывать с помощью четких правил и алгоритмов. Современные методы машинного обучения теперь позволяют нам делать то же самое для задач, где описать точные правила намного сложнее.

- Джефф Безос

Говоря, в частности, об автоматической классификации текста, мы уже писали о стоящей за ней технологии и ее приложениях. Сейчас мы обновляем наш классификатор текста. В этом посте мы поговорим о технологиях, приложениях, настройке и сегментации, связанных с нашей автоматической классификацией текста API.

Намерение, эмоция и анализ тональности текстовых данных являются одними из наиболее важных частей классификации текста. Эти варианты использования вызвали большой резонанс среди энтузиастов машинного интеллекта. Мы разработали отдельные классификаторы для каждой такой категории, поскольку их изучение само по себе огромная тема. Текстовый классификатор может работать с множеством текстовых наборов данных. Вы можете обучить классификатор с помеченными данными или работать с неструктурированным текстом. Обе эти категории имеют множество применений.

Классификация контролируемого текста

Контролируемая классификация текста выполняется, когда вы определили категории классификации. Работает по принципу обучения и тестирования. Мы загружаем помеченные данные в алгоритм машинного обучения для работы. Алгоритм обучается на помеченном наборе данных и дает желаемый результат (предварительно определенные категории). На этапе тестирования алгоритм получает ненаблюдаемые данные и классифицирует их по категориям на основе этапа обучения.

Фильтрация спама в электронных письмах - один из примеров контролируемой классификации. Входящее электронное письмо автоматически распределяется по категориям в зависимости от его содержания. Обнаружение языка, намерения, эмоции и анализ настроений основаны на контролируемых системах. Он может работать для особых случаев использования, таких как определение чрезвычайной ситуации путем анализа миллионов онлайн-информации. Это иголка в стоге сена. Мы предложили умную систему общественного транспорта для выявления таких ситуаций. Чтобы выявить аварийную ситуацию среди миллионов онлайн-разговоров, классификатор должен быть обучен с высокой точностью. Для решения этой проблемы требуются специальные функции потерь, выборка во время обучения и такие методы, как построение стека из нескольких классификаторов, каждый из которых уточняет результаты предыдущего.

Классификация с учителем в основном требует от компьютеров подражания людям. Алгоритмам предоставляется набор помеченного / категоризированного текста (также называемый набором поездов), на основе которого они генерируют модели ИИ, эти модели, когда им в дальнейшем предоставляется новый немаркированный текст, могут автоматически классифицировать их. Некоторые из наших API разрабатываются с помощью контролируемых систем. Классификатор текста в настоящее время обучен для набора из 150 общих категорий.

Неконтролируемая классификация текста

Неконтролируемая классификация выполняется без предоставления внешней информации. Здесь алгоритмы пытаются обнаружить естественную структуру данных. Обратите внимание, что естественная структура может быть не совсем тем, что люди считают логическим делением. Алгоритм ищет похожие шаблоны и структуры в точках данных и группирует их в кластеры. Классификация данных производится на основе сформированных кластеров. Возьмем, к примеру, поиск в Интернете. Алгоритм создает кластеры на основе поискового запроса и представляет их пользователю в виде результатов.

Каждая точка данных встроена в гиперпространство, и вы можете визуализировать их на TensorBoard. Изображение ниже основано на исследовании в Twitter, которое мы провели в индийской телекоммуникационной компании Reliance Jio.

Исследование данных проводится для поиска похожих точек данных на основе текстового сходства. Эти похожие точки данных для кластера ближайших соседей. На изображении ниже показаны ближайшие соседи твита «членство в Reliance jio prime за 99 рупий: вот как получить кэшбэк в размере 100 рупий…».

Как видите, сопутствующие твиты похожи на помеченные. Это кластер, если одна категория похожих твитов. Неконтролируемая классификация удобна при генерации аналитических данных на основе текстовых данных. Он легко настраивается, так как теги не требуются. Он может работать с любыми текстовыми данными без необходимости обучения и добавления тегов. Таким образом, классификация без учителя не зависит от языка.

Пользовательская классификация текста

Часто самым большим препятствием для использования машинного обучения является недоступность набора данных. Есть много людей, которые хотят использовать ИИ для категоризации данных, но для этого необходимо создать набор данных, что приведет к ситуации, подобной проблеме курица-яйцо. Пользовательская классификация текста - один из лучших способов создать собственный классификатор текста без какого-либо набора данных.

В последней исследовательской работе ParallelDots мы предложили метод беспроблемного обучения текста, при котором алгоритм, обученный изучению взаимосвязей между предложениями и их категориями в большом зашумленном наборе данных, может быть использован для обобщения на новые категории или даже новые наборы данных. Мы называем эту парадигму Тренируйся один раз, тестируй где угодно. Мы также предлагаем несколько алгоритмов нейронных сетей, которые могут использовать преимущества этой методологии обучения и получать хорошие результаты на разных наборах данных. Лучший метод использует модель LSTM для задачи изучения отношений. Идея в том, что если можно смоделировать концепцию принадлежности между предложениями и классами, это знание будет полезно для невидимых классов или даже невидимых наборов данных.

Как создать собственный классификатор текста?

Чтобы создать свой собственный классификатор текста, вам необходимо сначала зарегистрироваться для учетной записи ParallelDots и войти в свою панель управления.

Вы можете создать свой первый классификатор, щелкнув значок «+» на панели инструментов. Затем определите несколько категорий, по которым вы хотите классифицировать свои данные. Обратите внимание, что для достижения наилучших результатов делайте категории взаимоисключающими.

Вы можете проверить точность классификации, проанализировав образец текста и изменив список категорий, насколько хотите, перед их публикацией. После публикации категорий вы получите идентификатор приложения, который позволит вам использовать API настраиваемого классификатора.

Учитывая, что маркировка и подготовка данных могут быть ограничением, пользовательский классификатор может стать отличным инструментом для создания текстового классификатора без особых вложений. Мы также считаем, что это снизит порог создания практических моделей машинного обучения, которые можно применять в различных отраслях, решая самые разные сценарии использования.

Как исследовательская группа в области искусственного интеллекта, мы постоянно разрабатываем передовые технологии, чтобы сделать процессы проще и быстрее. Классификация текста - одна из таких технологий, которая имеет огромный потенциал в ближайшем будущем. По мере того, как в Интернете появляется все больше и больше информации, алгоритмы интеллектуальных машин должны упростить анализ и представление этой информации. Будущее машинного интеллекта, безусловно, захватывающе, подпишитесь на нашу рассылку, чтобы получать больше такой информации в своем почтовом ящике.

ParallelDots AI APIs - это веб-сервис на основе глубокого обучения от ParallelDots Inc, который может распознавать огромное количество неструктурированного текста и визуального контента для расширения возможностей ваших продуктов. Вы можете ознакомиться с некоторыми из наших API для анализа текста и связаться с нами, заполнив эту форму здесь или написать нам по адресу [email protected].

Автоматическая классификация текста с использованием машинного обучения

Классификация контролируемого текста

Неконтролируемая классификация текста

Пользовательская классификация текста

Как создать собственный классификатор текста?

Вопросы по теме