Представляем настраиваемый классификатор - создайте свою собственную модель классификации текста без каких-либо обучающих данных

Нажмите здесь, чтобы опубликовать эту статью в LinkedIn »

Введение

Одна из самых успешных парадигм машинного обучения - это обучение с учителем, которое позволяет построить модель обобщения, изучая множество обучающих примеров. Контролируемое обучение широко используется в обработке естественного языка для создания текстовых классификаторов с несколькими классами или метками для решения различных задач, таких как обнаружение спама, анализ настроений, анализ эмоций, анализ намерений клиентов и т. Д. Любой, кто знаком с процессом Чтобы построить модель классификации текста, необходимо знать, что она включает три шага, перечисленных ниже:

Подготовка обучающих данных. Обучающие данные, также известные как помеченные данные, представляют собой совокупность случаев, зависящих от предметной области, которые вручную помечаются метками, которые, как ожидается, классифицирует классификатор.

Обучение модели классификации текста. Затем выбирается подходящий алгоритм машинного обучения для обучения модели на помеченном наборе данных. В нашем предыдущем блоге мы рассмотрели некоторые методы построения модели анализа настроений.

Тестирование и проверка. Часть помеченного набора данных зарезервирована для тестирования и проверки обученной модели, чтобы оценить ее способность к обобщению.

Традиционная парадигма контролируемого обучения не работает, когда у нас нет достаточного количества маркированных данных для нашей задачи по обучению надежной модели. Проекты классификации текста в реальном мире часто сталкиваются с самым большим препятствием - получить доступ к значительному объему данных и вручную аннотировать их. В результате большинство реальных проектов застревают на самом первом этапе. Те, кто преодолевает первое препятствие, часто обнаруживают, что их данные либо недостаточны, либо смещены в сторону определенных классов, что приводит к смещениям в результирующих моделях ИИ.

Что такое специальный классификатор?

Многие исследования в области глубокого обучения направлены на изучение лучших представлений из меньшего количества данных, и одной из таких захватывающих областей является обучение с нулевым выстрелом. Цитата Иэна Гудфеллоу из его ответа на Quora: Обучение с нулевым выстрелом - это способность решать задачу, несмотря на то, что я не получил никаких обучающих примеров этой задачи. Другими словами, представьте, что вы предсказываете эмоцию твита, не предоставляя никаких обучающих примеров твитов с этим ярлыком эмоции.
Собственная исследовательская группа ParallelDots разработала свою собственную парадигму обучения без выстрела для классификации текста и выпустила исследовательская работа под тем же самым метким названием Тренируйся один раз, тестируй где угодно: беспроблемное обучение для классификации текста. Вы можете прочитать статью здесь.

Кроме того, выполняя наши обязательства по предоставлению ИИ на кончиках ваших пальцев, мы решили перенести это захватывающее исследование в коммерческое приложение и, следовательно, запустили новый API, который позволяет вам использовать всю мощь нулевого обучения для классификации текста. случаи применения. Мы называем его «Пользовательский классификатор», поскольку он позволяет создавать классификатор текста на основе определенных пользовательских категорий. Это революционный шаг в нашем стремлении к разработке передовых решений ИИ, позволяющих пользователям разрабатывать и интегрировать настраиваемую модель классификации текста без необходимости создания каких-либо обучающих данных.

Обучение на примере - построение модели классификации образца текста

Поскольку данные для обучения не требуются, это также снижает затраты и время, необходимые для построения модели классификации текста. Имея все необходимые знания, давайте попробуем увидеть настраиваемый классификатор в действии.
На скриншоте ниже, сделанном с демонстрационной страницы настраиваемого классификатора на нашем веб-сайте, мы взяли заголовок спорта и определили пять категорий, которые мы хочу разбить этот заголовок на Мировая политика, Спорт, Религия, Развлечения, Бизнес.

Как видно из результатов, у спортивной категории самый высокий показатель вероятности из всех и, следовательно, наиболее вероятная категория нашего входного текста. Помните, что мы определили категории во время тестирования, и базовая модель ИИ не была специально обучена на них.
Затем мы попытаемся дополнительно разбить спортивные категории на различные категории, такие как футбол, гольф и т. д. и посмотрите, сможет ли их понять наш классификатор.

Опять же, мы видим, что классификатор точно определяет спортивные категории без явной тренировки по ним. Я надеюсь, что к настоящему времени вы уже начали понимать потенциал этой технологии.
В качестве последнего шага давайте попробуем дополнительно разбить нашу футбольную категорию на различные типы лиг, в которые играют по всему миру, и посмотрим, будет ли наш классификатор может правильно предсказать то же самое.

Действительно волшебно! Наш классификатор тоже правильно подобрал лигу.

Таким образом, пользовательский классификатор дает вам возможность заглянуть в будущее классификации текста, где для надежной классификации фрагмента текста по категориям, определяемым пользователем, потребуется очень мало или совсем не потребуется обучающих примеров. Такая способность откроет безграничные возможности и даст новую жизнь многочисленным бездействующим проектам текстовой аналитики, которые никогда не увидят свет из-за нехватки данных для обучения или учебных ресурсов.

Настройка специального классификатора

Настроить собственный классификатор очень просто, и это можно сделать за три простых шага, упомянутых ниже:

Зарегистрируйтесь, чтобы получить бесплатную учетную запись ParallelDots API, и войдите в личный кабинет.
Перейдите в раздел настраиваемого классификатора на панели управления, предоставьте образец текста и определите несколько категорий для анализа текста. По умолчанию вы находитесь в тестовом режиме, который позволяет вам изменять список категорий сколько угодно раз без каких-либо затрат.
Когда вы будете удовлетворены точностью классификации, нажмите «Опубликовать», чтобы развернуть классификатор для производственного использования и получить идентификатор классификатора. После публикации вы сможете получить доступ к своему настраиваемому классификатору через конечные точки API.

Документация по API для пользовательского классификатора доступна здесь. Вскоре будет доступна функция надстройки Excel для использования в MS Excel.

В этом сообщении блога мы представили новую парадигму классификации текста и надеемся, что наши пользователи получат от нее огромную пользу. Мы уже видим некоторые интересные варианты использования, которые решаются нашими пользователями с помощью настраиваемого классификатора, например, классификация объявлений о вакансиях, категоризация новостных статей, обработка открытых отзывов об опросах и т. Д. категории, которые вам небезразличны, и отслеживайте тенденции с течением времени, чтобы получить практическую информацию.

Преимущества пользовательской классификации перед стандартной текстовой классификацией

Стандартных моделей классификации текста, таких как анализ настроений, не всегда достаточно для получения целостного представления при анализе неструктурированных данных, таких как голос клиента. Пользовательский классификатор, с другой стороны, может дать вам возможность классифицировать такие данные по более детализированным категориям, которые нам небезразличны. Например, используя настраиваемый классификатор, владелец сети быстрого питания может классифицировать отзывы, полученные от своих клиентов через социальные сети, по категориям, таким как цена, обстановка, поведение персонала, качество еды и т. Д., Чтобы лучше понять, какие аспекты своего бизнеса она нужно улучшить. Используя простой анализ настроений, она может знать, как обстоят дела в ее бизнесе в целом, но потенциально может пропустить некоторые важные тенденции, такие как взаимосвязь между поведением персонала и посещаемостью. Потенциал пользовательского классификатора состоит в том, чтобы классифицировать текст за пределами ярлыков настроения (положительный, отрицательный или нейтральный), чтобы вы не только знали, сколько отрицательных отзывов вы получили о своем продукте, но также и о том, о чем пользователи говорили в этих отрицательных утверждениях.

Мы считаем, что пользовательский классификатор может дать пользователям, не имеющим опыта в области науки о данных, возможность создавать и развертывать свои собственные классификаторы и получать преимущество над своими конкурентами. Это также поможет предприятиям радикально преобразоваться в организации, управляемые данными, и в конечном итоге ускорит индустриализацию искусственного интеллекта и машинного обучения. Вы также можете изучить другие блоги с классификацией текста здесь.

ParallelDots AI APIs - это веб-сервис на основе глубокого обучения от ParallelDots Inc, который может распознавать огромное количество неструктурированного текста и визуального контента для расширения возможностей ваших продуктов. Вы можете ознакомиться с некоторыми из наших API для анализа текста и связаться с нами, заполнив эту форму здесь или написать нам по адресу [email protected].