Построение моделей машинного обучения с помощью MonkeyLearn

Коммуникация является неотъемлемой частью бизнеса не только внутри, но и за его пределами, в том, как они общаются с клиентами и партнерами. Следовательно, для успешного достижения этой цели важно работать с существующей системой связи. Наличие правильной системы коммуникации, следовательно, создаст эффективную коммуникацию между сотрудниками, клиентами и заинтересованными сторонами, улучшая обслуживание клиентов и, как следствие, вовлечение клиентов.

Однако со временем и ростом бизнеса возникают новые проблемы. Запросы клиентов начинают накапливаться, и даже наличия успешной системы связи иногда недостаточно, чтобы справиться с новым потоком запросов. Не только службы поддержки должны справляться с этим ростом, предоставляя качественные услуги, но и клиенты становятся все более требовательными и хотят получить ответы сразу же. Для иллюстрации: 80% бизнес-покупателей заявили, что ожидают, что компании будут реагировать на них и взаимодействовать с ними в режиме реального времени.

Но не паникуйте, искусственный интеллект, в частности машинное обучение, здесь, чтобы помочь. Используя эту технологию, вы сможете автоматизировать определенные процессы, чтобы ваша служба поддержки клиентов могла делать больше.

Например, вы можете использовать машинное обучение для создания эффективного помощника виртуальной голосовой почты для обслуживания клиентов по телефону. Вы можете обучить модель обнаруживать спам в голосовых сообщениях, автоматически отвечать звонящему с помощью SMS-сообщений и даже определять срочность голосовых сообщений, что сэкономит вашей команде обслуживания клиентов бесчисленное количество часов и сделает их более эффективными.

Прочитав эту статью, вы не только узнаете, что машинное обучение может сделать для вашего бизнеса, но и сможете построить модель машинного обучения с помощью MonkeyLearn. Продолжайте читать, чтобы узнать, как это сделать - ниже приведены разделы, если вы хотите перейти к чему-то конкретному:

Начало работы с MonkeyLearn
Как построить точную модель?
Насколько точной может быть модель?
Какие алгоритмы используются для обучения моделей?
Примеры использования и приложения
Как MonkeyLearn обеспечивает безопасность данных?

Давайте начнем!

Начало работы с MonkeyLearn

MonkeyLearn - это платформа, которая делает анализ текста с помощью машинного обучения простым и доступным для всех, а не только для специалистов по данным. Он создан для автоматического и эффективного анализа огромных объемов данных, что позволяет предприятиям экономить время и ресурсы, позволяющие делать это вручную.

С MonkeyLearn вы можете использовать два типа моделей для автоматического анализа данных: классификаторы и экстракторы. С одной стороны, Классификаторы текста используются для группировки данных в определенный тег или категорию (по тональности, теме, срочности и т. Д.). С другой стороны, экстракторы текста используются для идентификации и извлечения фрагментов информации, представленных в тексте (например, ключевых слов, сущностей, цен, дат и т. Д.). Комбинируя классификаторы и экстракторы, компании могут автоматизировать процессы, получать аналитическую информацию из данных и экономить время на обработку данных.

Чтобы проиллюстрировать, как компании используют MonkeyLearn, вот некоторые из наиболее популярных вариантов использования:

Служба поддержки: автоматически помечает ваши заявки в службу поддержки по теме, проблеме, настроениям или намерениям. Таким образом вы можете автоматически направить заявку нужному человеку, расставить приоритеты в отношении того, что нужно ответить в первую очередь, и улучшить отчетность.
Отзывы клиентов: автоматическая пометка отзывов на основе темы, аспекта, намерения или настроения. Это позволит вам анализировать огромное количество отзывов, получать ключевую информацию из данных и улучшать процесс принятия решений.

Теперь вы знаете, на что способно машинное обучение, но как оно работает?

Алгоритмы машинного обучения учатся на собственном опыте, поэтому для выполнения определенной задачи их нужно научить делать с данными. Например, если вы хотите, чтобы модель машинного обучения обнаруживала голосовые сообщения со спамом, вам нужно будет предоставить машине примеры как "обычных", так и "спамовых" голосовых сообщений. После просмотра определенного количества примеров модель сможет эффективно отличать спам-контент от обычного контента и начать делать прогнозы для новых голосовых сообщений.

Как построить точную модель машинного обучения

Если вы хотите создать собственную модель в MonkeyLearn, вам придется обучить ее делать прогнозы. Вот некоторые из лучших практик, которым следует следовать для обучения точной пользовательской модели:

1. Чем больше данных вы используете для обучения модели, тем умнее будет модель.

Объем данных, который вам понадобится для создания точной модели, зависит от каждого конкретного случая. Но, как правило, чем больше обучающих выборок, тем лучше. Алгоритмы машинного обучения учатся на данных, которые вы вводите, поэтому, естественно, чем больше информации вы дадите модели, тем она будет умнее.

Например, для получения точных результатов при определении темы вам понадобится около 250 примеров для каждой категории или тега, тогда как для анализа настроений вам потребуется около 500 примеров для каждого тега (например, положительных, нейтральных и отрицательных).

Если вы хотите создать модель, которая обнаруживает спам в голосовой почте, или модель, которая определяет его срочность, вам понадобится от 100 до 300 примеров для каждого тега, чтобы начать получать хорошие результаты.

2. Качество данных важнее объема

Несмотря на то, что количество данных имеет значение, имейте в виду, что в этом случае еще более важно качество. Предпочтительно использовать в алгоритме меньшее количество обучающих выборок высокого качества, чем использовать в модели тысячи примеров, не содержащих ценной информации для модели.

Например, если вы создаете модель для определения срочности голосовых сообщений, вам следует снабдить машину различными способами, чтобы клиенты могли выразить срочность. Если вам удастся обучить модель только примерами, в которых просто упоминаются такие вещи, как «как можно скорее» или «пожалуйста, помогите мне сейчас», модель может пропустить другие ситуации, которые вы также сочтете срочными (например, клиент осторожно просит вернуть деньги или сообщить об ошибке).

3. Определите теги, которые можно использовать последовательно.

Теги всегда должны иметь уникальное и конкретное определение. Определите каждый тег с четкими рекомендациями и убедитесь, что между двумя из них нет пересекающихся понятий. Несогласованная пометка данных для обучения модели вызывает путаницу и существенно влияет на точность прогнозов.

4. Сведите к минимуму количество тегов. Удалите слишком маленькие или слишком нишевые теги

Стремитесь придерживаться максимум 10–15 ярлыков на модель. Наличие большего количества тегов не только сделает теги более непоследовательными со временем, но также потребует больше времени для тегирования данных для обучения модели.

Например, если вы классифицируете голосовые сообщения по тематике их содержания, не создавайте нишевые теги, такие как «производительность на мобильных устройствах», «скорость приложения» или «время загрузки рабочего стола», которые применимы только к небольшому количеству голосовых сообщений. Вместо этого создайте один более широкий тег, например «производительность», который может группировать такие типы голосовых сообщений. С нишевыми тегами машина не сможет правильно обучаться, так как не будет достаточно примеров или информации, на которой можно было бы учиться.

5. Используйте единый критерий классификации для каждой модели.

Создайте один классификатор для каждой задачи, которую хотите решить. Если вы помечаете голосовые сообщения по разным критериям, просто разделите их на два разных настраиваемых поля.

Например, если вы хотите пометить голосовые сообщения на основе их настроения (положительное, отрицательное или нейтральное) и их срочности (срочно, не срочно), создайте две разные модели для каждой задачи. Объединение обеих задач в одну модель запутает модель и повлияет на ее возможности прогнозирования.

6. Это итеративный процесс.

Создание надежной и точной модели машинного обучения - это итеративный процесс. Вы начинаете с небольшой модели, которая «понимает» только определенный тип голосовой почты. Затем вы добавляете больше примеров, чтобы улучшить определенные прогнозы. После этого вы обнаруживаете определенные крайние случаи, когда модель допускает ошибки, и работаете с существующими обучающими данными, чтобы улучшить эти прогнозы. Далее вы настраиваете параметры и начинаете точную настройку модели для конкретных ситуаций. И так далее.

Помните, что модель машинного обучения всегда можно улучшить. Вы должны постоянно кормить модель новыми и лучшими примерами, чтобы получить наилучшие результаты. Если вы просто будете придерживаться данных, которые вы изначально загрузили в машину, процесс обучения на этом закончится, и модель не станет более точной и даже не будет учиться на новом типе голосовой почты, которую вы можете получить со временем.

Насколько точной может быть модель?

Если вы будете следовать этим рекомендациям, то наверняка задаетесь вопросом, насколько точной может стать модель. Что ж… на этот вопрос нет однозначного ответа. Это зависит от каждого конкретного случая, однако при условии, что набор данных чистый, критерии четко определены и маркировка данных согласована, вы можете получить баллы F1 более 90%. Оценка F1 - это статистическая точность модели, поэтому, естественно, чем выше оценка F1, тем лучше.

Точность модели также будет зависеть от того, какой алгоритм использовался для создания модели. В следующем разделе мы рассмотрим различные варианты, которые у вас есть.

Какие алгоритмы используются для обучения моделей?

При создании пользовательской модели в MonkeyLearn вы сможете выбрать, какой алгоритм использовать для обучения модели. Здесь нет правильного или неправильного пути, каждый алгоритм работает лучше в разных ситуациях. В зависимости от того, создаете ли вы классификатор или модель извлечения, ваши параметры будут следующими.

Для настраиваемых классификаторов вы можете выбрать обучение модели с помощью алгоритмов наивного байесовского или опорного вектора (SVM).

Naive Bayes - это простое, быстрое, точное и надежное решение, которое особенно хорошо работает с проблемами обработки естественного языка. Наивный Байес использует теорему Байеса и теорию вероятностей для предсказания тега текста. Это семейство вероятностных алгоритмов, которые для заданного текста (входных данных) вычисляют вероятность каждого тега (выходных данных) и определяют результат на основе наибольшей вероятности.

Support Vector Machines - это алгоритм, который особенно хорошо работает с ограниченным количеством данных, работает быстрее и имеет лучшую производительность, чем другие алгоритмы. Мы рекомендуем использовать этот алгоритм, когда данные линейно разделимы, чтобы вы могли быстро классифицировать данные.

Для настраиваемых экстракторов вы можете использовать только алгоритм по умолчанию, которым является Условные случайные поля (CRF), алгоритм со статистическим подходом, который учитывает контекст и взаимосвязь для прогнозирования. Этот алгоритм может создавать действительно сложные шаблоны между словами и данными, чем REGEX, и имеет возможность делать обобщения на основе небольшого количества информации.

Примеры использования и приложения

К настоящему времени вы узнали, как обучать модель, и усвоили некоторые передовые практики о том, что делать, чтобы получать точные прогнозы. Но чем все это может быть полезно для вашего бизнеса?

Машинное обучение может помочь вам получить ключевую информацию из ваших данных и автоматизировать все виды процессов. Например, вы можете использовать машинное обучение, чтобы создать умного помощника по голосовой почте, который может делать за вас часть вашей работы, например:

Автоматически помечать новые голосовые сообщения на основе темы, проблемы, настроения или намерения.
Маршрутизация голосовой почты нужному члену команды.
Определите срочность голосовой почты, чтобы вы могли расставить приоритеты, отвечая в первую очередь на самые срочные.
Проанализируйте свою голосовую почту, чтобы узнать, о чем говорят люди, и это можно использовать в качестве ресурса для принятия решений.
Создавайте автоответчики на основе ИИ и предложения ответов для голосовых сообщений, чтобы сэкономить время при ответе.

Как MonkeyLearn обеспечивает безопасность данных?

В MonkeyLearn мы понимаем, что компании доверяют нам не только повышать ценность своих данных, но и обеспечивать их безопасность. Мы принимаем крайние меры для поддержания этой безопасности, в том числе:

Физическая безопасность. Наши службы размещены в Microsoft Azure, что обеспечивает самую современную физическую безопасность, включая круглосуточное наблюдение, защиту окружающей среды и обширные политики безопасного доступа.
Безопасность системы. Наши серверы работают под управлением последних выпусков ОС Linux с политиками долгосрочной поддержки и регулярно обновляются. Наши веб-серверы обмениваются данными через HTTPS (TLS 1.2) для защиты запросов от перехвата и атак типа злоумышленник в середине. Мы используем 2048-битные SSL-сертификаты RSA, подписанные с помощью SHA256.
Наша команда инженеров отслеживает и регистрирует ошибки с помощью первоклассных инструментов, таких как Datadog и Sentry. У нас также есть строгая политика конфиденциальности и инфраструктура тестирования для обеспечения конфиденциальности данных в наших приложениях. Кроме того, мы запускаем и надежно храним ежедневные резервные копии данных.
Операционная безопасность. Разработкой и обслуживанием нашей платформы занимается наша высококвалифицированная команда инженеров. Доступ к пользовательским данным может получить только небольшое количество уполномоченных сотрудников. Доступ к учетным записям пользователей сотрудниками MonkeyLearn разрешен только в исключительных случаях, всегда с вашего предварительного разрешения и только с целью решения конкретной проблемы.

Подведение итогов

Компании со временем растут и развиваются. Как только количество клиентских запросов начнет расти и начнут возникать ожидания, вам нужно будет предоставить своей группе обслуживания клиентов необходимые инструменты, чтобы оставаться в курсе их рабочих нагрузок.

Вот где машинное обучение может сыграть решающую роль. Автоматизируя процессы, которые отнимают много времени, группы обслуживания клиентов могут сосредоточиться на важных вещах. Вместо того, чтобы тратить время на маршрутизацию голосовых сообщений или заявок на поддержку в нужную команду или на отслеживание входящих запросов клиентов для выявления срочных проблем, агенты могут работать над тем, что более важно; решение вопросов и радость клиентов.

Если вы хотите начать работу с MonkeyLearn, вы можете запросить бесплатную демоверсию здесь. А если вы хотите опробовать умного помощника голосовой почты RingCentral, вы можете зарегистрировать бесплатную учетную запись разработчика здесь.

Построение моделей машинного обучения с помощью MonkeyLearn

Как MonkeyLearn обеспечивает безопасность данных?

Вопросы по теме