Часть 2. Роль машинного обучения в MDM

Читать Часть 1 здесь ›

Аналитика данных — это сложный процесс, который требует времени и усилий от специалистов по обработке и анализу данных. От очистки и подготовки данных до выполнения анализа данных специалисты по данным проходят обширную процедуру, чтобы выявить скрытые закономерности, выявить тенденции и найти корреляции в данных для принятия обоснованных бизнес-решений.

Задача интеграции, очистки и организации активов данных часто занимает большую часть времени специалиста по данным. В конце концов, чтобы получить качественную информацию и участвовать в принятии эффективных решений, вам нужны чистые и качественные данные. И не только это, вам также необходимо единое представление всех различных систем источников данных в вашей организации.

Для этого требуется эффективная стратегия управления мастер-данными, которая при выполнении вручную может занять не меньше времени. Чтобы оптимизировать неотъемлемые части этого процесса, организации внедряют автоматизированные стратегии, такие как машинное обучение. Таким образом, вы можете ускорить и автоматизировать сопоставление данных, очистку данных и рабочие процессы подготовки данных; повысить производительность; и продолжать достигать поставленных целей в установленные сроки.

Зачем организациям нужны мастер-данные?

Прежде чем мы поговорим о роли машинного обучения, давайте сначала рассмотрим цель управления мастер-данными. Рассмотрим платформу клиентских данных (CDP). Мы создали CDP с целью объединения данных о клиентах из нескольких исходных систем, но столкнулись со следующими бизнес-проблемами:

  1. Информация о клиентах фрагментирована, дублируется и несовместима в нескольких системах.
  2. Не существует надежного представления единого профиля клиента для клиентов из разных сегментов.
  3. Информация, по большей части, основана на продуктах, что затрудняет полное распознавание клиентов.
  4. Возможности дополнительных продаж, перекрестных продаж, улучшения систем и процессов ограничены из-за сложности текущей ИТ-системы.
  5. Сложно представить стратегию комплексных продуктов и услуг, которая в значительной степени зависит от клиентоориентированности.

Чтобы создать всестороннее представление о клиенте, нам потребовалась комплексная стратегия управления основными данными для создания надежной записи, золотой записи или записи MDM. И не только это, нам также требовалось управление данными. Это основа процесса для понимания природы данных, понимания закономерностей и понимания бизнес-процессов, что, в свою очередь, может помочь группе обработки данных создавать алгоритмы для формирования согласованных, не дублирующихся данных для предприятий.

Обязательно к прочтению: 6 причин, почему интеграция данных важна в розничной торговле

У нас были данные и ресурсы, но только ограниченное время. Это сложно, особенно если вы работаете с огромными объемами данных. В нашем случае мы имели дело с почти 20 миллионами учетных записей, более чем 200 тысячами бизнес-клиентов и почти 20 различными исходными системами для передачи данных в MDM.

Управление данными помогло нам установить правила стандартизации данных и определить важные атрибуты данных, которые можно использовать для сопоставления. Как правило, предприятие использует имя, адрес электронной почты и другие бизнес-атрибуты для данных о клиентах, но благодаря управлению данными мы смогли добавить множество других атрибутов для сопоставления.

Автоматизация сопоставления MDM с помощью машинного обучения

Чтобы понять MDM с машинным обучением, вам нужно понять концепцию сопоставления данных. Это относится к задаче идентификации, сопоставления и объединения записей данных одного и того же объекта из одного или нескольких хранилищ данных.

По сути, это способность выявлять дубликаты в больших наборах данных. Эти дубликаты могут быть людьми с несколькими записями в одной или нескольких базах данных. С помощью сопоставления данных вы можете не только изолировать эти потенциальные дубликаты, но и упростить определенные действия, например объединить их в одну запись. Вы также можете определить не дубликаты, которые не менее важны, потому что вы хотели бы знать, что две похожие вещи не являются одним и тем же.

По теме: Что такое управление качеством данных?

Традиционные подходы к сопоставлению данных, такие как детерминистическое сопоставление и вероятностное сопоставление, действительно дают результаты, однако они могут быть очень ручными и трудоемкими. Внедрение машинного обучения в процесс сопоставления данных может выполняться более точно и быстро. Машинное обучение обеспечивает больший контроль над данными и возможность их изучения и понимания.

Некоторые из ключевых компонентов этого процесса:

  1. Поставщики стандартизации для стандартизации данных.
  2. Использование НЛП для стандартизации данных.
  3. Классификационные модели машинного обучения для сопоставления данных.
  4. Подход Ensembled Machine L для повышения точности.
  5. Apache Spark для обработки мощности.
  6. Эластичный поиск для сопоставления первого уровня и группировки данных.
  7. Поддержка Java/Python/R/SSIS для управления данными.

Итак, как именно это работает? Что ж, текущий процесс сопоставления данных в организации может потребовать продукта «черный ящик» и ручного вмешательства распорядителей данных для работы с данными. Как правило, проекты MDM являются тяжелыми и требуют большого количества рабочей силы и навыков для достижения соответствия продукту. Они также требуют много ручных усилий для очистки подозрительных данных.

Чтобы автоматизировать это, мы построили. Модели машинного обучения классификации. Модель была построена с использованием следующих идей и шагов:

  1. Выборка данных для исторических данных — статистическая выборка с использованием методов была выполнена на основе существующих данных. Использовался метод стратифицированной выборки.
  2. Стандартизация данных. Для стандартизации данных использовалось множество пользовательских правил и НЛП.
  3. Подготовка данных и группировка. Образец данных был просмотрен в экземпляре Elastic Search, чтобы подготовить первый соответствующий набор. Этот процесс называется группировкой данных. Данные выборки были названы «ОТ» данных, а результаты совпадения из ELK были названы «ДО».
  4. Подготовка данных с помощью Python. Образец данных с сегментированными результатами был дополнительно улучшен: нечеткие оценки были подготовлены между ключевыми словами «ОТ» и «ДО». Для сопоставления использовались разные шаблоны. Например, FROM как имя + адрес по сравнению с TO как имя + адрес. Затем различные нечеткие оценки станут признаками или предикторами для нашего машинного обучения.
  5. Подготовка набора данных для обучения. Данные были помечены нашей группой тестирования, чтобы подготовить исторические данные или набор данных для обучения для подготовки модели.
  6. Статистический анализ данных — данные были проверены статистически, чтобы получить значимые предикторы/характеристики.
  7. Модель машинного обучения. Ансамблевая модель машинного обучения была построена с использованием модели обучения.
  8. Оптимизация модели иуменьшение ошибок. Модель была оптимизирована с использованием нескольких методов для уменьшения количества ложных срабатываний и повышения точности.

Затем новые входящие данные передавались в модель машинного обучения, где модель классифицировала данные по разным классам (Y, N и S) и разным вероятностям. «Y» указывает на полное совпадение или, другими словами, дублирующую запись. «N» указывает на неправильное совпадение, что означает, что запись должна быть отброшена. А «S» означает, что вероятность совпадения низкая и требуется ручное вмешательство.

Модель также предоставила вероятность классификации, которую мы назвали баллами. Баллы различаются в зависимости от разных моделей, построенных на разных наборах обучающих данных. Текущие оценки представляют собой вероятности в диапазоне от 0,5 до 1. Пример теста на выборочных данных будет выглядеть следующим образом:

Более эффективный способ создания активов мастер-данных

Управление основными данными может помочь организациям работать с фрагментированными и противоречивыми данными, облегчая дедупликацию для создания надежного и унифицированного представления о клиентах, продуктах, услугах и т. д.

Включив машинное обучение в этот комплекс, вы можете сделать процесс более рациональным и эффективным, высвободив время ваших специалистов по данным и других сотрудников, чтобы сосредоточиться на стратегиях, ориентированных на клиента, и более проактивных подходах. Затем результаты машинного обучения могут быть включены в сочетание стилей реализации MDM, где наши различные проекты MDM относятся к стилям реестра и транзакциям.

Первоначально опубликовано на https://blog.ducenit.com.