Часть 2. Роль машинного обучения в MDM
Аналитика данных — это сложный процесс, который требует времени и усилий от специалистов по обработке и анализу данных. От очистки и подготовки данных до выполнения анализа данных специалисты по данным проходят обширную процедуру, чтобы выявить скрытые закономерности, выявить тенденции и найти корреляции в данных для принятия обоснованных бизнес-решений.
Задача интеграции, очистки и организации активов данных часто занимает большую часть времени специалиста по данным. В конце концов, чтобы получить качественную информацию и участвовать в принятии эффективных решений, вам нужны чистые и качественные данные. И не только это, вам также необходимо единое представление всех различных систем источников данных в вашей организации.
Для этого требуется эффективная стратегия управления мастер-данными, которая при выполнении вручную может занять не меньше времени. Чтобы оптимизировать неотъемлемые части этого процесса, организации внедряют автоматизированные стратегии, такие как машинное обучение. Таким образом, вы можете ускорить и автоматизировать сопоставление данных, очистку данных и рабочие процессы подготовки данных; повысить производительность; и продолжать достигать поставленных целей в установленные сроки.
Зачем организациям нужны мастер-данные?
Прежде чем мы поговорим о роли машинного обучения, давайте сначала рассмотрим цель управления мастер-данными. Рассмотрим платформу клиентских данных (CDP). Мы создали CDP с целью объединения данных о клиентах из нескольких исходных систем, но столкнулись со следующими бизнес-проблемами:
- Информация о клиентах фрагментирована, дублируется и несовместима в нескольких системах.
- Не существует надежного представления единого профиля клиента для клиентов из разных сегментов.
- Информация, по большей части, основана на продуктах, что затрудняет полное распознавание клиентов.
- Возможности дополнительных продаж, перекрестных продаж, улучшения систем и процессов ограничены из-за сложности текущей ИТ-системы.
- Сложно представить стратегию комплексных продуктов и услуг, которая в значительной степени зависит от клиентоориентированности.
Чтобы создать всестороннее представление о клиенте, нам потребовалась комплексная стратегия управления основными данными для создания надежной записи, золотой записи или записи MDM. И не только это, нам также требовалось управление данными. Это основа процесса для понимания природы данных, понимания закономерностей и понимания бизнес-процессов, что, в свою очередь, может помочь группе обработки данных создавать алгоритмы для формирования согласованных, не дублирующихся данных для предприятий.
Обязательно к прочтению: 6 причин, почему интеграция данных важна в розничной торговле
У нас были данные и ресурсы, но только ограниченное время. Это сложно, особенно если вы работаете с огромными объемами данных. В нашем случае мы имели дело с почти 20 миллионами учетных записей, более чем 200 тысячами бизнес-клиентов и почти 20 различными исходными системами для передачи данных в MDM.
Управление данными помогло нам установить правила стандартизации данных и определить важные атрибуты данных, которые можно использовать для сопоставления. Как правило, предприятие использует имя, адрес электронной почты и другие бизнес-атрибуты для данных о клиентах, но благодаря управлению данными мы смогли добавить множество других атрибутов для сопоставления.
Автоматизация сопоставления MDM с помощью машинного обучения
Чтобы понять MDM с машинным обучением, вам нужно понять концепцию сопоставления данных. Это относится к задаче идентификации, сопоставления и объединения записей данных одного и того же объекта из одного или нескольких хранилищ данных.
По сути, это способность выявлять дубликаты в больших наборах данных. Эти дубликаты могут быть людьми с несколькими записями в одной или нескольких базах данных. С помощью сопоставления данных вы можете не только изолировать эти потенциальные дубликаты, но и упростить определенные действия, например объединить их в одну запись. Вы также можете определить не дубликаты, которые не менее важны, потому что вы хотели бы знать, что две похожие вещи не являются одним и тем же.
По теме: Что такое управление качеством данных?
Традиционные подходы к сопоставлению данных, такие как детерминистическое сопоставление и вероятностное сопоставление, действительно дают результаты, однако они могут быть очень ручными и трудоемкими. Внедрение машинного обучения в процесс сопоставления данных может выполняться более точно и быстро. Машинное обучение обеспечивает больший контроль над данными и возможность их изучения и понимания.
Некоторые из ключевых компонентов этого процесса:
- Поставщики стандартизации для стандартизации данных.
- Использование НЛП для стандартизации данных.
- Классификационные модели машинного обучения для сопоставления данных.
- Подход Ensembled Machine L для повышения точности.
- Apache Spark для обработки мощности.
- Эластичный поиск для сопоставления первого уровня и группировки данных.
- Поддержка Java/Python/R/SSIS для управления данными.
Итак, как именно это работает? Что ж, текущий процесс сопоставления данных в организации может потребовать продукта «черный ящик» и ручного вмешательства распорядителей данных для работы с данными. Как правило, проекты MDM являются тяжелыми и требуют большого количества рабочей силы и навыков для достижения соответствия продукту. Они также требуют много ручных усилий для очистки подозрительных данных.
Чтобы автоматизировать это, мы построили. Модели машинного обучения классификации. Модель была построена с использованием следующих идей и шагов:
- Выборка данных для исторических данных — статистическая выборка с использованием методов была выполнена на основе существующих данных. Использовался метод стратифицированной выборки.
- Стандартизация данных. Для стандартизации данных использовалось множество пользовательских правил и НЛП.
- Подготовка данных и группировка. Образец данных был просмотрен в экземпляре Elastic Search, чтобы подготовить первый соответствующий набор. Этот процесс называется группировкой данных. Данные выборки были названы «ОТ» данных, а результаты совпадения из ELK были названы «ДО».
- Подготовка данных с помощью Python. Образец данных с сегментированными результатами был дополнительно улучшен: нечеткие оценки были подготовлены между ключевыми словами «ОТ» и «ДО». Для сопоставления использовались разные шаблоны. Например, FROM как имя + адрес по сравнению с TO как имя + адрес. Затем различные нечеткие оценки станут признаками или предикторами для нашего машинного обучения.
- Подготовка набора данных для обучения. Данные были помечены нашей группой тестирования, чтобы подготовить исторические данные или набор данных для обучения для подготовки модели.
- Статистический анализ данных — данные были проверены статистически, чтобы получить значимые предикторы/характеристики.
- Модель машинного обучения. Ансамблевая модель машинного обучения была построена с использованием модели обучения.
- Оптимизация модели иуменьшение ошибок. Модель была оптимизирована с использованием нескольких методов для уменьшения количества ложных срабатываний и повышения точности.
Затем новые входящие данные передавались в модель машинного обучения, где модель классифицировала данные по разным классам (Y, N и S) и разным вероятностям. «Y» указывает на полное совпадение или, другими словами, дублирующую запись. «N» указывает на неправильное совпадение, что означает, что запись должна быть отброшена. А «S» означает, что вероятность совпадения низкая и требуется ручное вмешательство.
Модель также предоставила вероятность классификации, которую мы назвали баллами. Баллы различаются в зависимости от разных моделей, построенных на разных наборах обучающих данных. Текущие оценки представляют собой вероятности в диапазоне от 0,5 до 1. Пример теста на выборочных данных будет выглядеть следующим образом:
Более эффективный способ создания активов мастер-данных
Управление основными данными может помочь организациям работать с фрагментированными и противоречивыми данными, облегчая дедупликацию для создания надежного и унифицированного представления о клиентах, продуктах, услугах и т. д.
Включив машинное обучение в этот комплекс, вы можете сделать процесс более рациональным и эффективным, высвободив время ваших специалистов по данным и других сотрудников, чтобы сосредоточиться на стратегиях, ориентированных на клиента, и более проактивных подходах. Затем результаты машинного обучения могут быть включены в сочетание стилей реализации MDM, где наши различные проекты MDM относятся к стилям реестра и транзакциям.
Первоначально опубликовано на https://blog.ducenit.com.