Некоторые приложения машинного обучения и искусственного интеллекта впечатляют — например, предсказание будущей повторной госпитализации выписанных пациентов или диагностика ретинопатии. Другие — например, беспилотные автомобили — кажутся почти волшебными. Однако проблема соответствия — это та, где вашей первой реакцией может быть: «Что в этом сложного?» Например, если взять приложение для поиска дубликатов, если клиент по имени Эллиот Сандерсон размещает заказ на веб-сайте, задача сопоставления его с Эллиотом Сандерсоном, уже включенным в список клиентов, может показаться легкой.

Небольшое размышление быстро обнаруживает связанную с этим трудность — а что, если это распространенное имя, например, Роберт Смит? Или предположим, что имя совпадает, а электронная почта — нет? Или предположим, что имя отсутствует и есть только инициал?

Сопоставление двух потенциально идентичных лиц известно как разрешение сущностей. Одна компания, Senzing, построена вокруг программного обеспечения, специально предназначенного для разрешения сущностей. Другие проблемы соответствия ищут совместимость между двумя разными людьми или объектами. И то, и другое лучше всего делать с помощью машинного обучения, а не простой логики, основанной на правилах. Самая известная проблема соответствия совместимости? Онлайн знакомства!. Разрешение объекта используется в

  • Маркетинг (объединение повторяющихся клиентов в одну запись)
  • Правоохранительные органы (является ли лицо «X» таким же, как известный преступник «Y»)
  • Финансовое соответствие, транспортная безопасность (человек «Х» в контрольном списке)

В этом блоге мы рассмотрим два приложения подбора людей, одно коммерческое, а другое академическое:

  • Сопоставление агентов колл-центра с входящим звонком (совместимость)
  • Сопоставление записей переписи рабовладельцев в 1860 году с записями после Гражданской войны (резолюция организации)

Сопоставление совместимости — агенты и вызывающие абоненты

Приложения для онлайн-знакомств являются наиболее известным приложением для сопоставления совместимости, но их трудно изучать и оценивать из-за отсутствия хорошей базовой линии (даже если бы вы могли надежно измерить результат алгоритма знакомств, с чем бы вы его сравнили? )

Подбор агентов колл-центра к входящим звонящим можно более точно оценить, что является ключевым предложением компании Афинити. Центры технической поддержки и центры обслуживания клиентов обрабатывают большие объемы звонков от клиентов, и некоторые пары клиент-агент более симпатичны и, следовательно, более эффективны, чем другие. Традиционное решение заключалось в измерении результатов звонков (длительность, оценка удовлетворенности клиентов, решение или отсутствие решения) и маршрутизации входящих звонков агентам в порядке общей производительности агентов по этим показателям. Это грубое решение не принимает во внимание тот факт, что агент может хорошо работать с одними клиентами, но не с другими. Более того, во времена нехватки агентов (что случается в большинстве случаев, что может подтвердить любой, кто звонит в службу поддержки клиентов по любому поводу), у них мало выбора в отношении маршрутизации и принуждения клиентов дольше ждать лучших агентов (оставляя при этом менее способных агентов). неполная занятость агентов) не является оптимальным решением.

Решение Afiniti заключается в объединении агентов и вызывающих абонентов таким образом, чтобы в целом оптимизировать результаты вызовов. Входные данные состоят из атрибутов агентов (измеряемых путем оценки агентов по стилю и другим характеристикам их взаимодействия), атрибутов абонентов (полученных из внутренних данных компании, если они были предыдущими абонентами, а также из внешних демографических данных, полученных из идентификатора вызывающего абонента), и подсчет результатов звонков. В течение нескольких недель обучения разрабатывается модель, которая настраивается таким образом, чтобы все больше улучшать результаты. Модель является частной, но Afiniti описывает ее общий вид следующим образом.

Предположим, у вас есть набор из 5 входящих абонентов и 5 агентов, которые вскоре будут доступны. Для каждой возможной пары модель (которая соответствовала более ранним данным) использует данные о вызывающем абоненте и агенте для прогнозирования результата (например, оценки удовлетворенности клиентов). Затем модель выбирает пары, которые вместе максимизируют общую удовлетворенность клиентов. Модель требует больших объемов данных (Afiniti заявляет, что обрабатывает более 2 петабайт данных в день), и алгоритмы должны работать с максимальной эффективностью, поскольку решение о распределении должно приниматься достаточно быстро, чтобы не задерживать ответ клиенту.

Затем Afiniti чередует короткие периоды «действующей модели» и «недействующей модели» (т. е. компания-клиент использует свою старую систему назначения агентов), чтобы предоставить своему клиенту текущую метрику выгоды от модели. Afiniti заявляет о преимуществах в однозначных процентных диапазонах, которые кажутся небольшими (2–4%), но со временем могут привести к значительной экономии.

Отслеживание богатства рабовладельцев с помощью данных переписи населения

Вышеупомянутая проблема сопоставления совместимости была формой обучения с учителем, в котором наблюдение осуществлялось по известным результатам вызова. Результатом были баллы, которые нужно было максимизировать. В более типичной форме надзора модель пытается оценить известный результат, который скрыт от модели, и цель состоит в том, чтобы правильно оценить. Типичной проблемой является получение данных, результат которых известен, т. е. у вас есть «наземная правда», и мы рассмотрим этот вопрос в контексте разрешения сущностей и изучения рабства в США.

Поскольку в середине 1800-х годов Соединенные Штаты неуклонно двигались по дороге к гражданской войне, одним из движущих факторов конфликта между рабовладельческим югом и свободным севером было огромное богатство, которое представляли собой рабы. Даже те на юге, которые не были в восторге от рабства, столкнулись с загадкой, что прекращение несправедливости выбьет ноги из южной экономики и обнищает политически могущественных. Томас Джефферсон, уроженец Вирджинии, чьим интеллектуальным «брендом» были права личности, осознавал противоречие между своей политической философией и своей личной практикой. Он подписал закон, объявляющий работорговлю вне закона, и выдвинул предложения о постепенном освобождении, однако сам он освободил лишь горстку своих более чем 600 рабов и оставил свое имение настолько обремененным долгами, что его рабов приходилось продавать после его смерти, часто разлучение семей. Примерно 50% богатства на юге США в 1860 году было в форме рабов, поэтому отмена рабства в 1865 году представляла собой внезапную и огромную потерю богатства, почти беспрецедентную.

Недавно историки изучали долгосрочные последствия этой потери богатства и, что удивительно, обнаружили, что они были минимальными. Исследования Агера, Бустана и Эрикссона пришли к выводу, что в течение одного поколения сыновья рабовладельцев фактически восстановили экономическое положение своих семей. Агер и др. предполагают, что это восстановление стало результатом обширной и мощной социальной сети, которая была доступна этим семьям.

Интересный статистический вопрос

Методологическим вопросом, представляющим особый статистический интерес, является проблема сопоставления рабовладельцев в 1860 г. с их сыновьями в 1880 г. Этот вопрос состоит из двух компонентов:

  • Получение данных, для которых известна «наземная правда», чтобы можно было оценить процесс сопоставления, будь то ручной или автоматизированный.
  • Определение того, будет ли автоматический способ сопоставления имен работать лучше, чем сопоставление людей

Получение «основной истины» для обучения с учителем — неприметная часть машинного обучения, но ключевая часть. Для системы медицинской диагностики на основе ИИ, скажем, для чтения рентгеновских снимков, вы когда-нибудь задумывались, откуда берется эталон «истинный диагноз»? Что касается исследования рабовладельцев, как следователи узнали, было ли совпадение отца 1860 года с сыном 1880 года правильным?

Ответ заключается в том, что они этого не сделали. Вместо этого алгоритм сопоставления тестировал данные, о которых они знали или, по крайней мере, были намного ближе к знанию.

Один набор калибровочных данных представлял собой сравнение переписи населения 1900 года с записями гражданской войны армии Союза. Перепись и армейские записи были «тщательно (и дорого) собраны вручную с помощью обученных научных сотрудников, которые имели доступ к дополнительной информации, обычно недоступной для связывания». [1]

Другим набором данных были данные переписи населения 1900 и 1910 годов, которые Лаборатория связывания записей Университета Бригама Янга проанализировала с использованием метода краудсорсинга. Высококачественная дополнительная информация, предоставленная пользователями веб-сайта FamilySearch.org (при заполнении и исследовании их генеалогического древа), позволила лаборатории установить сильные совпадения — эти данные считаются «золотым стандартом» для сравнительного анализа переписи.

Агер и др. протестировали несколько автоматизированных систем, включающих различные элементы статистического обучения. Одной из них была система, основанная на правилах, доработанная с помощью машинного обучения. Каждая строка в наборе данных представляет собой потенциальное совпадение имени, которое удовлетворяет некоторому минимальному порогу допустимости. Признаки потенциального совпадения включают абсолютную разницу в возрасте и степень сходства имени, фамилии и места рождения. Одним из популярных показателей сходства является оценка «Яро-Винклера», основанная на количестве правок, которые потребуются для перехода от одного имени к другому, и взвешивании в пользу начальных букв. Он масштабируется до 0–1, где 0 указывает на идеальное совпадение. Каждая запись помечается человеком как 0 (нет совпадения) или 1 (совпадение), и модель подходит для оценки взаимосвязи между функциями и вероятностью совпадения.

Правило принятия решения определяет минимальную вероятность совпадения (т. е. записи должны быть схожими) и минимальное «опережение» над претендентом на второе место (т. е. не может быть неопределенности в отношении того, какое потенциальное совпадение является вероятным). Эти два параметра настраиваются путем перекрестной проверки в обучающих данных, чтобы максимизировать общую производительность сопоставления.

Abramitzky et al сообщают, что автоматизированные методы, которые они тестировали, работали так же или даже лучше, чем человеческие обзоры, с уровнем ложных срабатываний менее 5%.

Итог.Использование эффективных алгоритмов статистического сопоставления в сочетании с растущей доступностью оцифрованных данных переписи населения и других исторических семейных данных позволяет проводить новаторские экономические и социальные исследования, позволяющие отслеживать состояние и статус семьи. через некоторое время.

[1] Автоматическое связывание исторических данных, Ран Абрамицки, Леа Платт Бустан, Кэтрин Эрикссон, Джеймс Дж. Фейгенбаум, Сантьяго Перес; Рабочий документ 25825

http://www.nber.org/papers/w25825

НАЦИОНАЛЬНОЕ БЮРО ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ