Прежде всего: это *не* статья о том, как идентифицировать людей в анонимных или обезличенных данных. Речь идет о стандартных кодах и идентификаторах, которые вы можете использовать в наборах данных или базах данных, которые рассматривают людей как тип сущности. Это продолжение предыдущего поста о важности уникальных идентификаторов и связанного с ним Шпаргалки по уникальным идентификаторам.

Глобального уникального идентификатора для людей не существует. И пока люди не разовьются до значительно более высокого уровня цивилизации, есть много веских причин не реализовывать такую ​​схему. С другой стороны, до тех пор, пока люди не разовьются до значительно более высокого уровня цивилизации, также есть много веских причин присваивать уникальные идентификаторы и затруднять смешение идентичностей людей.

Какой бы ни была ваша позиция по вышеизложенному, нам, специалистам по данным, часто приходится работать с данными о людях, и нам нужны способы решения проблемы с идентификаторами.

Некоторые правительства присваивают национальные идентификационные номера, которые находятся в открытом доступе и могут почти без ограничений использоваться для целей уникальной идентификации людей в любой базе данных. Вот пример. Если вы разработчик или аналитик данных, работающий локально на таком рынке, это может быть благословением. В других странах есть аналогичные схемы, но они довольно строги в отношении того, как их можно использовать, например, с Номером социального страхования в США. А в других странах такой схемы вообще нет. Вы можете найти много информации о различных местных схемах национальных идентификационных номеров на Википедии.

Когда дело доходит до международных поездок, сочетание трех точек данных обычно является основой для идентификации:

  • Полное имя
  • Дата рождения
  • Место рождения

Каждый из них в какой-то степени последователен. Имя — единственное, что логически может измениться в течение жизни, но все еще существует множество разных способов написания дат и географических названий, так что и с ними не обошлось без проблем. Тем не менее, идея состоит в том, что комбинация всех трех обеспечивает несколько уникальный идентификатор.

Но это далеко не безопасное предположение. Возьмите человека с обычным именем, родившегося в большом городе густонаселенной страны, и будьте уверены, что он не одинок.

На Филиппинах родители идут на многое, чтобы придумать уникальные имена для своих детей, чтобы уберечь их от неприятностей в дальнейшей жизни — видимо, именно так сенатор Филиппин Джокер Арройо получил свое имя. Или бывший вице-президент Jejomar Binay, чье имя состоит из первых нескольких букв Jessus, Joseph и Mary.

История филиппинского имени увлекательна во многих отношениях. С точки зрения данных он показывает ценность уникальных идентификаторов, насколько ненадежными могут быть методы без уникальных идентификаторов и насколько изобретательными могут стать люди, когда дело доходит до взлома данных. Что касается последнего пункта, просто подумайте о дорогих Bobby Tables. (Если вы получили это, не нажав на ссылку, вы уже слишком много знаете о данных, чтобы читать этот блог :)

В любом случае. Если ваша работа связана с государством, вы можете столкнуться с проектом, в котором эта тройная комбинация имени, города и даты рождения задействована в качестве основного идентификатора. Гораздо чаще встречаются случаи, когда приходится полагаться на что-то другое. Адреса электронной почты, вероятно, являются наиболее распространенными уникальными идентификаторами, используемыми для людей, работающих с данными, за которыми следуют имя пользователя, номер телефона и полное имя.

Все это имеет свои недостатки.

  • Адреса электронной почты обычно принадлежат одному человеку, но у одного человека может быть несколько адресов электронной почты, поэтому в ваших данных может быть несколько записей об одном и том же человеке, даже если вы об этом не знаете. Люди также могут намеренно вводить уникальные или откровенно фальшивые адреса, опасаясь спама, что усугубляет проблему дублирования и затрудняет перекрестные ссылки с другими базами данных.
  • Имена пользователей уникальны только для вашей системы, их легко забыть, и на них нельзя полагаться для создания связи с данными из других систем.
  • Номера телефонов могут быть служебными или домашними номерами, принадлежащими нескольким людям, и человек может иметь несколько телефонных номеров или менять их со временем.
  • Полные имена очень редко являются уникальными идентификаторами и могут как меняться (хотя и не очень часто), так и даваться по-разному: исключать отчество, инициал отчества, сначала фамилия, со специальными символами или без них и т. д.

Учитывая все обстоятельства, адреса электронной почты, как правило, являются лучшим выбором, если у вас есть выбор, и они имеют дополнительное преимущество в том, что они поддаются проверке или, скорее, проверяемо доказано, что они существуют и доступны человеку, который их ввел.

В некоторых случаях дескрипторы социальных сетей могут быть хорошим выбором со многими из тех же преимуществ, что и адреса электронной почты.

Лично я являюсь поклонником подходов, которые позволяют людям идентифицировать себя несколькими способами, то есть зарегистрировать более одного принадлежащего им адреса электронной почты, а также имя пользователя и общие дескрипторы социальных сетей. Затем они могут использовать любой из них, чтобы идентифицировать себя, когда они входят в систему или иным образом должны быть идентифицированы. Преимущества этого подхода заключаются в том, что у вас есть несколько крючков для связи с другими данными, и пользователь с меньшей вероятностью забудет свой идентификатор пользователя, чем, например, одни имена пользователей.

В любом слючае. Если не считать биометрического удостоверения личности — это очень дорогая и (по праву) строго регулируемая область — идеальной схемы для идентификации людей в данных не существует. Для каждого проекта вам нужно будет выбрать схему, которая хорошо подходит для ваших намерений и целей.

Будьте осторожны с данными о людях в целом. Во многих частях мира существуют строгие ограничения на то, как вы можете хранить и что вы можете делать с такими данными, особенно с комбинациями данных из нескольких источников.

И самое главное: оплошности и ошибки могут причинить реальным людям настоящую боль.