Зачем синтезировать данные?

Хранение огромных объемов данных сопряжено со своими рисками и проблемами. Синтетические данные — это один из вариантов инструментария для их решения. В этой статье рассматриваются различные аспекты, в том числе конфиденциальность данных, сохранение и деидентификация.

Данные переписи недостоверны. Есть несколько причин; отсутствующие данные, трудности с классификацией, ошибочные, неправильно представленные данные и другие. Помимо этих проблем, нормативные требования обеспечивают сохранение анонимности при анализе набора данных.

В 1993 году у Дональда Рубина, автора книги «Статистический анализ с отсутствующими данными», возникла оригинальная идея полностью синтетических данных для статистического анализа с сохранением конфиденциальности. Первоначально он разработал это, чтобы синтезировать полные ответы переписи для кратких домохозяйств. Затем он выпустил образцы, которые не включали никаких реальных полных записей - при этом он сохранил анонимность семьи. Позже в том же году идея оригинальных частично синтетических данных была создана Дж. А. Литтлом. Он использовал эту идею, чтобы синтезировать конфиденциальные значения в файле общего пользования. [1]

Итак, что такое синтетические данные? а в чем разница с производственными данными?

Производственные данные — это «информация, которая постоянно хранится и используется профессионалами для выполнения бизнес-процессов».

При этом синтетические данные — это «любые производственные данные, применимые к данной ситуации, которые не получены прямым измерением».

Проще говоря, синтетические данные — это данные, созданные компьютерами по определенным правилам.

Конфиденциальность данных

Синтетические данные используются в различных областях в качестве фильтра для информации, которая в противном случае поставила бы под угрозу конфиденциальность определенных аспектов данных.

Синтетические данные защищают конфиденциальность пользователей. А также может быть полезно для тестирования в более низких средах. Обычной практикой является обновление баз данных из рабочей среды в более низкие среды. Основная проблема заключается в сохранении анонимности путем синтеза данных. Во многих случаях это необходимо часто запускать при создании новых сред или запуске нового раунда тестирования.

Хранение данных

Бизнес-данные, хранящиеся для ведения бизнеса, не должны храниться дольше, чем это необходимо, и должны быть утилизированы надлежащим образом. Одним из методов является деидентификация данных или их синтез.

Итак, зачем деидентифицировать данные?

Деидентификация означает, что личность человека больше не очевидна или не может быть обоснованно установлена из информации или данных, и это помогает выполнять обязательства Закона о конфиденциальности, укрепляя доверие к вашим методам управления данными.

Деидентификация включает в себя два этапа. Первый — удаление прямых идентификаторов. Второй — выполнение одного или обоих из следующих дополнительных шагов: удаление или изменение другой информации, которая потенциально может быть использована для повторной идентификации человека, и/или использование средств контроля и мер безопасности в среде доступа к данным для предотвращения повторного доступа к данным. идентификация.

И как вы создаете синтетические данные?

Существуют разные методы синтеза данных для разных случаев.

SMOTE: Техника передискретизации синтетического меньшинства. Это полезно, если ваш набор данных является неполным или несбалансированным.
ADASYN: адаптивный синтетический метод выборки. Подобно SMOTE, однако этот метод адаптируется к отсутствию данных или отсутствию общеизвестных категорий в данных.
Увеличение данных. В этом методе мы изменяем существующие наборы данных, чтобы иметь больше наблюдений. Это особенно полезно для обучения моделей машинного обучения.
Вариационный автоэнкодер. Кодирование — это преобразование в другую форму. В этом методе данные будут преобразованы в коды на основе определенного распределения.

Другие виды использования. Машинное обучение

Объем синтетических данных для обучения моделей машинного обучения быстро растет. Некоторые преимущества:

После начальных итераций генерации данных становится проще генерировать новые синтетические наборы данных.
Заполнение категорий без синтетической выборки вручную практически невозможно
Идеальная замена конфиденциальным наборам данных

Вывод

Несколько лет назад большие данные были самой большой тенденцией. В настоящее время мы знаем, что накопление большого количества данных сопряжено с определенными рисками. Более крупные вознаграждения за наборы данных для хакеров — это то, что следует учитывать при компромиссах с большими данными.

Достижение баланса между полезностью данных и соблюдением требований — сложная задача. Чем больше мы сжимаем данные, тем больше проблем с соблюдением требований мы получаем.

Синтетические данные — способ достичь этого баланса. Еще одно решение в наборе инструментов для снижения риска утечки данных для традиционных наборов данных и достижения увеличения данных для обучения моделей машинного обучения.

использованная литература

[1] Синтетические данные — Википедия
[2] Генерация синтетических данных Cem Dilmegani

Отказ от ответственности

Это личная статья. Мнения, выраженные здесь, представляют мои собственные, а не мнения моего работодателя.