Примеры использования частных синтетических данных, часть 4 (машинное обучение)

Частные синтетические данные для многозадачного обучения и маргинальных запросов (arXiv)

Автор: Джузеппе Виетри, Седрик Аршамбо, Сергул Айдор, Уильям Браун, Майкл Кернс, Аарон Рот, Анкит Сива, Шуай Тан, Живэй Стивен Ву.

Аннотация: Мы предоставляем дифференциально частный алгоритм для создания синтетических данных, одновременно полезных для нескольких задач: маргинальных запросов и многозадачного машинного обучения (ML). Ключевым нововведением в нашем алгоритме является возможность напрямую обрабатывать числовые признаки, в отличие от ряда связанных предыдущих подходов, которые требуют, чтобы числовые признаки сначала были преобразованы в категориальные признаки {высокой кардинальности} с помощью {стратегии объединения}. Для большей точности требуется более высокая степень детализации биннинга, но это негативно влияет на масштабируемость. Устранение необходимости бинирования позволяет нам создавать синтетические данные, сохраняя большое количество статистических запросов, таких как маргиналы для числовых признаков и условные линейные пороговые запросы классов. Сохранение последнего означает, что доля точек каждой метки класса над конкретным полупространством примерно одинакова как в реальных, так и в синтетических данных. Это свойство необходимо для обучения линейного классификатора в многозадачной среде. Наш алгоритм также позволяет нам создавать высококачественные синтетические данные для смешанных маргинальных запросов, которые сочетают в себе как категориальные, так и числовые признаки. Наш метод постоянно работает в 2–5 раз быстрее, чем лучшие сопоставимые методы, и обеспечивает значительное повышение точности как в маргинальных запросах, так и в задачах линейного прогнозирования для наборов данных смешанного типа.

2. Частные синтетические данные с иерархической структурой (arXiv)

Автор: Терренс Лю, Живэй Стивен Ву.

Аннотация: Мы изучаем проблему генерации дифференциально частных синтетических данных для иерархических наборов данных, в которых отдельные точки данных сгруппированы вместе (например, люди в домохозяйствах). В частности, чтобы измерить сходство между синтетическим набором данных и базовым частным набором, мы определяем нашу цель в рамках проблемы выпуска частного запроса, создавая синтетический набор данных, который сохраняет ответы для некоторого набора запросов (т. е. такие статистические данные, как среднее совокупное количество) . Однако, хотя применение частных синтетических данных к проблеме выпуска запросов хорошо изучено, такие исследования ограничены неиерархическими областями данных, что поднимает первоначальный вопрос — какие запросы важны при рассмотрении данных такой формы? Более того, еще не установлено, как можно генерировать синтетические данные как на групповом, так и на индивидуальном уровне при сборе такой статистики. В свете этих проблем мы сначала формализуем проблему выпуска иерархических запросов, целью которой является выпуск набора статистических данных для некоторого иерархического набора данных. В частности, мы предоставляем общий набор статистических запросов, которые фиксируют взаимосвязи между атрибутами как на уровне группы, так и на индивидуальном уровне. Впоследствии мы представляем алгоритмы частных синтетических данных для выпуска иерархических запросов и оцениваем их на иерархических наборах данных, полученных из данных опроса американского сообщества и данных инструмента проверки семьи Аллегейни. Наконец, мы обращаемся к опросу американского сообщества, присущая ему иерархическая структура которого порождает еще один набор запросов, специфичных для предметной области, с которыми мы проводим эксперименты.

Примеры использования частных синтетических данных, часть 4 (машинное обучение)

Вопросы по теме