Я недавно присоединился к Benchmark в качестве предпринимателя по месту жительства. Мои текущие интересы включают машинное обучение, конфиденциальность, распределенные системы и телеприсутствие. Если вас интересует одна из этих областей (или что-то еще интересное) и вы хотите пообщаться, напишите мне!

Несколько недель назад Google выпустил Allo, новое приложение для обмена сообщениями со встроенным помощником. Когда было объявлено об Allo, команда пообещала не хранить разговоры по умолчанию, что является ключевой функцией конфиденциальности. Последующее решение отказаться от этого обещания было быстро раскритиковано рядом защитников конфиденциальности, включая Томаса Дрейка и Эдварда Сноудена, что вызвало серьезные проблемы с PR во время его запуска. Google, лидер в области технологии машинного обучения (ML), высоко ценит эти записанные разговоры, поскольку считает, что они помогут наполнить требовательные к данным алгоритмы машинного обучения, которые используются в его агентах искусственного интеллекта, рекламных сервисах и многих других продуктах.

В силе данных для оптимизации бизнеса и правительства нет ничего нового - даже в 19 веке это было широко распространено. В прошлом наша способность обрабатывать действительно огромные объемы данных и обнаруживать скрытые ссылки были ограничены, типы создаваемых и собираемых данных, как правило, не были такими навязчивыми, а простые методы шифрования позволяли нам сохранять конфиденциальность там, где это необходимо. В последнее время доступность огромного количества очень точных данных обо всех аспектах нашей жизни и методов их сбора и эффективного анализа намного превзошла нашу способность сохранять конфиденциальность. По мере того как компании продолжают собирать о нас все больше данных, отсутствие чистого решения, позволяющего современным методам машинного обучения сосуществовать с конфиденциальностью индивидуальных данных, будет представлять все более серьезные проблемы для предприятий в этой области. Хотя исследование дифференциальной конфиденциальности может указать путь к решению, требуется дополнительная работа.

Исторические большие (средние?) Данные

Почти мгновенно появление электрического телеграфа в 1800-х годах сократило задержку связи с месяцев до секунд. Имея возможность мгновенно получать информацию и отправлять инструкции агентам в разных местах, предприятия теперь могут работать гораздо более эффективно. Например, транснациональные корпорации теперь имели доступ к информации о мировых ценах в реальном времени: менеджер, сидящий в Лондоне, мог изучать цены на рынках Нью-Йорка, Лондона и Бомбея и (с приблизительной оценкой стоимости доставки) покупать товары по оптимальным ценам. место.

Влияние на правительство также было глубоким. Британская империя построила полностью принадлежащую ей сеть подводных кабелей между всеми своими колониями. Это давало ему большие преимущества: бюрократы в Лондоне могли тайно общаться со своими коллегами в других доминионах, в то время как другим, желавшим мгновенной связи, часто приходилось использовать ссылки, принадлежащие британцам. Слежка за этими ссылками (по сути, предшествующая перехвату интернет-трафика АНБ) предоставила британцам большой массив данных, анализ которых дал бесценную информацию.

В то время было хорошо известно, что сообщения могут быть перехвачены по желанию, поэтому большинство предприятий и частных лиц, заботящихся о конфиденциальности, быстро приняли методы шифрования / кодирования, которые использовались на обоих концах для обеспечения конфиденциальности. В разное время телеграфные операторы в Европе пытались запретить использование шифров (в какой-то момент они даже выдавали список допустимых слов), но в конечном итоге эти попытки потерпели неудачу.

Во второй половине 20-го века предприятия розничной торговли начали анализировать небольшой набор данных с «краев» розничной сети, т. Е. данные о покупках потребителей, чтобы повысить эффективность. Circuit City и WalMart использовали централизованную базу данных для отслеживания запасов, прогнозирования, предотвращения дефицита и выдачи ссуд клиентам. Tesco в Великобритании и 7-Eleven в Японии широко использовали эти данные, чтобы определить, в каких филиалах следует хранить товары. Сбор и анализ данных о поведении, позволяющих установить личность (хотя и ограничивался взаимодействием в отдельных магазинах), начал слегка нарушать конфиденциальность личности.

Текущие тренды

За последние пятнадцать лет достижения в области вычислительной мощности графических процессоров, алгоритмов глубокого обучения, сбора данных и обмена данными позволили компьютерам «изучать» все виды задач, от классификации (например, какая порода собаки на этой фотографии) до регрессии. , для более творческих задач, таких как сочинение музыки и вождение автомобиля. В то время как модели с глубоким обучением теперь превосходят специалистов-людей по многим задачам, алгоритмы, требующие большого количества данных, для своей эффективности полагаются на чрезвычайно большие массивы данных. Когда модели обучаются на подробных данных о людях (например, истории просмотра веб-страниц, информации о местоположении и т. Д.), Соображения конфиденциальности становятся важными - как из-за масштаба данных, хранящихся в одном месте, так и из-за возможности утечки из моделей.

Постоянное совершенствование оборудования и алгоритмов глубокого обучения увеличивает как объем данных, которые мы можем обработать, так и информацию, которую мы можем извлечь из них. Эта тенденция непропорционально увеличивает ценность больших наборов данных, что, в свою очередь, увеличивает потребность в более быстрых и эффективных вычислениях. Поскольку современные технологии глубокого обучения широко доступны, большие, глубоко личные наборы данных и выдающиеся технические таланты стали основным стратегическим преимуществом в этой сфере. Последовавшая «гонка вооружений» является одной из основных причин того, что многие крупнейшие технологические компании (такие как Google, Facebook, Uber и Amazon) накапливают огромные массивы данных, которые они ревностно охраняют.

В некоторых доменах обычным явлением являются большие наборы данных со строгими требованиями к конфиденциальности или секретности. Европейский Союз придерживается гораздо более строгого подхода к конфиденциальности данных: они требуют явного согласия на любой обмен и сбор данных, настаивают на праве на забвение и вводят другие ограничения. Хотя в Соединенных Штатах существуют сравнительно слабые правила за пределами сферы здравоохранения и образования, они, вероятно, будут ужесточены, поскольку крупнейшие компании накапливают все большие объемы данных об и без того нервных потребителях.

В ответ на запрос о свободе информации Нью-Йорк объявил о рекордных 173 миллионах поездок, совершенных в желтых такси в 2013 году. Каждая запись состояла из начального местоположения и времени, конечного местоположения и времени, а также (ненадлежащим образом) анонимных номерных знаков и водительских прав. номер. (Статья, которую я написал в 2014 году, лучше описывает данные и почему цифры были неправильно анонимизированы). Публикация этих данных в сочетании с методами деанонимизации позволила предприимчивым журналистам задним числом обнаруживать все виды частной информации о поездках знаменитостей (по сути, они читали номерной знак на фотографии кого-то, выходящего из такси, и идентифицировали поездку в база данных).

Эти данные полезны не только для того, чтобы узнать, какой клуб посещал Джастин Бибер. Их также можно использовать для огромного общественного блага. Государственные органы могут использовать эту информацию для увеличения пропускной способности трафика, планирования новых транспортных линий или поиска служб экстренной помощи. (Посетите Sidewalk Labs в Нью-Йорке, если вас интересуют технологии, применяемые в городах). Допустим, мы хотели спрогнозировать время, которое потребуется, чтобы добраться между двумя точками Нью-Йорка на такси, чтобы мы могли порекомендовать самый быстрый вид транспорта. Мы могли бы обучить модель машинного обучения с этими данными, историческими данными о погодных условиях, базой данных событий и, возможно, даже журналами аварийных служб. Мы также хотели бы защитить конфиденциальность, предотвратив анализ, описанный выше. В 2015 году Фредрик и др. показали, что действительно можно инвертировать и извлекать данные из моделей черного ящика, если не будут приняты соответствующие контрмеры.

Конфиденциальность и глубокое обучение

Поскольку наборы данных содержат больше личной информации, может пострадать конфиденциальность. Какие шаги мы можем предпринять для защиты конфиденциальности пользователей? Метод, известный как дифференциальная конфиденциальность, позволяет публиковать слегка измененный набор данных с гарантиями сохранения совокупных статистических свойств без утечки какой-либо новой информации о любом человеке, данные которого содержатся в исходном корпусе. Предоставление доступа к этим измененным наборам данных будет иметь гораздо более ограниченные последствия для конфиденциальности (фактически, Нью-Йорк проводит хакатон, чтобы убедиться, что их новый процесс анонимизации работает нормально).

Недавно исследование дифференциальной конфиденциальности было распространено на глубокое обучение: в июне 2016 года Abadi et al. опубликовал исследование, описывающее использование дифференциальной конфиденциальности в сочетании с глубоким обучением. Авторы демонстрируют и оценивают метод обучения сверточных нейронных сетей (CNN) на централизованном массиве данных при соблюдении определенных гарантий конфиденциальности. Хотя это приводит к модели с пониженной точностью, она обеспечивает значительно лучшую конфиденциальность и точность, чем предыдущие работы в этой области.

В частности, вид дифференцированной конфиденциальности, пропагандируемый в документе, обещает, что, наблюдая за Брэдли Купером, выходящим из такси, мы не сможем сделать никаких окончательных заявлений о его происхождении, даже при неограниченном доступе к модели машинного обучения; вклад его поездки в модель не сделал бы его хуже с точки зрения конфиденциальности. Для ясности: хотя мы ничего не можем узнать из поездки Брэдли, совокупные данные могут привести к утечке информации о нем. Например, если игра Islanders завершилась за 20 минут до того, как Брэдли вышел из такси в месте, которое, по прогнозам нашей модели, находилось в 20 минутах от Barclay's Center, мы могли бы сделать вывод, что он прибыл из этого места (особенно если мы априори знаем, что он хоккейный болельщик). Хотя модель работает так, как ожидалось, мы видим, что существует философская дискуссия о том, допустимо ли публиковать агрегированные статистические данные. Конечно, это означает, что мы должны доверять одной организации, которая хранит все эти данные в одном месте.

В случаях, когда этот большой кладезь конфиденциальных данных (представьте, что медицинские записи или школьные записи вместо данных такси) неприемлемы, а хранение наборов данных, обрабатываемых с дифференцированной конфиденциальностью, бесполезно, мы могли бы обучить модель на нескольких различных узкоспециализированных наборы данных; предыдущая работа Шорки и др. подробно описывает один подход.

Выводы

Компании и правительства накапливают все большие массивы данных о нас. Используя машинное обучение, они получают прибыль от результатов: оптимизированные рекламные алгоритмы, агенты искусственного интеллекта, беспилотные автомобили, распознавание голоса и ряд других инноваций были бы невозможны без этих данных. Несмотря на многообещающие новые исследования, (насколько мне известно) в настоящее время не существует готовых к производству систем глубокого обучения, которые обеспечивали бы удовлетворительную производительность, но при этом предоставляли бы полезные гарантии конфиденциальности. Следовательно, компании должны либо уделять приоритетное внимание конфиденциальности и ограничивать преимущества современного ИИ, либо - как это сделал Google с Allo - игнорировать проблемы конфиденциальности и продвигаться вперед с крупномасштабным сбором и анализом данных.

Преодоление разрыва между конфиденциальностью и данными - очень важная область для будущей работы: производственная, эффективная система, которая может работать в большом масштабе, обеспечивая при этом гарантии конфиденциальности, наконец, позволит нам применить преимущества современных методов глубокого обучения к чувствительным к конфиденциальности наборам данных.

Спасибо Расселу Пауэру и Фрэнку МакШерри за ответы на некоторые из моих вопросов о конфиденциальности!