Машинное разучивание: борьба за право быть забытым

Защита данных и конфиденциальность обсуждаются постоянно, поскольку все больше и больше людей осознают, сколько личной информации они делятся через бесчисленные приложения и веб-сайты, которые они регулярно посещают. Уже не так удивительно видеть, что продукты, о которых вы говорили с друзьями, или концерты, которые вы искали в Google, мгновенно появляются в виде рекламы в ваших фидах социальных сетей. И это многих обеспокоило.

Недавние правительственные инициативы, такие как Общий регламент ЕС по защите данных (GDPR), предназначены для защиты конфиденциальности данных физических лиц, при этом основной концепцией является «право на забвение».

Плохая новость в том, что обычно сложно отозвать то, что уже было опубликовано в Интернете, или правильно удалить такие данные. Facebook, например, недавно запустил инструмент Действия вне Facebook, ранее называвшийся Очистить историю, который, по словам компании, позволяет пользователям удалять данные, которыми сторонние приложения и веб-сайты поделились с Facebook. Но, как отмечается в MIT Technology Review, это немного вводит в заблуждение - Facebook не удаляет какие-либо данные от третьих лиц, он просто отсоединяет их от своих собственных данных о вас.

Машинное обучение (ML) все чаще рассматривается как усугубляющее проблему конфиденциальности. Данные - это топливо, которое движет приложениями машинного обучения, и это может включать сбор и анализ информации, такой как личные электронные письма или даже медицинские записи. После ввода в модель машинного обучения такие данные могут храниться вечно, что подвергает пользователей риску всевозможных нарушений конфиденциальности.

Если переключиться на точку зрения исследователя, то беспокойство заключается в том, что если и когда точка данных будет фактически удалена из обучающего набора машинного обучения, это может потребовать переобучения последующих моделей с нуля.

В новом документе исследователи из Университета Торонто, Института вектора и Университета Висконсин-Мэдисон предлагают обучение SISA, новую структуру, которая помогает моделям «отучить» информацию за счет сокращения количества обновлений, которые необходимо вычислять, когда точки данных удаленный.

«Беспрецедентные масштабы применения машинного обучения к персональным данным побуждают нас изучить, как это право на забвение может быть эффективно реализовано для систем машинного обучения», - объясняют исследователи в статье Отключение машинного обучения.

Чтобы модель забыла определенные знания, необходимо, чтобы определенные обучающие точки не вносили никакого вклада в модель. Но точки данных часто взаимозависимы и вряд ли могут быть удалены независимо. Существующие данные также постоянно работают с новыми добавленными данными для уточнения моделей.

Одно из решений - понять, как отдельные обучающие точки влияют на обновления параметров модели. Но, как показали предыдущие исследования, этот подход применим только тогда, когда алгоритм обучения запрашивает данные в том порядке, который был определен до начала обучения. Таким образом, если набор данных запрашивается адаптивно - это означает, что данный запрос зависит от любых запросов, сделанных в прошлом - этот подход становится экспоненциально более сложным и, следовательно, вряд ли может масштабироваться до сложных моделей, таких как глубокие нейронные сети.

Поэтому исследователи предложили фреймворк под названием Sharded, Isolated, Sliced and Aggregated (SISA) обучение, которое, по их мнению, может быть реализовано с минимальной модификацией существующих конвейеров.

Во время обучения SISA данные обучения сначала разделяются на несколько сегментов, так что каждая точка обучения включается только в небольшое количество сегментов - в идеале - в один сегмент. Затем модели обучаются изолированно на каждом из этих сегментов, что ограничивает влияние любой одной точки данных на модели, обученные на сегментах, содержащих эту точку. Наконец, когда поступает запрос на отмену обучения точке обучения, необходимо переобучить только затронутые модели. Этот процесс также уменьшает время переобучения для достижения отказа от обучения, потому что каждый сегмент, конечно, меньше, чем весь обучающий набор.

Каждый осколок также можно разделить на срезы, которые могут быть представлены постепенно во время обучения. Исследователи сохраняют состояние параметров модели перед введением каждого нового среза, что позволяет им начать повторное обучение с последнего известного состояния параметра, которое не включает точку, которую нужно отменить. Нарезка также способствует значительному сокращению времени, необходимого модели для разучивания данных.

Исследователи оценили SISA на двух наборах данных из разных доменов приложений. Результаты показывают, что только за счет сегментирования структура ускоряет процесс переобучения в 3,13 раза для набора данных Purchase и в 1,66 раза для набора данных Street View House Numbers. Согласно документу, дополнительное ускорение может быть достигнуто на обоих наборах при дальнейшей нарезке.

Продемонстрировав способность SISA ускорить отучивание модели и обобщение в различных сценариях, исследователи надеются предоставить решения для практического управления данными в машинном обучении и помочь решить растущие проблемы с персональными данными.

Статья Машинное разучивание находится на arXiv.

Журналист: Юань Юань | Редактор: Майкл Саразен

Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Новая колонка Поделитесь моими исследованиями от Synced приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами искусственного интеллекта.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Машинное разучивание: борьба за право быть забытым

Вопросы по теме