Теперь есть Машина «Разучивание»?

Да, я только что получил степень по машинному обучению, а уже есть машинное разучивание!

и Нет, я не шучу!

Что ж, прежде чем мы смогли повсеместно установить, что машинное обучение — это не волшебство, академические круги уже столкнулись с проблемой разучивания. Все благодаря GDPR https://gdpr.eu/right-to-be-forgotten/!

В статье 17 GDPR есть сладкое сладкое правило, которое с любовью называется — Право на забвение https://gdpr-info.eu/art-17-gdpr/. В современном мире Instagram! Кошмар для некоторых инфлюенсеров!

В любом случае, как следует из названия, это правило дает вам все права на законных основаниях требовать, чтобы тот, кто хранит ваши данные, удалял их — по вашей команде. Твои, не используй мои данные! (Применяются условия — только в ЕС! Ну, в США и Великобритании тоже такое же правило).

Так что, естественно, это приносит с собой море проблем для новейших технологий. Наименее ожидаемый — в блокчейне. Да!! Но это история для другого дня.

Вы знаете все эти посты: данные — это новая нефть, все дело в данных. Что ж, теперь они должны удалить эти данные. Наиболее уязвимой областью, на мой взгляд, является машинное обучение. Потому что нам нужны обучающие данные для обучения машин. Нет обучающих данных, нет машинного обучения. Мы, конечно, можем генерировать обучающие данные, но это не так эффективно, как реальные данные со всей их «реальностью».

Итак, в академических кругах уже так много говорится о том, как сделать модели совместимыми с правилом права на забвение. Некоторые современные упоминания: Авторы в https://arxiv.org/pdf/2007.02923.pdf объясняют, как модель необходимо переобучить после удаления данных. Авторы в https://arxiv.org/pdf/2203.07320.pdf объясняют и предлагают новое решение в федеративном обучении. Загляните к представителю github — https://github.com/yiliucs/federated-unlearning. Еще одно хорошее чтение — https://medium.com/syncedreview/machine-unlearning-fighting-for-the-right-to-be-forgotten-c381f8a4acf5.

Но вопрос заключается в том, что на индивидуальном уровне правильно ли мне не предоставлять свои данные для развивающихся технологий, которые потенциально могут спасти жизни, просто из-за страха, что данные могут быть использованы не по назначению? Помимо предоставления мне права на удаление моих данных, поможет ли это больше, если мне будет предоставлена прозрачность данных о том, как, где и какие из моих данных хранятся и используются?

Но пока, как будто это было недостаточно сложно, мне пора научиться машинному обучению до того, как машина его разучит.

Теперь есть Машина «Разучивание»?

Вопросы по теме