Бизнес-проблемы машинного обучения

Нейронные сети — распространенная тема в машинном обучении, и ее концепция может быть сложной для понимания. Основой этого является то, что это принцип дизайна, который стремится имитировать функциональность биологических нейронных сетей мозга. Каждый слой состоит из узлов, известных как нейрон. Нейроны принимают ввод и на основе своей функции активации определяют, собираются ли они выводить на следующий слой. Первый набор известен как входной слой, и именно здесь данные передаются в систему. Каждый дополнительный добавленный слой является скрытым слоем и делает его глубокой нейронной сетью. После того, как данные прошли через все слои, они попадают в выходной слой, где система делает окончательное определение. Примерами этого может быть определение написанных от руки чисел или типов животных на изображении. Благодаря различным методам обучения система со временем развивается и становится намного лучше в определении правильного ответа. Между каждым нейроном и слоем связаны веса, которые усиливаются или ослабевают в зависимости от результатов предыдущей итерации обучения. Благодаря этому процессу машинное обучение может проверять точность и улучшать результаты.

После создания нейронной сети и моделей их можно использовать для предоставления пользователям более персонализированных результатов. Совместная фильтрация — это процесс группировки пользователей по их «вкусу», который можно получить с помощью таких показателей, как оценки по отзывам. Пользователям, которые высоко оценивают аналогичные продукты, будут предложены аналогичные результаты. Рекомендации также могут быть предложены на основе последовательностей. В случае с Booking.com они могут создать модель с использованием рекуррентных нейронных сетей, которая просматривает последовательность пунктов назначения для многоэтапной поездки и может предложить продление поездки, которое было бы подходящим на основе предыдущих пунктов назначения. Наконец, классификаторы могут определяться различными типами людей, которые используют сайт. Возвращаясь к Booking.com, деловых, индивидуальных и семейных путешественников можно разделить на типы. Эти классификаторы похожи на совместную фильтрацию, но больше смотрят на их цель использования сервиса. При обучении данным бизнес-пользователи могут склоняться к отелям более высокого класса с номерами, которые позволяют им работать. Семьи могут захотеть мотель, который находится недалеко от достопримечательностей. Индивидуальные путешественники могут предпочесть что-нибудь подешевле и поменьше. Использование всех этих и других методов может помочь превратить статический сайт во что-то более подходящее для каждого человека, который захочет воспользоваться услугой. Эти функции удивительны, если они используются ответственно. Хотя веб-сайты могут отслеживать эту информацию и использовать ее исключительно для предоставления пользователю лучшего опыта, они также могут хранить и продавать ее третьим лицам. Другие риски связаны с тем, что модель помечает пользователя как определенный тип и привязывает его к определенным продуктам или услугам.

Из-за большого вреда, который может быть нанесен неправомерным использованием данных, организации и государственные органы приняли правила для борьбы с ним. Хорошим примером является Общий регламент по защите данных (GDPR), который вступил в силу 25 мая 2018 года в ЕС. GDPR — это структура, состоящая из нескольких руководящих принципов: законность, справедливость и прозрачность, ограничение цели, минимизация данных, точность, ограничение хранения, целостность и конфиденциальность, а также подотчетность. Разработка этого правила является огромной победой для конфиденциальности данных, но может наложить ограничения на инновации. Начиная с справедливости и прозрачности, последствия этого видны практически на любом веб-сайте, который мы посещаем. На целевой странице многих встречает всплывающее окно с сообщением о том, что на ваш компьютер будет добавлен файл cookie для предоставления данных веб-сайту. На этом этапе пользователи могут сделать выбор: принять файл cookie и продолжить работу или уйти. Компании должны будут взвесить компромисс между получением данных из файлов cookie и потенциальной потерей трафика. Минимизация данных не нова, но ее также важно учитывать. У компаний есть средства для получения больших объемов данных, даже если они не имеют отношения к бизнесу. GDPR требует, чтобы предприятия использовали только минимальную сумму, необходимую для выполнения операций, которые они намерены выполнять. Это помогает снизить риск компрометирующего нарушения, которое приводит к следующим принципам, целостности и конфиденциальности, а также подотчетности. К сожалению, нарушения безопасности являются обычным явлением, что приводит к утечке личных данных. Иногда это приводит к адресам электронной почты и паролям, но может перейти к частной медицинской информации или номерам социального страхования. Контроллеры и обработчики данных должны работать над обеспечением высочайшего уровня безопасности на всех уровнях своей организации. Ограничение доступа и добавление мер безопасности должны быть приоритетом. Если их меры безопасности не работают, то, согласно GDPR, они несут ответственность за ущерб, который может привести к большим штрафам. Хотя соблюдение этих принципов ограничивает инновации в персонализации веб-сайтов, сбалансированность, получаемая от средств защиты, имеет первостепенное значение для долговечности Интернета.

Опираясь на принципы GDPR, давайте рассмотрим, что они будут означать в контексте бизнеса, который использует нейронные сети в своих алгоритмах персонализации. Персонализация может играть важную роль в бизнес-модели. Клиенты персонализированного программного обеспечения могут рассчитывать на рекомендации, группы для присоединения, кураторские статьи и т. д. Этот опыт часто монетизируется с помощью целевой рекламы, основанной на таких показателях, как рейтинг кликов. Бизнесу необходимо будет собирать большие объемы данных о клиентах, чтобы эффективно классифицировать их. Это может привести к проблемам, отмеченным ранее в отношении нарушений и чрезмерного сбора. Обеспечение прозрачности – еще одна точка соприкосновения. В зависимости от используемых функций у пользователя необходимо запрашивать различные разрешения. Неточности также должны быть исправлены как можно скорее. Например, если адрес электронной почты необходимо изменить. Приложение должно предлагать решение, которое может в ближайшее время обновить адрес электронной почты в своей базе данных, чтобы предотвратить возможную кражу данных или блокировку учетной записи пользователя. С учетом количества болевых точек, которые предприятия должны учитывать для реализации этих функций, возникает вопрос, можно ли просто не собирать данные? К сожалению, с приложениями, которые используют обширную персонализацию, это не так. Пользователи могут быть ошеломлены количеством опций, доступных на платформе. Если пользователь не может найти нужные ему функции или продукты, он перейдет к сервису, где сможет. Вот почему сбор данных так важен для сохранения конкурентоспособности в нынешних условиях.

Даже несмотря на риски, связанные со сбором данных и машинным обучением, эта практика никуда не денется. Из-за этого появились инновации во внедрении конфиденциальности в машинное обучение. Часто в машинном обучении в обучении и сборе данных участвуют несколько сторон. Иногда данные могут быть слишком конфиденциальными для совместного использования, поэтому были созданы такие процессы, как федеративное обучение или многосторонние вычисления. Это практика, когда одна сторона предоставляет данные в качестве входных данных, не делясь ими с группой, у которой есть обучающий алгоритм. Гомоморфное шифрование — это метод, который позволяет обрабатывать и создавать зашифрованные данные. Дифференциальные методы конфиденциальности позволяют компаниям собирать личные данные с помощью ряда мер защиты конфиденциальности. Преимущество этого заключается в том, что если кто-то получит результат обработки, он не сможет определить, был ли конкретный человек привязан к набору входных данных или нет. Компании, использующие машинное обучение и сбор данных, должны использовать такие методы безопасности, чтобы гарантировать, что их данные не будут скомпрометированы. GDPR и аналогичные организации не указывают, как достигается безопасность, но они будут привлекать к ответственности бизнес. Чтобы поддерживать соответствие, бизнес должен быть в курсе современных методов обеспечения безопасности, чтобы иметь возможность снизить риск взлома. В противном случае велика вероятность столкнуться с крупными штрафами и потерей доверия со стороны клиентской базы.

Ресурсы:

1. Что такое нейронные сети? IBM. (2020, 17 августа). Получено 13 ноября 2021 г. с https://www.ibm.com/cloud/learn/neural-networks.

2. Калински, А. (2019, 17 декабря). Персонализация с помощью машинного обучения — от науки о данных до взаимодействия с пользователем. Середина. Получено 13 ноября 2021 г. с https://medium.com/booking-product/personalization-using-machine-learning-from-data-science-to-user-experience-3b1ef5d23ced.

3. Берджесс, М. (2020, 24 марта). Что такое GDPR? Краткое руководство по соблюдению GDPR в Великобритании. ПРОВОДНАЯ ВЕЛИКОБРИТАНИЯ. Получено 13 ноября 2021 г. с https://www.wired.co.uk/article/what-is-gdpr-uk-eu-legislation-compliance-summary-fines-2018.

4. Валпита, П. (2020, 11 июня). Конфиденциальность данных в машинном обучении. Середина. Получено 13 ноября 2021 г. с https://priyalwalpita.medium.com/data-privacy-in-machine-learning-889fd38c614a.

Бизнес-проблемы машинного обучения

Вопросы по теме