Мы обсуждали, как завершить рабочий процесс Data Science в предыдущих главах. В этом процессе есть определенные аспекты, которые, как правило, подробно не обсуждаются, но могут повлиять на выполнение и успех вашего проекта по науке о данных.

Конфиденциальность -

В проекте по науке о данных мы работаем с наборами данных из различных источников и систем. Некоторые из этих данных будут конфиденциальными с точки зрения PII (личной идентифицируемой информации) или корпоративных данных. Поэтому важно осторожно обращаться с этими данными, чтобы сохранить их конфиденциальность в рабочем процессе ML, чтобы соответствовать правилам страны или властям. Чтобы справиться с этим, вы можете полностью удалить личные/конфиденциальные данные из своего набора данных, но это не всегда вариант, поскольку это может привести к потере информации. Вы можете маскировать или шифровать свои данные, используя соответствующие алгоритмы хеширования и/или шифрования.

Вы можете использовать системы и методы дифференциальной конфиденциальности для обеспечения конфиденциальности ваших пользовательских/корпоративных данных. В дифференциальной конфиденциальности мы добавляем шум (аппроксимацию данных вместо фактических необработанных данных) к данным, чтобы мы не могли точно определить точку данных для конкретного человека, но в то же время сохраняя распределение и свойства данных. Epsilon – это показатель, который определяет степень зашумленности или конфиденциальности данных. Чем выше значение Эпсилон, тем менее приватны ваши данные. Для любого проекта машинного обучения рекомендуется значение эпсилон от 0 до 1.

Для реализации дифференциальной конфиденциальности вы можете использовать следующие пакеты с открытым исходным кодом:

Справедливость и предвзятость —

Всякий раз, когда какая-либо система ИИ или МО отвечает за принятие решений на уровне клиента или пользователя, справедливость очень важна, поскольку она может повлиять на людей или навредить им. например если ваша модель ИИ предсказывает, должна ли кредитная карта быть одобрена или отклонена для клиента, или предсказывает, может ли человек быть преступником, то ваша модель должна быть справедливой по отношению ко всем пользователям и не должна делать какие-либо предубеждения на основе пола или расы. или демография. Это смещение (разница между выборочной совокупностью и совокупностью совокупности) может быть вызвано различными причинами, такими как смещение набора данных, смещение ассоциации, смещение алгоритма, смещение автоматизации, смещение преобразования и т. Д.

Вы можете использовать Fairlearn, пакет с открытым исходным кодом, для обнаружения, оценки и устранения проблем справедливости систем ИИ.

Аудит, соответствие и правила —

Для случая использования науки о данных будут определенные требования к аудиту для модели машинного обучения. Требования к аудиту, соответствию и нормативным требованиям будут различаться и очень специфичны для законов и нормативных актов отдела, организации, варианта использования, отрасли и страны. Как специалист по данным, вы должны исследовать, какие все правила применимы к варианту использования, и внедрить их.

Качество данных -

Качество данных имеет большое значение для любого проекта, связанного с наукой о данных или хранилищем. Необходимые элементы управления и проверки должны быть реализованы в течение жизненного цикла модели ML для поддержания стандартов качества и размеров данных.

Качество данных может быть измерено в различных измерениях, таких как:

  • Точность и целостность
  • Последовательность и полнота
  • Своевременность
  • Уникальность и полнота

Следующие проекты с открытым исходным кодом предназначены для целей качества данных:

  • большие_ожидания — общедоступный открытый стандарт качества данных. Это помогает группам обработки данных устранять задолженность конвейера посредством тестирования данных, документирования и профилирования.
  • deequ — определение сценариев модульного тестирования для данных поверх Spark.
  • re_data — структура надежности данных для современного стека данных.
  • OpenMetadata — открытый стандарт для метаданных. Единое место для обнаружения, совместной работы и получения правильных данных.
  • DataCleaner — решение для контроля качества данных

Управление и модели управления рисками—

Для моделей, имеющих большое влияние, использование и общедоступность, необходимо установить высокий уровень управления и структуру управления рисками модели.

  • ВОЗ? Необходимо установить несколько уровней управления и проверок/аудитов по снижению рисков, например, сначала на уровне группы разработки модели, затем на уровне бизнес-подразделения и, наконец, на уровне организации. В некоторых случаях в этом процессе также будут участвовать внешние аудиторы и регулирующие органы, особенно для случаев использования BFSI, правительства и здравоохранения.
  • Когда? Проверка должна выполняться в разных случаях, например, перед переносом модели в производство или ежеквартальной проверкой или изменениями модели, такими как параметры.
  • Что? Обзор должен охватывать: алгоритм/методологию и дизайн модели, реализацию модели, использование модели, ведение журнала, управление версиями и мониторинг моделей.

Безопасность и законность —

При внедрении любой системы машинного обучения или искусственного интеллекта в организации убедитесь, что соблюдаются и проверяются правила безопасности и правовые нормы, предписанные на уровне организации, отрасли и страны. Рекомендации могут быть специфическими для:

  • Источник, тип, местонахождение данных. Не следует использовать данные из черного списка/ненадежные данные
  • Пакеты и модули, используемые для моделирования, и условия их лицензирования
  • Разрешения и оплата за использование собственных данных, моделей и пакетов

Этика —

Раньше этика ИИ была только темой исследования, но теперь все крупнейшие предприятия, включая FAANG и государственные учреждения, опубликовали принципы и рекомендации по внедрению этики в ИИ.

Подробнее об этике ИИ читайте здесь: Платон Стэнфорд, Принципы ИИ Google, Руководство по этике ИИ HBR, Этика ИИ ЮНЕСКО, Ответственный ИИ Microsoft.

Объяснимость —

Объясняемость и интерпретируемость модели важны для того, чтобы бизнес и/или конечные пользователи доверяли модели ML и могли определять новые бизнес-факторы. Подробнее читайте в статье: Интерпретируемость в машинном обучении

Вы также можете использовать следующие пакеты с открытым исходным кодом, чтобы объяснить и получить представление о моделях машинного обучения «черный ящик»:

  • Interpret — Подбирайте интерпретируемые модели.
  • SHAP — теоретико-игровой подход к объяснению результатов любой модели машинного обучения.
  • captum — интерпретируемость и понимание модели для PyTorch.
  • ELI5 — отладка/проверка классификаторов машинного обучения и объяснение их прогнозов
  • LIME — Объяснение прогнозов любого классификатора машинного обучения.
  • netron — Визуализатор для моделей нейронных сетей, глубокого обучения и машинного обучения.
  • Google что, если — Визуально исследуйте поведение обученных моделей машинного обучения.
  • Lucid — набор инфраструктуры и инструментов для исследования интерпретируемости нейронных сетей.

Происхождение и воспроизводимость —

Как специалист по обработке и анализу данных вы должны поддерживать связь своих экспериментов с машинным обучением с точки зрения данных, моделей и метаданных. Это поможет вам сохранить версии всех моделей и проверять/воссоздавать их по мере необходимости.

Вы можете использовать следующие пакеты с открытым исходным кодом для отслеживания и поддержки экспериментов по машинному обучению:

  • AIM — трекер экспериментов ML
  • Контроль версий данных или DVC — это пакет с открытым исходным кодом, который можно использовать для поддержки версий моделей и наборов данных.
  • MLflow — MLflow — это платформа с открытым исходным кодом для управления сквозным жизненным циклом машинного обучения.
  • Kedro — Kedro — это среда Python с открытым исходным кодом для создания воспроизводимого, поддерживаемого и модульного кода для обработки данных.

Пункты, которые мы обсуждали выше, необходимо учитывать и реализовывать по мере необходимости не только в начале или в конце проекта Data Science, но и на протяжении всего рабочего процесса машинного обучения.