• Что такое ответственный ИИ?
  • Как мы на самом деле реализуем это в организациях, разрабатывающих приложения ИИ? Обзор данных.
  • Вопросы для размышления

Что такое ответственный ИИ?

Существует много определений ответственного ИИ, одно из которых я буду использовать здесь — это упреждающий процесс, когда организации, разрабатывающие ИИ, учитывают предполагаемые и непреднамеренные последствия того, что они создают, исследуют этические вопросы и разместить меры по снижению риска.

Как ответственный ИИ выглядит на практике?

Давайте рассмотрим один из ключевых этапов, на котором могут укорениться предубеждения в системах ИИ, — сбор и подготовка данных. Данные играют очень важную роль в машинном обучении. Тип набора данных, используемый для обучения и оценки моделей машинного обучения, определяет поведение модели. Это особенно важно в таких областях, как уголовное правосудие, где на карту поставлена ​​человеческая жизнь.

Итак, как вы обеспечиваете наличие мер безопасности во время сбора и подготовки данных? Таблицы данных для наборов данных — это один из подходов, разработанный Gebru et. др. (2019), чтобы предоставить сообществу машинного обучения стандартизированный процесс документирования наборов данных. Этот процесс направлен на двух заинтересованных сторон:

  • Создатели наборов данных: обеспечить тщательное документирование предположений, потенциальных рисков, использования и неправильного использования наборов данных, которые они создают.
  • Потребители набора данных: чтобы убедиться, что у них есть необходимая информация для принятия решений о том, следует ли и как использовать набор данных.

Таким образом, наборы данных для наборов данных служат полезным контрольным списком, который нужно пройти при создании наборов данных и перед использованием набора данных. Ниже приведен обзор некоторых компонентов и вопросов, содержащихся в контрольном списке (примечание: это не исчерпывающий список):

  1. Мотивация (вопросы о том, почему был создан набор данных и возможные конфликты интересов при финансировании)
  • Какова цель набора данных? Набор данных создан для конкретной задачи?
  • Кто отвечает за создание набора данных (например, какая команда, исследовательская группа) и от имени какой организации (например, компании, учреждения, организации)?

2. Композиция (вопросы о том, из чего состоит набор данных)

  • Что представляют экземпляры, составляющие набор данных (например, документы, фотографии, люди, страны)?
  • Из каких данных состоит каждый экземпляр? (например, необработанный текст или изображения?)
  • Отсутствует ли информация по отдельным экземплярам?
  • Есть ли в наборе данных какие-либо ошибки, источники шума или избыточность?
  • Содержит ли набор данных данные, которые можно считать конфиденциальными?
  • Относится ли набор данных к людям?
  • Можно ли идентифицировать людей прямо или косвенно?

3. Процесс сбора

  • Как были получены данные?
  • Какие процессы использовались для сбора данных?
  • Если набор данных представляет собой выборку из большего набора, какова была стратегия выборки?
  • За какой период времени были собраны данные?
  • Если данные касаются людей, дают ли они согласие на сбор и использование своих данных?
  • Был ли проведен анализ потенциального воздействия набора данных и его использования на субъектов данных?

4. Обработка/очистка/маркировка

  • Проводилась ли какая-либо предварительная обработка/очистка/маркировка данных? Если да, дайте описание.
  • Были ли сохранены необработанные данные в дополнение к обработанным данным? Если да, дайте ссылку на необработанные данные.

5. Использование

  • Набор данных уже использовался для определенных задач?
  • Есть ли место, которое связывает все документы/системы, использующие набор данных?
  • Для каких других задач можно использовать набор данных?
  • Есть ли что-нибудь в составе набора данных или способе его сбора и предварительной обработки, что может повлиять на использование в будущем?
  • Существуют ли задачи, для которых набор данных не следует использовать?

6. Распространение

  • Как будет распространяться набор данных?
  • Будет ли набор данных распространяться в соответствии с авторским правом или другой лицензией на интеллектуальную собственность и/или в соответствии с условиями использования?
  • Применяются ли к набору данных какие-либо экспортные ограничения/регуляторные ограничения?

7. Обслуживание

  • Кто поддерживает/размещает/поддерживает набор данных?
  • Будет ли обновляться набор данных?
  • Если набор данных относится к людям, существуют ли ограничения на хранение данных?
  • Если другие хотят внести свой вклад в набор данных, есть ли для них механизм для этого?

Обзор вопросов из Datasheets из документа Datasets, найденного здесь.

Вопросы для размышления

Таблицы данных для наборов данных с момента их публикации приобрели популярность в академических сообществах и таких компаниях, как Microsoft, Google и IBM, вдохновляя на дальнейшую работу (например, карточки моделей) и способствуя большей подотчетности / ответственности в сообществе машинного обучения. Это кажется хорошим началом, которое ставит дополнительные вопросы/вызовы:

  • Каждая организация имеет разные процессы и разную сложность в этих процессах обработки наборов данных — как бы вы подошли к внедрению таблиц данных в свои существующие рабочие процессы?
  • Как отметили авторы документа, вопросы не носят предписывающего характера и должны быть изменены в зависимости от конкретных областей. Что это означает для характера таблицы данных, служащей стандартом?
  • Как можно создать исчерпывающий список применений и особенно «не следует использовать»? Если набор данных используется не по назначению, часть ответственности лежит на создателе набора данных?