Ответственный ИИ: Как это выглядит на практике? (Часть 1

Что такое ответственный ИИ?
Как мы на самом деле реализуем это в организациях, разрабатывающих приложения ИИ? Обзор данных.
Вопросы для размышления

Что такое ответственный ИИ?

Существует много определений ответственного ИИ, одно из которых я буду использовать здесь — это упреждающий процесс, когда организации, разрабатывающие ИИ, учитывают предполагаемые и непреднамеренные последствия того, что они создают, исследуют этические вопросы и разместить меры по снижению риска.

Как ответственный ИИ выглядит на практике?

Давайте рассмотрим один из ключевых этапов, на котором могут укорениться предубеждения в системах ИИ, — сбор и подготовка данных. Данные играют очень важную роль в машинном обучении. Тип набора данных, используемый для обучения и оценки моделей машинного обучения, определяет поведение модели. Это особенно важно в таких областях, как уголовное правосудие, где на карту поставлена человеческая жизнь.

Итак, как вы обеспечиваете наличие мер безопасности во время сбора и подготовки данных? Таблицы данных для наборов данных — это один из подходов, разработанный Gebru et. др. (2019), чтобы предоставить сообществу машинного обучения стандартизированный процесс документирования наборов данных. Этот процесс направлен на двух заинтересованных сторон:

Создатели наборов данных: обеспечить тщательное документирование предположений, потенциальных рисков, использования и неправильного использования наборов данных, которые они создают.
Потребители набора данных: чтобы убедиться, что у них есть необходимая информация для принятия решений о том, следует ли и как использовать набор данных.

Таким образом, наборы данных для наборов данных служат полезным контрольным списком, который нужно пройти при создании наборов данных и перед использованием набора данных. Ниже приведен обзор некоторых компонентов и вопросов, содержащихся в контрольном списке (примечание: это не исчерпывающий список):

Мотивация (вопросы о том, почему был создан набор данных и возможные конфликты интересов при финансировании)

Какова цель набора данных? Набор данных создан для конкретной задачи?
Кто отвечает за создание набора данных (например, какая команда, исследовательская группа) и от имени какой организации (например, компании, учреждения, организации)?

2. Композиция (вопросы о том, из чего состоит набор данных)

Что представляют экземпляры, составляющие набор данных (например, документы, фотографии, люди, страны)?
Из каких данных состоит каждый экземпляр? (например, необработанный текст или изображения?)
Отсутствует ли информация по отдельным экземплярам?
Есть ли в наборе данных какие-либо ошибки, источники шума или избыточность?
Содержит ли набор данных данные, которые можно считать конфиденциальными?
Относится ли набор данных к людям?
Можно ли идентифицировать людей прямо или косвенно?

3. Процесс сбора

Как были получены данные?
Какие процессы использовались для сбора данных?
Если набор данных представляет собой выборку из большего набора, какова была стратегия выборки?
За какой период времени были собраны данные?
Если данные касаются людей, дают ли они согласие на сбор и использование своих данных?
Был ли проведен анализ потенциального воздействия набора данных и его использования на субъектов данных?

4. Обработка/очистка/маркировка

Проводилась ли какая-либо предварительная обработка/очистка/маркировка данных? Если да, дайте описание.
Были ли сохранены необработанные данные в дополнение к обработанным данным? Если да, дайте ссылку на необработанные данные.

5. Использование

Набор данных уже использовался для определенных задач?
Есть ли место, которое связывает все документы/системы, использующие набор данных?
Для каких других задач можно использовать набор данных?
Есть ли что-нибудь в составе набора данных или способе его сбора и предварительной обработки, что может повлиять на использование в будущем?
Существуют ли задачи, для которых набор данных не следует использовать?

6. Распространение

Как будет распространяться набор данных?
Будет ли набор данных распространяться в соответствии с авторским правом или другой лицензией на интеллектуальную собственность и/или в соответствии с условиями использования?
Применяются ли к набору данных какие-либо экспортные ограничения/регуляторные ограничения?

7. Обслуживание

Кто поддерживает/размещает/поддерживает набор данных?
Будет ли обновляться набор данных?
Если набор данных относится к людям, существуют ли ограничения на хранение данных?
Если другие хотят внести свой вклад в набор данных, есть ли для них механизм для этого?

Обзор вопросов из Datasheets из документа Datasets, найденного здесь.

Вопросы для размышления

Таблицы данных для наборов данных с момента их публикации приобрели популярность в академических сообществах и таких компаниях, как Microsoft, Google и IBM, вдохновляя на дальнейшую работу (например, карточки моделей) и способствуя большей подотчетности / ответственности в сообществе машинного обучения. Это кажется хорошим началом, которое ставит дополнительные вопросы/вызовы:

Каждая организация имеет разные процессы и разную сложность в этих процессах обработки наборов данных — как бы вы подошли к внедрению таблиц данных в свои существующие рабочие процессы?
Как отметили авторы документа, вопросы не носят предписывающего характера и должны быть изменены в зависимости от конкретных областей. Что это означает для характера таблицы данных, служащей стандартом?
Как можно создать исчерпывающий список применений и особенно «не следует использовать»? Если набор данных используется не по назначению, часть ответственности лежит на создателе набора данных?

Ответственный ИИ: Как это выглядит на практике? (Часть 1 — Данные)

Что такое ответственный ИИ?

Как ответственный ИИ выглядит на практике?

Вопросы для размышления

Вопросы по теме