- Что такое ответственный ИИ?
- Как мы на самом деле реализуем это в организациях, разрабатывающих приложения ИИ? Обзор данных.
- Вопросы для размышления
Что такое ответственный ИИ?
Существует много определений ответственного ИИ, одно из которых я буду использовать здесь — это упреждающий процесс, когда организации, разрабатывающие ИИ, учитывают предполагаемые и непреднамеренные последствия того, что они создают, исследуют этические вопросы и разместить меры по снижению риска.
Как ответственный ИИ выглядит на практике?
Давайте рассмотрим один из ключевых этапов, на котором могут укорениться предубеждения в системах ИИ, — сбор и подготовка данных. Данные играют очень важную роль в машинном обучении. Тип набора данных, используемый для обучения и оценки моделей машинного обучения, определяет поведение модели. Это особенно важно в таких областях, как уголовное правосудие, где на карту поставлена человеческая жизнь.
Итак, как вы обеспечиваете наличие мер безопасности во время сбора и подготовки данных? Таблицы данных для наборов данных — это один из подходов, разработанный Gebru et. др. (2019), чтобы предоставить сообществу машинного обучения стандартизированный процесс документирования наборов данных. Этот процесс направлен на двух заинтересованных сторон:
- Создатели наборов данных: обеспечить тщательное документирование предположений, потенциальных рисков, использования и неправильного использования наборов данных, которые они создают.
- Потребители набора данных: чтобы убедиться, что у них есть необходимая информация для принятия решений о том, следует ли и как использовать набор данных.
Таким образом, наборы данных для наборов данных служат полезным контрольным списком, который нужно пройти при создании наборов данных и перед использованием набора данных. Ниже приведен обзор некоторых компонентов и вопросов, содержащихся в контрольном списке (примечание: это не исчерпывающий список):
- Мотивация (вопросы о том, почему был создан набор данных и возможные конфликты интересов при финансировании)
- Какова цель набора данных? Набор данных создан для конкретной задачи?
- Кто отвечает за создание набора данных (например, какая команда, исследовательская группа) и от имени какой организации (например, компании, учреждения, организации)?
2. Композиция (вопросы о том, из чего состоит набор данных)
- Что представляют экземпляры, составляющие набор данных (например, документы, фотографии, люди, страны)?
- Из каких данных состоит каждый экземпляр? (например, необработанный текст или изображения?)
- Отсутствует ли информация по отдельным экземплярам?
- Есть ли в наборе данных какие-либо ошибки, источники шума или избыточность?
- Содержит ли набор данных данные, которые можно считать конфиденциальными?
- Относится ли набор данных к людям?
- Можно ли идентифицировать людей прямо или косвенно?
3. Процесс сбора
- Как были получены данные?
- Какие процессы использовались для сбора данных?
- Если набор данных представляет собой выборку из большего набора, какова была стратегия выборки?
- За какой период времени были собраны данные?
- Если данные касаются людей, дают ли они согласие на сбор и использование своих данных?
- Был ли проведен анализ потенциального воздействия набора данных и его использования на субъектов данных?
4. Обработка/очистка/маркировка
- Проводилась ли какая-либо предварительная обработка/очистка/маркировка данных? Если да, дайте описание.
- Были ли сохранены необработанные данные в дополнение к обработанным данным? Если да, дайте ссылку на необработанные данные.
5. Использование
- Набор данных уже использовался для определенных задач?
- Есть ли место, которое связывает все документы/системы, использующие набор данных?
- Для каких других задач можно использовать набор данных?
- Есть ли что-нибудь в составе набора данных или способе его сбора и предварительной обработки, что может повлиять на использование в будущем?
- Существуют ли задачи, для которых набор данных не следует использовать?
6. Распространение
- Как будет распространяться набор данных?
- Будет ли набор данных распространяться в соответствии с авторским правом или другой лицензией на интеллектуальную собственность и/или в соответствии с условиями использования?
- Применяются ли к набору данных какие-либо экспортные ограничения/регуляторные ограничения?
7. Обслуживание
- Кто поддерживает/размещает/поддерживает набор данных?
- Будет ли обновляться набор данных?
- Если набор данных относится к людям, существуют ли ограничения на хранение данных?
- Если другие хотят внести свой вклад в набор данных, есть ли для них механизм для этого?
Обзор вопросов из Datasheets из документа Datasets, найденного здесь.
Вопросы для размышления
Таблицы данных для наборов данных с момента их публикации приобрели популярность в академических сообществах и таких компаниях, как Microsoft, Google и IBM, вдохновляя на дальнейшую работу (например, карточки моделей) и способствуя большей подотчетности / ответственности в сообществе машинного обучения. Это кажется хорошим началом, которое ставит дополнительные вопросы/вызовы:
- Каждая организация имеет разные процессы и разную сложность в этих процессах обработки наборов данных — как бы вы подошли к внедрению таблиц данных в свои существующие рабочие процессы?
- Как отметили авторы документа, вопросы не носят предписывающего характера и должны быть изменены в зависимости от конкретных областей. Что это означает для характера таблицы данных, служащей стандартом?
- Как можно создать исчерпывающий список применений и особенно «не следует использовать»? Если набор данных используется не по назначению, часть ответственности лежит на создателе набора данных?