Мы обсудили силу и ограничения алгоритмов обнаружения рака кожи с помощью HAM10000. В этой статье мы обсудим этические аспекты таких алгоритмов.

Усиление ранее существовавших искажений

В любой алгоритмической системе существует возможность усиления ранее существовавших социальных предубеждений. Например, гендерная предвзятость в Google Translate. Этот инструмент был создан с использованием примеров языкового перевода. Исторически сложилось так, что в случае, когда перевод слова мог быть как мужского, так и женского рода, предоставлялась только одна форма. В результате Google Translate будет искажать некоторые профессии при переводе в мужскую форму (например, доктор, менеджер, профессор) по сравнению с женской формой (например, медсестра, секретарь, учитель). . Google активно работает над устранением этой предвзятости, подробнее читайте здесь. В этом сценарии данные отражали историческую гендерную предвзятость, согласно которой определенные профессии принадлежат представителям определенного пола — в результате эта предвзятость сохранилась в конечном продукте.

Набор данных HAM10000 может увековечить гендерные и расовые предубеждения. Исследования показали, что медицинские работники менее серьезно относятся к женщинам и цветным людям — в результате они могут ошибаться или не диагностироваться. Как мы видели в ходе исследования данных, мы обнаружили, что у женщин было меньше поражений кожи по сравнению с мужчинами (примерно 10-процентная разница между двумя полами), что может быть отражением этого общественного предубеждения (т. серьезно, так у них меньше случаев лечения/диагностики).

К счастью, исследователи потратили время на проверку исходных данных и обеспечение их легитимности. Мы можем дополнительно смягчить ранее существовавшие предубеждения, обеспечив сбалансированное представительство по различным демографическим характеристикам (путем поиска или увеличения количества примеров менее представленных категорий).

Использование вне дистрибутива

Еще одна проблема таких алгоритмов — работа с входными данными, которые сильно отличаются от обучающей выборки. Например, исследователь из Массачусетского технологического института Джой Буоламвини исследовала несколько крупных технологических и отраслевых программ для распознавания лиц и обнаружила различия в производительности между мужчинами, женщинами и цветными людьми в своем проекте GenderShades. Ее исследование выявило, что виновником является неравное представительство демографических групп. Программное обеспечение для распознавания лиц было обучено в основном с одной демографической группой, поэтому, когда оно присутствовало с людьми, не входящими в эту преобладающую демографическую группу, программное обеспечение с трудом распознавало правильно.

Для HAM10000 мы увидели, что в наборе данных преобладает один оттенок кожи. Ниже приведена цветовая гистограмма среднего тона кожи по набору данных (дополнительная информация о том, как она была получена, доступна здесь: Анализ тона кожи с помощью HAM10000)

Из-за ограничений набора данных HAM10000 наша программа не будет подвергаться воздействию кожных поражений различных оттенков кожи. При воздействии на пациентов с очень разными оттенками кожи (пациенты, не включенные в обучающую выборку) программа может давать сбои и давать менее надежные результаты. В конечном счете, мы не хотели бы выпускать такой продукт для более широкого использования, пока не сможем смягчить предвзятость, связанную с отсутствием распространения. Некоторые возможные стратегии смягчения последствий включают добавление примеров поражений кожи с разными оттенками кожи, изменение существующих изображений с разными оттенками/освещением для имитации разнообразия оттенков кожи или использование оттенков серого, когда цвет больше не становится атрибутом, используемым программой.

Ответственность

Последняя этическая проблема, которую мы рассмотрим, — это ответственность. Кто несет ответственность, когда что-то идет не так? Это компания/разработчики, медицинское сообщество/профессионалы или пользователи? Это сложный вопрос, и на момент публикации этой статьи в 2022 году четкого ответа на него пока нет.

Если мы возлагаем ответственность на компанию/разработчиков, это делает ответственность очень осязаемой — есть четкое лицо, которое несет ответственность. И кажется очевидным, что это именно эта группа, поскольку они являются продюсерами программы. Однако на практике бывает сложно определить, как и что пошло не так, при этом обеспечивая справедливость и инновации. Разработка таких программ не происходит изолированно — есть много технических заинтересованных сторон и движущихся частей (например, сбор данных, хранение, обработка, анализ, моделирование, развертывание, масштабируемость, пользовательский интерфейс, дизайн API и т. д.). Обеспечение справедливости важно, потому что, если все участники будут наказаны, это отпугнет заинтересованность и задушит инновации. Кроме того, с любой новой технологией обязательно будут проблемы и ошибки. Возьмем, к примеру, беспилотные автомобили и проблемы, с которыми они столкнулись (например, Автомобиль Waymo сбил пешехода) — если законодатели закроют компанию из-за этой проблемы или назначат крупный штраф, ее рост остановится.

Так что, если не разработчики, то, возможно, врачи, которые используют такую ​​программу для помощи в анализе. Аргумент здесь в том, что программа — это просто инструмент, а врач — оператор. В качестве аналогии, если у пациента есть плохой опыт во время сканирования, они возлагают ответственность на врача, а не на аппарат, который использовал врач. Проблема с возложением ответственности на врачей заключается в том, что это может дестимулировать принятие — они могут подвергнуть сомнению инструмент и вообще избегать его.

Последняя группа, которой мы обсудим распределение ответственности, — это пользователи/пациенты. Аргумент заключается в том, что они в конечном итоге несут ответственность за свое здоровье, и хотя такой инструмент может помочь оценить, это не должно быть концом для пациентов. Однако такая позиция может также препятствовать принятию, поскольку пациенты могут больше не захотеть полагаться на такую ​​систему, если они будут нести последствия ее неудач.

В конечном счете это комплексная проблема и решение не будет столь процедурным. Это будет зависеть от ситуации, и обязанности могут быть разделены между несколькими заинтересованными сторонами. Это постоянная проблема, которую законодатели изо всех сил пытаются наверстать.

Заключение

В этой статье мы обсудили некоторые этические соображения при создании программ с помощью HAM10000.

  • Усиление ранее существовавших погрешностей: программа может увековечить существующие погрешности, обнаруженные в данных.
  • Использование вне дистрибутива: программа может испытывать затруднения при работе с пациентами/поражениями кожи, которые очень отличаются от тренировочного набора.
  • Ответственность: трудно возложить ответственность на сбой программы

Теперь, когда мы понимаем сильные стороны, ограничения и этические соображения, мы можем перейти к созданию программ с набором данных HAM10000.