Этичность от начала до конца.

Модные словечки, тенденции и причуды приходят и уходят так же быстро, как и все остальное, и возникают во всех сферах жизни. Даже в области науки о данных и искусственного интеллекта по мере появления новых инструментов, которые считаются «следующим шагом». Но есть новое модное слово, набирающее обороты, это действительно намного больше. Что-то, что, скорее всего, вызовет смену парадигмы и изменит процесс нашей работы. Этический ИИ.

Сейчас есть некоторая двусмысленность в определении того, что на самом деле представляет собой этический ИИ, но для меня лучшее описание, которое я нашел, основано на 8 принципах, данных Институтом этического ИИ и машинного обучения (ссылка). По сути, это движение пытается гарантировать, что любая система искусственного интеллекта, которая занимается людьми, придерживается наших моральных и этических стандартов. Я не собираюсь говорить обо всех этих принципах, но я собираюсь поговорить о том, что лежит в основе всего этого: справедливость и объяснимость, а также ее первопричину - предвзятость.

Ответственные ученые внутренне осознают этичность. Во время моей докторской диссертации, прежде чем я смог даже начать какой-либо анализ, мне нужно было получить одобрение этики, даже несмотря на то, что данные, которые я использовал, были уже общедоступными и анонимными. В конечном итоге это было упражнение по прыжкам с обручем, но оно с самого начала обеспечило соблюдение этических норм в моей работе. Но то, что происходит, что положило начало тенденции «этического ИИ», заключается в том, что этическое чувство / принятие решений не проникает в создаваемые модели ИИ.

Это не недостаток компьютеров / алгоритмов. Люди часто забывают, что система ИИ следует точно запрограммированным в ней шагам и принимает решения на основе данных, которые ей были представлены. Он понятия не имеет, что любая из этих переменных может привести к дискриминации. Переменная Female или Male также может быть красной или зеленой. В конечном счете, ответственность за любое неэтичное поведение системы ИИ лежит на человеке, который его совершил.

Давайте проясним с самого начала, согласно Google:

· Дискриминация - несправедливое или предвзятое отношение к различным категориям людей, особенно по признаку расы, возраста или пола.

· Предубеждение - предубеждение или предубеждение в пользу или против одного человека или группы, особенно в том виде, который считается несправедливым.

Очевидно, есть и другие переменные, которые можно было бы добавить в список, например, в определении дискриминации, сексуальности, религии. Но все, что может служить основанием для дискриминации, мы будем называть дискриминационными переменными. Прежде чем продолжить, следует отметить два момента.

· Один друг мудро сказал: «Если вы хотите быть совершенно беспристрастным, вы либо не принимаете решения, либо принимаете единообразное». Суть их слов верна: принимая индивидуальные решения, всегда найдется некоторая степень предвзятости или несправедливости. Нам просто нужно постараться сделать его как можно меньше.

· Мы должны помнить, что на этику влияют культура, восприятие и общество, которые со временем меняются. То, что считалось этичным 50 лет назад, может быть неэтичным по сегодняшним стандартам, и даже наша этика сегодня может считаться неэтичной через 50 лет.

Теперь, если предположить, что предполагаемое использование системы само по себе этично, есть два момента, в которых предвзятость может проникнуть в систему. Сбор данных и этапы построения модели. Давайте начнем с последнего и предположим, что наши данные не содержат каких-либо предвзятостей. В конечном итоге, если у вас есть потенциально различающая переменная, все сводится к тому, чтобы задать себе один вопрос. «Актуальна ли эта переменная и есть ли существенные различия между группами?» Если ответ отрицательный, не включайте его! Если между группами существуют четкие закономерности, которые вы можете показать, и эти различия являются важной частью цели, то подход к этим двум группам по-разному оправдан.

Например. Рассмотрим модель для определения приоритетов лечения пациентов от болезни, и у вас есть переменная дискриминации. Теперь предположим, что одна группа в среднем имеет больший приоритет над другой. ЕСЛИ это связано с тем, что группа, которой присваивается приоритет, более восприимчива к заболеванию, И вы можете доказать это на основе данных, тогда такая расстановка приоритетов является справедливой. С другой стороны, если вы не можете показать разницу, это несправедливо, и эту функцию не следует включать. В этом случае модель необходимо построить заново, удалив эту переменную.

Вы могли бы сказать, что просто наложите ограничение внутри модели, однако существует риск того, что смещение отодвигается от одной функции и накладывается на другую. Применяя это к нашему примеру, вы обеспечиваете, чтобы в среднем наша вторая группа не превышала минимальный уровень приоритета. Изучив результаты, вы обнаружите, что во второй группе людям из одного места отдается высокий приоритет, а остальным - очень низкий. Но в среднем он по-прежнему соответствует наложенным условиям, однако теперь предвзятость сместилась в сторону того, где человек живет. В качестве альтернативы вы можете изменить результат после того, как он прошел через модель, но тогда на самом деле модель будет излишней, и вы даже можете наложить свою собственную подсознательную предвзятость. Так что на самом деле самый безопасный ответ - это вернуться и с самого начала быть этичными.

Первый момент, когда в системе может возникнуть предвзятость, этап сбора данных, вероятно, труднее всего решить. Мы, специалисты по данным, довольно много времени работаем с данными из вторых рук. К сожалению, для этого нет другого решения, кроме как изучить данные, чтобы убедиться, что вы их понимаете и знаете о любых неожиданных предубеждениях. Или собирать все данные самостоятельно с нуля в соответствии с этическими принципами, но на практике у большинства нет времени. Он опирается на старую аксиому «Мусор на входе = Мусор на выходе» и, к сожалению, включает в себя любую систематическую ошибку в данных.

Если данные взяты из опроса, это могло быть сделано в одной области, где демографические данные были сильно смещены в сторону одной группы, человек, собирающий результаты, мог иметь подсознательные предрассудки, которые заставляли его приближаться только к определенным группам людей. В конце концов, нам нужно убедиться, что данные репрезентативны для людей, которых мы пытаемся моделировать, и не допускать каких-либо неожиданных предубеждений. Например, мы ожидаем, что опрос покупателей в магазине женской одежды будет состоять в основном из женщин. Это будет примером ожидаемой предвзятости, которая может быть приемлемой в данной ситуации.

Сейчас разрабатываются инструменты, которые могут помочь в решении этой задачи: FairML, Themis и IBM Watson OpenScale. OpenScale действительно впечатляет! Он поставляется с целым набором инструментов, которые могут помочь в отслеживании предвзятости и помочь в объяснении. Например, мониторинг развернутых моделей в режиме реального времени и создание предупреждений, если обнаруживается, что модель приняла потенциально необъективное решение. Он также может обнаруживать любую потенциальную погрешность в тренировочных данных и отслеживать любые отклонения с течением времени. Но, вероятно, один из самых полезных инструментов состоит в том, что для каждого вызова модели он дает объяснение того, насколько каждая входная функция влияет на выход! Это означает, что если вам нужно объяснить решение, это легко сделать, и вы можете объяснить, что может помочь изменить решение. Среди всех возможных вариантов использования OpenScale лично мне больше всего нравится то, что он используется AELTC для чемпионатов Уимблдона, чтобы помочь создать объективные моменты матча!



Этический ИИ никуда не денется и станет частью жизненного цикла науки о данных. Мы должны постоянно знать, где может закрасться предвзятость и как с этим бороться. Когда вас просят создать модель искусственного интеллекта, ориентированную на людей, я надеюсь, вы не забываете соблюдать этические нормы от начала до конца.

Особая благодарность Джунаид Батт, которая помогла мне развить мои идеи для этого сообщения.

Принесите свой план в IBM Garage.
IBM Garage создан для того, чтобы двигаться быстрее, работать умнее и внедрять инновации, позволяющие предотвратить сбои.

Узнайте больше на www.ibm.com/garage