Риски управления ИИ заключаются не только в алгоритмах

Принимая во внимание огромную мощь, которую может иметь технология искусственного интеллекта, вопросы этики ИИ и сценариев что, если часто выходят на первый план. Как бы ни было идеально иметь абсолютную уверенность в том, что приложение ИИ используется и всегда будет использоваться во благо, которое принесет пользу обществу, в настоящее время это не является реальной гарантией.

Итак, вопросы, которые часто мучают нас, важны и заслуживают серьезного рассмотрения. Мы должны спросить себя:

Что произойдет, если правительство примет неправильное решение на основе ИИ, которое затронет миллионы граждан?
Кто или что виновато?
Как мы обеспечиваем надежность наших результатов?

Когда что-то идет не так, палец обычно указывают на алгоритм или модель машинного обучения. И хотя проблема может быть связана с самим алгоритмом, мы считаем, что это, скорее всего, не так — вопреки распространенному мнению.

Итак, если проблемы не только в алгоритме — в чем заключаются риски?

Давайте посмотрим поближе…

Источники риска

Мы в Citibeats считаем, что потенциальные проблемы возникают в трех основных областях:

Источники данных

Если алгоритм дает необъективные результаты, скорее всего, проблема заключается в самих данных. Мы должны подвергнуть сомнению источник данных и убедиться, что предвзятость не присутствует с самого начала и не распространяется на выходные данные — через источники, которые включают предвзятость выборки, предвзятость стереотипов или систематическое искажение значений. Ошибочные данные или неточное взвешивание смешанных источников данных могут привести к необъективной выборке и привести к крупномасштабным проблемам.

Например, большой риск представляет демографическая предвзятость в обучающих данных. Если данные не точно отражают население, для которого они предназначены, результаты могут быть благоприятными или дискриминационными по отношению к определенному полу или расе.

Хорошим примером ошибочного источника данных является Microsoft и ее экспериментальный чат-бот с искусственным интеллектом Tay, который был выпущен через Twitter в 2016 году. Результаты оказались не очень хорошими. Намерение состояло в том, чтобы Тэй имитировала языковые модели женщины-миллениала, используя понимание естественного языка (NLU) и адаптивные алгоритмы в эксперименте, чтобы узнать больше о «разговорном понимании» и дизайне ИИ.

Всего через 16 часов Тэй была удалена из Интернета после того, как ее веселый обмен мнениями превратился в смесь оскорблений — от сексизма до расизма. Что так быстро пошло не так? Изначально невинный Тэй был «испорчен» твиттер-троллями — злонамеренными людьми, которые намеренно создают проблемы в сети, заводя споры и разжигая неприязнь. Зная, что ИИ «умен» настолько, насколько «умны» данные, которые он получает, эти тролли начали учить Тэя неправильным вещам.

Несмотря на возмущение СМИ, реальность такова, что ИИ сработал. Он слушал, учился и приспосабливался; его ответы были пугающе человеческими. Проблема заключалась в том, что на набор данных повлиял коварный источник — интернет-тролли.

Все сводится к необходимости создать прочную и надежную стратегию данных. Для нас это означает совместную работу с местными экспертами в соответствующих отраслях и вариантах использования, которые обладают соответствующими знаниями и опытом. Например, объединение с NTT Data для эффективных усилий по оказанию помощи при стихийных бедствиях в Японии.

Обучение алгоритму

Модель машинного обучения может быть контролируемой, неконтролируемой или полуконтролируемой; ключевое различие между ними заключается в применении обучающих данных, также известных как помеченные данные. При обучении с учителем для обучения алгоритма используются помеченные данные. По сути, обучающие данные структурированы так, чтобы дать указание алгоритму узнать конкретный ответ (выход) из конкретных данных (вход).

Неконтролируемое обучение тренирует алгоритм с данными, которые не классифицированы и не помечены, что, по сути, позволяет алгоритму делать выводы и идентифицировать основную структуру или шаблон набора данных. В этом случае нет «правильного» ответа — или вывода — чтобы дать его, потому что он неизвестен.

Промежуточным звеном между ними является полууправляемая система машинного обучения, которая объединяет их. В Citibeats мы разрабатываем собственные алгоритмы для каждого контекста. Мы делаем это стратегически в качестве защиты от присущей алгоритму предвзятости.

При использовании нами полууправляемых систем машинного обучения предоставляется огромное количество данных, причем большая часть из них немаркирована, а часть помечена. Преимущества этой системы типов заключаются в том, что получение помеченных данных требует много времени и труда. , в то время как немаркированные данные недороги и их можно быстро собрать. При решении многих социально значимых проблем скорость имеет решающее значение, поэтому частично неконтролируемая система имеет явное преимущество. Но наличие уровня надзора — человека, который контролирует ввод до того, как будет выполнен вывод, — помогает контролировать неточность и предвзятость.

Интерпретация результатов

Даже при наличии правильных данных из надежных источников и высокопроизводительных алгоритмов на этапе интерпретации результатов все может пойти не так.

Это может произойти, потому что:

клиент не обучен или не приучен к навигации по данным
данные недостаточно четко структурированы, чтобы обеспечить конкретную и полезную информацию

Вот почему мы фокусируемся на сотрудничестве с партнерами высшего уровня, которые помогают направлять процесс и демистифицировать путь клиента. Мы предоставляем API, который обрабатывает структурированные необработанные данные, оповещения, панель мониторинга в реальном времени и отчеты для наших партнеров, которые, в свою очередь, работают с клиентом над созданием модели, которая даст наиболее точные и полезные результаты для рассматриваемой проблемы.

Примером может служить FSD и Кения, где технология Citibeats была внедрена для обработки сотен тысяч жалоб клиентов в течение 2018 года, генерируя регулярные оповещения о качестве решаемых проблем, таких как мошенничество, мошенничество и замороженные учетные записи. Благодаря эффективному и прямолинейному стилю отчетности и анализа FSD подтвердила, что 85% этих предупреждений были достаточно качественными, чтобы оправдать расследование, что сократило время их реакции на 45 дней.

Другой пример — наше сотрудничество с правительством Наварры, Испания, в области обнаружения языка ненависти. Наша технология искусственного интеллекта и система обнаружения предоставили контекст о том, где, кто (посредством агрегированного профилирования) и что было сказано против уязвимых сообществ. Информация и идеи, извлеченные из этих данных, использовались непосредственно для изменения бюджетов и политики образования, которые помогают смягчить и противодействовать последствиям этого разжигания ненависти.

Это люди или искусственный интеллект принимают неправильные решения?

Когда мы считаем, что алгоритмы, машинное обучение и ИИ оказывают прямое и существенное влияние на решения правительств, тем самым затрагивая миллионы граждан, мы понимаем, что нам нужно уделить много внимания и внимания областям, в которых что-то может пойти не так.

У нас есть множество примеров того, как правительства принимают неверные решения по разным причинам. И хотя мы не можем полагаться исключительно на ИИ и машинное обучение, мы можем устранить подводные камни и знать об ограничениях. Только тогда мы сможем максимизировать хорошее, свести к минимуму плохое и искоренить безобразное.

Мы в Citibeats планируем продолжать развиваться, учиться и совершенствоваться таким образом, чтобы лучше направлять процесс принятия решений в правильном направлении. Мы не будем ограничиваться рассмотрением вопросов этики и рисковтолько с точки зрения технологий — мы должны расширить круг участников, чтобы включить в него других игроков, таких как партнеры, клиенты и данные.