Держите человека в курсе, чтобы обеспечить контекст данных

За последние несколько лет возможности автоматизации, ориентированной на данные, продемонстрировали невероятную скорость — от роботизированной автоматизации процессов до компьютерного зрения и AutoML. Все эти технологии значительно повысили производительность в различных отраслях за счет сокращения объема ручного труда, необходимого людям для выполнения задач. Однако по мере совершенствования этих технологий люди все дальше и дальше уходят от реальных процессов, которые эти решения призваны заменить. Увеличение этого расстояния угрожает подорвать потенциальную выгоду, которую обеспечивает автоматизация; машина, которая не может рассуждать или чувствовать, создает непреднамеренные последствия, закрепляя дискриминационные предубеждения в данных, а также увеличивая количество необъяснимых результатов (эффект «черного ящика»), которые она производит. Невероятно важно создавать технологии, которые поддерживают «человека в курсе», чтобы гарантировать, что эти последствия не станут повсеместными.

Ценные алгоритмы

Эта современная тенденция в автоматизации — это не просто проблема абстракции, когда инструменты создают более красивый или простой в использовании интерфейс поверх того, что обычно представляет собой скриптовый код. Программное обеспечение всегда развивалось с течением времени, чтобы упростить объем усилий, необходимых для его создания. Очень редко разработчики создают свои собственные компиляторы.

Но сегодня многие программные инструменты выходят за рамки синергии интерфейсной и серверной архитектуры; все чаще приложениям требуются данные, сгенерированные откуда-то (от отдельного пользователя, всей пользовательской базы или другой системы) в качестве критического компонента для предоставления ценности в программном приложении. Алгоритмы созданы для того, чтобы анализировать миллионы полученных точек данных и продвигать личную прогностическую ценность, чтобы гарантировать, что потребитель информации сочтет ее полезной. Эти алгоритмы невероятно сложны в построении, но при правильном выполнении могут быть сродни волшебству, если представить их неопытному глазу.

Неудивительно, что так много корпораций стремятся расширить возможности машинного обучения в ближайшие несколько лет. Возможность нацеливания на отдельных потребителей персонализированной ценности, создаваемой автоматически без вмешательства человека, может изменить способ ведения бизнеса компаниями. Истории о компаниях, которые утроили свои доходы, давая правильные рекомендации в нужное время, или о врачах, способных заранее помочь пациентам, у которых могут быть определенные клинические риски, кажутся триумфом технологий и взглядом в будущее. Люди, наконец, могут использовать математику и инструменты, чтобы заранее предсказывать действия в масштабе, а не реагировать по одному за раз.

Эти прогнозы возможны только благодаря массивным наборам данных, которые наши приложения генерируют каждую секунду дня. Алгоритмы, как правило, становятся более предсказуемыми с большим количеством данных, лежащих в основе их логики, и все, от нашей истории транзакций по кредитным картам до наших медицинских карт, до наших касаний и прокрутки смартфона, может использоваться для создания еще больших наборов данных для управления этими моделями.

Несомненно, сложность этих алгоритмов может создать невероятную ценность для общества, если их правильно использовать. При нынешнем уровне развития методов машинного обучения можно утверждать, что специалисты по данным, создающие эти модели, способны (в основном) сбалансировать силу прогнозирования с потенциальными последствиями конфиденциальности и дискриминации, связанными с использованием персональных данных для подпитки этих прогнозов.

Дискриминационные последствия

Тем не менее существует множество примеров организаций, которые не учитывают дискриминационные предубеждения. В 2019 году Goldman Sachs оказался в горячей воде из-за дискриминации женщин, подающих заявки на кредитные карты, как в процессе утверждения, так и в отношении суммы полученного кредита. Страховые компании десятилетиями использовали данные для оценки рисков, и недавние исследования показали, что люди, живущие в районах, населенных преимущественно меньшинствами, платят за автострахование больше, чем те, кто живет в белых кварталах, несмотря на то, что общий уровень риска одинаков. .

Оба этих примера показывают возможность, которая существует, когда дискриминация осознанно или неосознанно вводится в наборы данных, которые якобы предназначены для предоставления беспристрастной рекомендации по продукту или услуге. Проблема с этими алгоритмическими моделями двоякая: они не только дают дискриминационные рекомендации, но и являются определением черного ящика — мы, люди, не обязательно понимаем, почему они вообще дают эти ошибочные рекомендации.

Комбинированные эффекты

Алгоритмы по определению используют имеющиеся в их распоряжении данные для генерации ответов. Лучшие ответы могут быть получены с большим объемом данных (например, информация о транзакциях в сочетании с данными об использовании смартфона) или с большей глубиной данных (например, двадцать лет истории платежей по кредитным картам). Худшие ответы возникают при использовании грязных данных, или, как это часто называют: мусор на входе, мусор на выходе. Доведение данных до определенного уровня чистоты требует значительного объема работы — по некоторым оценкам задачи очистки занимают 80% времени работы с данными.

Работа по очистке данных, как правило, довольно ручная по своему характеру — это поиск правильных наборов данных для использования и объединения, прочесывание строк и столбцов, чтобы найти ошибки, которые нужно исправить, и написание сценариев или формул Excel для противодействия проблемам. Объем квалифицированного человеческого вмешательства, необходимого для последовательного выполнения этой работы, значителен, и реальность такова, что это не очень гламурная работа, особенно для специализированных рабочих, которые ее выполняют. Но поскольку это 80% работы с данными, кто-то должен это делать.

Именно в этом процессе могут просочиться потенциальные проблемы с дискриминационными предубеждениями — хорошо разбирающийся аналитик данных может понять, что создание набора данных для прогностической модели, которая включает столбец данных для пола, расы или дохода (или, возможно, всех трех) , может привести к тому, что алгоритм сочтет расу или пол наиболее вероятным предиктором высокого страхового взноса на автомобиль. Люди, которые создают и очищают набор данных, могут понять, что эта методология и результат могут создать серьезные социальные проблемы, потому что именно им приходится жить в мире, где эти дискриминационные рекомендации приводят к неравным и несправедливым результатам.

Таким образом, аналитик данных может опустить эти столбцы, что снизит вероятность того, что алгоритм создаст дискриминационный результат, основанный в первую очередь на демографических данных. Но сможет ли машина опустить эти столбцы?

AutoML, Канарейка в угольной шахте

Реакцией рынка на уровень сложности, необходимый для машинного обучения, стала его максимальная автоматизация. Сделайте это как можно проще! Добавьте набор данных, и мы автоматически очистим его и подготовим для одного из нескольких десятков или около того алгоритмов, которые могут дать вам нужный прогноз! Выглядит довольно мило — иметь возможность вводить данные и получать прогноз, скажем, с вероятностью 75%.

Но что входит в этот процесс? Это классический пример эффекта черного ящика, приводящего к непреднамеренному результату — мы понятия не имеем, какие шаги происходят за кулисами. Удаляет ли сценарий процесса очистки все строки в данных опроса, в которых респондент отказался указывать свою расу (пустые значения потенциально могут исказить результаты)? Удаляет ли скрипт законно высокие результаты медицинских тестов, потому что остальные результаты тестов в целом были ниже среднего? Если вы не знаете ответов на эти вопросы, можете ли вы доверять полученному результату? Если результат алгоритма является дискриминационным, достаточно ли защищать его, говоря, что вы не знаете всех факторов, повлиявших на результат?

Этот пример AutoML — загадка, с которой мы сталкиваемся при чрезмерной автоматизации. Первоначально люди создают наборы данных и обучают алгоритмы до такой степени, что автоматизация является достаточно близким приближением. Но когда мы пытаемся исключить шаги, созданные человеком, которые лежат в основе автоматизации, мы потенциально достигаем непредвиденных последствий. В то время как многие люди считают, что опасность автоматизации в целом состоит в том, что искусственный интеллект создает следующего Терминатора или какой-то другой маловероятный сценарий, опасность, вероятно, менее напыщенная, но не менее опасная: работа с данными была автоматизирована до такой степени, что никто даже не распознает как сгенерированные рекомендации больше содержат предубеждения, потому что мы стали настолько зависимы от машин, которые думают за нас.

Золотая середина

В центре внимания машинного обучения и более нечетко определяемого термина «искусственный интеллект» была замена человеческого труда. Возможно, вместо этого лучше создавать решения, которые расширяют, а не заменяют человеческие возможности в рамках работы с данными. Компьютеры пока еще не способны понимать контекст определенных типов данных — хотя может существовать бинарное понимание того, является ли определенная информация личной идентифицируемой информацией (PII) или нет, компьютер не понимает, почему эта информация считается ПИИ. Человек должен сделать это определение.

Следовательно, может быть выгодно определить места в структуре автоматизации, где люди могут принести наибольшую пользу благодаря своим суждениям и пониманию, даже если работа выполняется сценариями и алгоритмами. Мы уже выполняем большую часть этой работы «человек в курсе», даже в контексте машинного обучения. Человек в цикле может больше походить на автопилота в самолете, чем на беспилотный автомобиль, где есть определенные части работы с данными, которые можно однозначно определить, что они не приведут к предвзятости (например, удаление пробелов вокруг текста) и другие это могущество, и именно здесь вмешается человек.

Дискуссия о том, что уместно и как улучшать технологию, безусловно, будет развиваться по мере того, как у нас будут появляться все более и более совершенные инструменты для работы с информацией. В то же время важно не колебаться в ту или иную сторону бессистемно — нам не нужно вручную вносить изменения в каждую ячейку в Excel или передавать нашу работу в AutoML.

Phiona — это расширенная платформа управления данными, которая позволяет пользователям, не являющимся техническими специалистами, сделать работу с данными менее трудоемкой: наша технология отмечает области, в которых может потребоваться очистка и стандартизация, — экономя часы времени, просматривая данные вручную, не жертвуя контролем над процессом подготовки данных. Вы можете увидеть больше на https://phiona.com.

Первоначально опубликовано на https://phiona.com 25 марта 2020 г.