Размышления об алгоритмах и интеллектуальном анализе данных

Тот, кто живет в современном обществе, признает этот факт: большие данные стали повсеместными. От общения до развлечений, от академических исследований до развития бизнеса всегда есть какие-то базы данных, которые работают за кулисами, и какие-то алгоритмы, которые работают с ними для получения так называемых «оптимальных» результатов. Люди, которым нравится такой мир данных, обычно имеют следующую ментальную модель: люди предвзяты и сентиментальны, и они не могут принимать во внимание бесчисленные соображения при принятии решений. А вот с компьютером все наоборот. У него нет эмоций, и он может мгновенно вычислять множество данных одновременно, чтобы получить наиболее точный результат. Так что же не так с миром, полным рациональности и законности? Что ж, так ли уж верен этот умонастроение?

В статье Кэти О’Нил Оружие математического разрушения она написала следующее:

Математика не только глубоко запуталась в мировых проблемах, но и подпитывала многие из них.

Когда люди думают о вычислительных алгоритмах, они часто упускают из виду одну вещь: результаты нельзя получить, просто собирая огромные объемы данных. Данные должны быть обработаны математическими правилами. И эти правила разработаны и применяются склонными к ошибкам и предубежденными людьми. Поэтому, когда в правилах есть недостатки и предубеждения, результаты уже нельзя назвать «оптимальными». Но проблема в том, что несовершенство алгоритмов вряд ли можно обнаружить за короткое время. Основные проблемы всплывут на поверхность лишь очень поздно. Это опять-таки связано с тем, что люди считают, что результат, основанный на данных, заслуживает доверия; они просто не ставят под сомнение законность системы.

В своей статье Кэти упомянула множество примеров, посвященных этой проблеме. В истории уважаемого учителя, уволенного из-за низкого балла в инструменте оценки учителей, корреляция между оценками ученика и успеваемостью учителя может быть не всегда верной, но компьютер не учитывает уникальные случаи. И когда он выдает ошибочные прогнозы, он не знает и не учится на своих ошибках, потому что в алгоритмах вообще нет этого участка. Кроме того, компьютер будет использовать эти результаты как новые наборы данных и продолжать процесс, чтобы совершать еще больше ошибок, еще больше отклоняясь от реальности.

До сих пор мы говорили о том, как ошибочная система, управляемая алгоритмами, может создавать нереальную реальность и как в результате люди могут плохо обращаться с ними. Но с точки зрения создателя, по крайней мере, их намерение хорошее. Что произойдет, если сами создатели захотят навязать пользователям сконструированную реальность и попытаются изменить их восприятие и поведение с несовпадающими интересами и даже обманными намерениями?

Мой недавний опыт работы с календарем Google может стать началом этой дискуссии. Я забронировал отель для отпуска несколько месяцев назад, и однажды мне неожиданно пришло уведомление из моего гугл-календаря, напоминающее мне идти в отель. Я был буквально шокирован этим, потому что я не давал никакого разрешения Google на это. Система автоматически извлекла всю информацию из содержимого моей электронной почты и отметила ее в моем календаре. Это означает, что существует недоступная мне база данных, в которой хранится вся информация, включая мое местоположение, деятельность, контакты и т. д. Кто знает, какая еще информация содержится в системе! Это был первый раз, когда я почувствовал себя неуверенно при использовании продуктов Google; моя личная жизнь была серьезно нарушена.

С тех пор я начал понимать, что сборщики данных и создатели алгоритмов делают слишком много предположений. Они думают, что всем людям нравится делиться друг с другом информацией, видеть только то, что им интересно, и подключаться к каждому устройству в пределах их близости. Интернет-реклама предполагает, что вы любите видеоигры, даже если вы купили их только один раз, а мигающие изображения постоянно привлекают вас супер отполированными картинками и выгодными предложениями; Эли Паризер рассказал нам на TED Talk, что Facebook будет скрывать все посты его консервативных друзей в ленте только потому, что он чаще нажимает на ссылки своих либеральных друзей, которые могут даже не иметь отношения к политическому контенту. В статье Мы убиваем людей на основе метаданных Девиа Коул рассказала нам, что даже Агентство национальной безопасности считает, что сбор метаданных — это нормально, а их угроза конфиденциальности незначительна. Но это еще одно огромное предположение, сделанное создателями правил. АНБ заявило, что система хранит записи всех звонков, но не контент. Так что, если вы звоните своей маме, которая звонит доставщику, который звонит торговцу наркотиками, который является главным подозреваемым в теракте, люди из АНБ будут думать, что вы связаны с террористом, и вы будете внесены в список подозреваемых. для дальнейшего расследования. Как это странно?!

В настоящее время компании и учреждения все чаще используют данные и алгоритмы для постоянного определения того, кем является каждый человек, и пытаются формировать жизнь каждого человека на основе их цифровой модели. По мере того как люди бессознательно подвергаются воздействию этой модели, рассматривая мир и самих себя через призму этой проблематичной системы, они постепенно превращаются в человека, который был далек от их первоначального видения. Точно так же, как Эли Паризер сказал в своем выступлении: «Идет эта эпическая борьба между нашими будущими устремленными я и нашими более импульсивными настоящими я».

Поскольку системы, управляемые данными, играют все более важную роль в нашей повседневной жизни, нам действительно нужно задуматься о несовершенной природе системы. С одной стороны, есть творцы, которые накладывают на людей сконструированную реальность, исходя из личных интересов, и дают на это полное разрешение машине. С другой стороны, каждая система сама определяет свою собственную реальность с беспрецедентной эффективностью и масштабом и использует ее для обоснования результатов, которые она производит. Сколько людей могут быть введены в заблуждение или подвергнуты жестокому обращению этими двумя несовершенными слоями? Сколько социальных проблем возникнет?

Самая неотложная задача сейчас — потребовать от создателей систем чувства этики и гражданской ответственности, а также четкого понимания того, какую нездоровую реальность они и их системы создают. Конфликты, разнообразие и эмоции не должны быть сметены компьютерными алгоритмами, и каждый, кто использует систему, должен знать о порочной природе обработки данных. Только постоянно размышляя над вопросом «чья это реальность?», мы можем найти правильное отношение к данным и алгоритмам и более осознанно использовать их для формирования лучшего мира.