Алгоритмическая модификация поведения крупными технологиями наносит ущерб академическим исследованиям в области науки о данных

Мнение

Алгоритмическая модификация поведения крупными технологиями наносит ущерб академическим исследованиям в области науки о данных

Как основные платформы используют технологии убеждения, чтобы манипулировать нашим поведением и все больше подавлять социально значимые академические исследования в области науки о данных

В этом посте кратко изложена наша недавно опубликованная статья Препятствия академическим исследованиям в области науки о данных в новой области алгоритмической модификации поведения с помощью цифровых платформ в журнале Nature Machine Intelligence.

Разнообразное сообщество ученых, занимающихся наукой о данных, проводит прикладные и методологические исследования с использованием поведенческих больших данных (BBD). BBD — это большие и богатые наборы данных о человеческом и социальном поведении, действиях и взаимодействиях, генерируемые нашим повседневным использованием Интернета и платформ социальных сетей, мобильных приложений, гаджетов Интернета вещей (IoT) и многого другого.

Хотя отсутствие доступа к данным о поведении человека вызывает серьезную озабоченность, отсутствие данных о поведении машин также становится все более серьезным препятствием для прогресса в исследованиях в области науки о данных. Значимые и обобщающие исследования требуют доступа к данным о поведении человека и машин, а также доступа (или соответствующей информации) к алгоритмическим механизмам, причинно влияющим на поведение человека в масштабе. Тем не менее, такой доступ остается недоступным для большинства ученых, даже для тех, кто работает в престижных университетах.

Эти барьеры для доступа создают новые методологические, юридические, этические и практические проблемы и угрожают задушить ценный вклад в исследования в области науки о данных, государственной политики и регулирования в то время, когда основанное на фактах некоммерческое управление глобальным коллективным поведением срочно нужно.

Следующее поколение последовательно адаптивных технологий убеждения

Такие платформы, как Facebook, Instagram, YouTube и TikTok, представляют собой обширные цифровые архитектуры, ориентированные на систематический сбор, алгоритмическая обработка, оборот и монетизация пользовательских данных. Платформы теперь реализуют управляемые данными, автономные, интерактивные и последовательно адаптивные алгоритмы, чтобы влиять на поведение человека в масштабе, что мы называем алгоритмической или модификацией поведения платформы (BMOD ).

Мы определяем алгоритмический BMOD как любое алгоритмическое действие, манипуляцию или вмешательство в работу цифровых платформ, направленное на изменение поведения пользователей. Двумя примерами являются алгоритмы на основе обработки естественного языка (NLP), используемые для предсказания текста и обучения с подкреплением. ». Оба используются для персонализации услуг и рекомендаций (вспомните Фейсбуковскую новостную ленту), повышения вовлеченности пользователей, создания большего количества поведенческих данных обратной связи и даже зацепления пользователей путем формирования долгосрочных привычек.

В контексте медицины, терапии и общественного здравоохранения BMOD представляет собой наблюдаемое и воспроизводимое вмешательство, предназначенное для изменения поведения человека с явного согласия участников. Тем не менее, платформенные методы BMOD становятся все более ненаблюдаемыми и невоспроизводимыми и выполняются без явного согласия пользователя.

Важно отметить, что даже когда платформа BMOD видна пользователю, например, в виде отображаемых рекомендаций, рекламы или автозаполнения текста, она, как правило, невидима для внешних исследователей. Ученые, имеющие доступ только к BBD человека и даже к машинному BBD (но не к платформенному механизму BMOD), фактически ограничены изучением интервенционного поведения на основе данных наблюдений. Это плохо для науки (данных).

Барьеры для обобщающих исследований в эпоху алгоритмических BMOD

Помимо увеличения риска ложных и пропущенных открытий, ответы на причинно-следственные вопросы становятся почти невозможными из-за алгоритмического смешения. Ученые, проводящие эксперименты на платформе, должны попытаться реконструировать черный ящик платформы, чтобы отделить причинно-следственные связи автоматизированных вмешательств платформы (т. е. A/B-тестов, многоруких бандитов и обучения с подкреплением) от их собственный. Эта часто невыполнимая задача означает угадывание влияния платформы BMOD на наблюдаемые эффекты лечения, используя любую скудную информацию, опубликованную платформой в своих внутренних экспериментальных системах.

Академические исследователи теперь также все чаще полагаются на партизанскую тактику с использованием ботов и фиктивных учетных записей пользователей для исследования внутренней работы алгоритмов платформы, что может подвергнуть их юридической опасности. Но даже знание алгоритма (алгоритмов) платформы не гарантирует понимания его результирующего поведения при развертывании на платформах с миллионами пользователей и элементов контента.

На рис. 1 показаны препятствия, с которыми сталкиваются академические специалисты по данным. Ученые-исследователи обычно имеют доступ только к общедоступной пользовательской BBD (например, делиться, лайкать, публиковать), в то время как скрытой пользовательской BBD (например, посещения веб-страниц, щелчки мышью, платежи, посещения местоположения, запросы на добавление в друзья), машинный BBD (например, отображаемые уведомления, напоминания, новости, реклама) и поведение, представляющее интерес(например, количество кликов, время задержки), как правило, неизвестно или недоступно.

Новые вызовы, стоящие перед академическими исследователями данных

Растущий разрыв между корпоративными платформами и академическими учеными данных угрожает задушить научное исследование последствий долгосрочного BMOD платформы для людей и общества. Нам срочно необходимо лучше понять роль платформы BMOD в обеспечении психологических манипуляций, зависимости и политической поляризации. Вдобавок к этому, ученые теперь сталкиваются с рядом других проблем:

Более сложные этические проверки Члены университетского институционального наблюдательного совета (IRB) могут не понимать сложности автономных экспериментальных систем, используемых платформами.
Новые стандарты публикации Растущее число журналов и конференций требует подтверждения эффективности развертывания, а также этических заявлений о потенциальном воздействии на пользователей и общество.
Меньше воспроизводимых исследований Исследования с использованием данных BMOD, проведенные исследователями платформы или с академическими сотрудниками, не могут быть воспроизведены научным сообществом.
Корпоративная проверка результатов исследований Исследовательские советы платформы могут запретить публикацию исследований, критикующих интересы платформы и акционеров.

Академическая изоляция + алгоритмический BMOD = фрагментированное общество?

Не следует недооценивать социальные последствия академической изоляции. Алгоритмический BMOD работает незаметно и может быть развернут без внешнего надзора, усиливая эпистемическую фрагментацию граждан и внешних специалистов по данным. Незнание того, что видят и делают другие пользователи платформы, снижает возможности для плодотворного публичного обсуждения целей и функций цифровых платформ в обществе.

Если мы хотим эффективной государственной политики, нам нужны беспристрастные и надежные научные знания о том, что люди видят и делают на платформах, и как на них влияет алгоритмический BMOD.

Наше общее благо требует прозрачности платформы и доступа

Бывший специалист по данным Facebook и разоблачитель Фрэнсис Хауген подчеркивает важность прозрачности и доступа независимых исследователей к платформам. В своих недавних показаниях в Сенате США она пишет:

….Никто не может понять деструктивный выбор Facebook лучше, чем Facebook, потому что только Facebook может заглянуть под капот. Важнейшей отправной точкой для эффективного регулирования является прозрачность: полный доступ к данным для исследований, не направляемых Facebook… Пока Facebook работает в тени, скрывая свои исследования от общественного контроля, он не подотчетен… Оставшись один, Facebook будет продолжать делать выбор, который идет вразрез с общим благом, нашим общим благом.

Мы поддерживаем призыв Хаугена к большей прозрачности платформы и доступу.

Потенциальные последствия академической изоляции для научных исследований

Подробности смотрите в нашей бумаге.

Неэтичное исследование проводится, но не публикуется
Больше не рецензируемых публикаций, например, arXiv
Несогласованные темы исследований и подходы к науке о данных
Охлаждающий эффект на научные знания и исследования
Трудности в поддержке исследовательских заявлений
Проблемы в обучении новых исследователей данных
Впустую потраченные государственные средства на исследования
Неверно направленные исследовательские усилия и незначительные публикации
Больше исследований, основанных на наблюдениях, и исследований, ориентированных на платформы с более легким доступом к данным.
Репутационный вред в области науки о данных

Куда идет академическая наука о данных?

Роль академических специалистов по данным в этой новой сфере до сих пор неясна. Мы видим новые должности и обязанности для ученых, которые включают участие в независимых аудитах и сотрудничество с регулирующими органами для надзора за BMOD платформы, разработку новых методологий для оценки воздействия BMOD и проведение публичных дискуссий как в популярных СМИ, так и в академических изданиях.

Для преодоления существующих барьеров может потребоваться выход за рамки традиционных академических методов обработки данных, но коллективные научные и социальные издержки академической изоляции в эпоху алгоритмического BMOD просто слишком велики, чтобы их игнорировать.

Алгоритмическая модификация поведения крупными технологиями наносит ущерб академическим исследованиям в области науки о данных

Мнение