Проблемы алгоритмов работы с большими персональными данными

Введение.

Обработка больших данных — тривиальный этап цикла управления большими данными. Это связано с тем, что к этому моменту структурированные, полуструктурированные и неструктурированные данные будут обработаны и готовы к дальнейшему анализу (Kumar, et al., 2017). Затем используются категоризация, сопоставление, обобщение, расширенные функции и алгоритмы для получения удобоваримых данных для визуализации и принятия решений. Обработанные и проанализированные наборы данных затем можно использовать для обработки бизнес-аналитики с помощью интерактивных интерфейсных приложений, таких как информационные панели, специальные запросы и электронные таблицы (Чаудхури и др., 2011).

Из-за объема и скорости больших данных (Peterson & McDonagh, 2018) для их обработки используются аналитические инструменты, поддерживаемые машинным обучением и искусственным интеллектом (Peterson & McDonagh, 2018). Эти инструменты обеспечивают быстрое выявление небольших связанных шаблонов для выявления новых идей. Согласно Смиту (2018), определение алгоритмов значительно эволюционировало за эти годы от небольших и простых правил, которые автоматизировали обработку фрагментов данных, до больших и сложных систем принятия решений, состоящих из массивов данных с несколькими различными наборами правил. С другой стороны, машинное обучение используется для извлечения скрытых закономерностей в данных, чтобы делать прогнозы с минимальной зависимостью от человеческого фактора (Rathor & Gyanchandani, 2017). Согласно Rathor & Gyanchandani (2017), анализ данных машинного обучения противоположен обычному анализу данных, поскольку он процветает на больших и разнообразных и высокоскоростных объемах данных. Чем больше данных, тем больше знаний и идей можно получить. Таким образом, искусственный интеллект и машинное обучение дополняют большие данные (Peterson & McDonagh, 2018).

Большие персональные данные — что делает цифровой след.

Большие персональные данные получают из побочных продуктов человеческой деятельности, собранных при использовании цифровых услуг и устройств, таких как носимые устройства, которые собирают различные типы данных, таких как аудио, текст, фотографии, местоположение, интересы, физиологические характеристики и фотографии (Peterson & McDonagh, 2018). . Чтобы добавить к крохам личных данных и данным о следах, Интернет постоянно позволяет людям генерировать и распространять данные через каналы социальных сетей, группы новостей и блоги. Этот богатый набор данных содержит очень ценные личные данные как для частных компаний, так и для общественного блага (Peterson & McDonagh, 2018). Растущий объем данных также позволил создать защиту данных для управления использованием и конфиденциальностью личных данных (Peterson & McDonagh, 2018).

Большие данные используют искусственный интеллект для обработки и анализа данных для моделирования некоторых аспектов мира и, таким образом, для получения выводов, которые могут предвидеть и предсказывать будущие события на основе извлечения уроков из данных. Затем системы разумно реагируют на новые данные и постоянно адаптируют последующие результаты (Peterson & McDonagh, 2018) с помощью алгоритмов, которые из-за их непрозрачности создают эффект черного ящика (Peterson & McDonagh, 2018). На первый взгляд кажется, что алгоритмы смягчают предвзятость человека в процессе принятия решений, и именно поэтому компании, организации, правительства и частные лица прибегают к использованию алгоритмов, которые обеспечивают менее дорогостоящие, эффективные по времени, надежные и, как представляется, более справедливые результаты. Кван, 2018). Компании используют большие данные и алгоритмы, чтобы получить конкурентное преимущество за счет таких возможностей, как анализ в реальном времени, который сокращает задержку между полученными операционными данными и данными, доступными для анализа (Чаудхури и др., 2011).

Настроив алгоритмы для отслеживания продаж в режиме реального времени в различных магазинах в разных географических регионах США, Walmart смог почти мгновенно отметить, что в некоторых местах не было продаж нового печенья во время Хэллоуина. Затем они отправили уведомление отделам мерчандайзинга и менеджерам магазинов, которые быстро поняли, что не поставили печенье на полки, и поэтому они не зафиксировали никаких продаж по сравнению с другими магазинами (Marr, 2016). Netflix также использует рекомендательные алгоритмы, которые помогают управлять решениями о контенте и увеличивать общее количество часов, которое зрители тратят на их сервис — ключевой показатель, который они хотят улучшить (Marr, 2016). Хотя эти примеры проливают свет на использование больших данных, известно, что использование алгоритмов в больших данных имеет отрицательные последствия, такие как различное отношение к индивидуальным и групповым персональным данным на основе ценовой дискриминации (Peterson & McDonagh, 2018).

Алгоритмы могут быть субъективными, предвзятыми, сложными и неточными.

При анализе больших объемов данных извлекаются корреляции, которые открывают новые потенциальные способы использования больших персональных данных, и в некоторых случаях такое использование могло быть непредвиденным ранее (Peterson & McDonagh, 2018). Корреляции можно использовать, чтобы предложить возможное решение проблемы, новые способы целенаправленной деятельности, направленные на то, чтобы повлиять на поведение человека и принять обоснованные решения или упредить угрозы и риски (Peterson & McDonagh, 2018). Однако, когда статистически ориентированные исследования и статьи содержат меньше повторяющихся результатов из больших наборов данных (Талеб, 2013), предполагается, что любой может найти статистические взаимосвязи и атрибутивные отклонения в больших наборах данных. Согласно Paterson & McDonagh (2018), основное внимание уделяется типам корреляций, которые извлекаются из данных, а не их причинно-следственной связи, которые могут изменить предполагаемые алгоритмы объективности.

В то время как классические алгоритмы явны и основаны на правилах, алгоритмы, основанные на машинном обучении, рождаются в результате аудита и статистического анализа тысяч наборов данных в сфере принимаемых решений (Kwan, 2018). Поэтому, согласно Квану (2018), вполне вероятно, что машина может учиться и подражать человеческим предубеждениям, существующим в нашем обществе, и отражать их. Классическим примером этого является чат-бот Microsoft с машинным обучением, который имитировал и взаимодействовал с пользователями Twitter, как подросток (Kleeman, 2016). Его реплики для разговоров были взяты из всемирной паутины, и то, что начиналось как невинные твиты, быстро превратилось в расистские, сексистские и оскорбительные эпитеты, отражающие то, что обычно пишут в сети (Kleeman, 2016).

Сложность алгоритма — еще одна проблема, отмеченная Corder (2018). Это связано с тем, что программы часто переходят в код, который, в свою очередь, переходит в алгоритмы, которые, следовательно, запускают другие новые алгоритмы, и чем дальше они идут, тем дальше они простираются от человеческой деятельности (Smith, 2018). Со временем алгоритмы становятся слишком сложными, чтобы люди могли их полностью понять (Corder, 2018). Трагическая авария с водителем Toyota Camry, чье ускорение нельзя было объяснить, была связана с «спагетти-кодом», который был полон алгоритмов, которые противоречили логике и, таким образом, приводили к непредсказуемому исходу в виде аварии (Smith, 2018).

Устранение недостатков алгоритма.

Предвзятость алгоритма.

Чтобы уменьшить предвзятость в алгоритмах, компании собираются диверсифицировать команды разработчиков, чтобы они могли предоставить обычным пользователям возможность действовать в качестве сторожевых псов для любых дискриминационных признаков шаблона (Corder, 2018). Они сделали это, включив больше женщин и цветных людей в команды разработчиков, в надежде, что будет использоваться лучший выбор наборов данных и что сексистские или расистские тенденции можно будет обнаружить, как только они будут созданы. Хотя это решение помогает ввести более убедительный метод выбора метрик и иметь веские аргументы в пользу того, какие метрики следует недооценивать или переоценивать, и почему я считаю, что результаты алгоритма должны постоянно оцениваться и уточняться, чтобы выявлять следы предвзятости.

Переопределение неудачи и успеха алгоритма.

Должно быть четкое различие между назначением алгоритма, строгостью его тестирования, тем, что считается сбоем, и ожидаемым воздействием сбоя (Ali & Mancha, 2018). Это связано с тем, что часто алгоритм может эффективно функционировать на основе установленных правил, но может не обеспечивать желаемый или ожидаемый результат из-за скрытой предвзятости и сложности. Постоянно переоценивая определение провала и успеха алгоритма, легче обнаружить «неправильные» шаблоны, которые не следует воспроизводить. Смит (2018) также подчеркивает, что ожидаемые эффекты алгоритмов на микроуровне могут быть совершенно другими на уровне популяции, и это необходимо учитывать при проведении тестов для определения успеха и неудачи.

Управление сложностью алгоритма через прозрачность.

Очевидно, что сложности, связанные с алгоритмами, могут выходить за рамки интеллектуальных средств контроля (Smith, 2018). Это связано с предположением, что системы, работающие в соответствии с фиксированными правилами (детерминистскими), означают, что они могут быть предсказуемы и управляемы, что не соответствует действительности (Смит, 2018). Алгоритмы, даже если они считаются собственностью технологических компаний, должны быть достаточно прозрачными за счет четкого документирования и логической демонстрации, чтобы их функциональность была понятна (Ali & Mancha, 2018).

Этические алгоритмы и регулирование алгоритмов

Общий регламент Европейского союза по защите данных (GDPR) внес свой вклад в регулирование данных пользователей и конфиденциальности в Интернете, и есть надежда, что то же самое можно сделать и для алгоритмов (Ali & Mancha, 2018). Имитируя такие достижения и создавая общеотраслевые этические рамки алгоритмов, затрагивающие социальную предвзятость, антиконкурентность и справедливость, компании будут нести ответственность и должны будут самостоятельно регулировать свои собственные проприетарные алгоритмы (Ali & Mancha, 2018). Это может помочь обнаружить любые доказательства небрежности в отношении алгоритмов (Smith, 2018). С выбором приходит этика (Смит, 2018). Однако внедрение этики в алгоритмы может оказаться трудным, потому что может оказаться невозможным отследить и воссоздать конкретные решения, ранее принятые, учитывая сложность алгоритмов (Smith, 2018). Тем не менее, Кордер (2018) предлагает обучать алгоритмы быть этичными — различать данные, которые являются этически приемлемыми или нет, и удалять деструктивные элементы алгоритмов до того, как они актуализируются и могут причинить какой-либо вред.

Вывод.

Талеб (2013) упоминает, что основную проблему обработки больших данных можно сравнить с иголкой, которая попадает в стог сена, который становится все больше. Поскольку большие данные несут с собой слишком много переменных с очень небольшим количеством данных для каждой переменной, ложные отношения неизбежно возникают и имеют тенденцию расти быстрее, чем реальная информация. Из-за слишком большого количества данных нет четкого различия между реальной жизнью и библиотеками, и это позволяет легко неправильно интерпретировать сигналы при изучении истории с выгодной точки по сравнению с изучением настоящего.Он предлагает использовать большие данные, чтобы выделить то, что неправильно, а не то, что правильно. Неоднозначность в этом утверждении может означать, что большие данные можно использовать для выявления скрытых предубеждений и сложностей вместо использования больших данных для принятия решений и прогнозного моделирования. Различные цели данных должны влиять на тип ожидаемого результата от обработки больших данных с зорким взглядом, чтобы уловить любые сложности и предубеждения на начальных этапах анализа.

использованная литература

Али Х. и Манча Р., 2018 г. Попытки разобраться с опасными алгоритмами. [В сети]
Доступно по адресу: https://sloanreview.mit.edu/article/coming-to-grips-with-dangerous-algorithms/
[По состоянию на 9 марта 2019 г.] .

Чаудхури, С., Даял, У. и Нарасайя, В., 2011. Обзор технологии бизнес-аналитики. Сообщения ACM,54(8).

Кордер Д., 2018 г. Этические алгоритмы: как сделать машинное обучение моральным. [В сети]
Доступно по адресу: https://medium.com/qdivision/ethical-algorithms-how-to-make-moral-machine-learning-e686a8ad5793
[Доступ 9 март 2019].

Климан, С., 2016 г. Вот самые безумные расистские разглагольствования ботов Microsoft в Твиттере. [В сети]
Доступно по адресу: https://gizmodo.com/here-are-the-microsoft-twitter-bot-s-craziest-racist-ra-1766820160
[ По состоянию на 9 марта 2019 г.].

Кумар, С. С., Джасинта, М. М. и Сингх, А. П., 2017 г. Сравнительное исследование инструментов для анализа больших данных: аналитическое исследование. сл, сн

Кван, Н., 2018. Скрытые опасности алгоритмического принятия решений. [В сети]
Доступно по адресу: https://towardsdatascience.com/the-hidden-dangers-in-algorithmic-decision-making-27722d716a49
[По состоянию на 9 марта 2019 г.].

Марр Б., 2016 г. Большие данные на практике: как 45 успешных компаний использовали аналитику больших данных для достижения выдающихся результатов. с.л.:с.н.

Патерсон, М. и МакДонах, М., 2018 г. Защита данных в эпоху больших данных: проблемы, связанные с большими персональными данными,s.l.: s.n.

Ратор А. и Гьянчандани М., 2017 г. Обзор алгоритмов машинного обучения, предназначенных для решения задач, связанных с большими данными. сл, сн

Смит А., 2018. Алгоритмы Франкена: смертельные последствия непредсказуемого кода. [В сети]
Доступно по адресу: https://www.theguardian.com/technology/2018/aug/29/coding-algorithms-frankenalgos-program-danger
[Доступ 9 март 2019].

Талеб, Нью-Мексико, 2013 г. Wired: Остерегайтесь больших ошибок больших данных. [В сети]
Доступно по адресу: https://www.wired.com/2013/02/big-data-means-big-errors-people/
[По состоянию на 8 марта 2019].