Недавно я прочитал лекцию на тему «Цифровые технологии, данные и искусственный интеллект» для студентов MBA в Университете Маеджо (Таиланд) 1 июля 2023 года. После презентации я решил обобщить ключевые моменты для друзей, которые могут быть заинтересованы, но не мог присутствовать.

В этой презентации я попытался всесторонне охватить различные аспекты цифровых данных. Я разделил свою речь на 5 тем: (1) цифровые технологии и революция данных, (2) аналитика данных в теории, (3) аналитика данных на практике, (4) социальные последствия данных и (5) контакт человечества с искусственным интеллектом. . Теперь я продолжу делиться с вами подробностями.

И. Цифровые технологии и информационная революция

Шошана Зубофф — профессор Гарвардской школы бизнеса, и в основном она известна тайцам благодаря своей книге «В эпоху слежки за капитализмом», опубликованной в 2019 году. Однако ее самая важная книга, которая является ее первой, на самом деле «В Эпоха умных машин», опубликованная в 1989 году.

Эта значительная книга получила высокую оценку в области информационных систем. В нем говорится, что суть цифровой технологии, которая отличает ее от предыдущих эпох, заключается в способности технологии создавать данные («информировать»). Этот тип технологий запечатлел нашу реальность в виде данных и стал первым типом технологий, способных записывать свои собственные операции. Поэтому, поскольку цифровые технологии проникают во все аспекты нашего общества, это привело к созданию огромного количества данных.

Осмысление, то, как люди понимают мир, и действия, которые мы предпринимаем в мире, меняются в эпоху больших данных. В прошлом мы познавали мир с помощью наших пяти чувств. Но в эпоху больших данных наше понимание мира сводится к простому «чтению» информации, отображаемой на цифровых экранах. Точно так же мы взаимодействуем с различными аспектами нашего мира через данные, которые появляются на цифровых экранах. Вместо телесных действий мы теперь полагаемся на мышление, чтобы прожить свою жизнь.

В последнее время я заметил, что многие тайские мыслители говорят, что в наше время знания быстро устаревают. Впрочем, не обязательно даже знания о технологии, которая быстро меняется. Исследования по технологиям тоже могут храниться долго и могут оказаться классическими, как книга Шошаны Зубофф. Хотя она была написана еще в 1989 году, ее выводы о цифровых технологиях остаются актуальными даже в нынешнюю эпоху.

Наша компьютерная эра началась с больших мейнфреймов, используемых в различных крупных организациях. Мейнфрейм был впервые изобретен компанией IBM в 1944 году. После этого компьютеры постепенно становились меньше. Мы видели, как изобретение персональных компьютеров распространилось на каждый рабочий стол и в дом. Мы были свидетелями того, как ноутбуки использовались повсюду.

Мы видели, как различные объекты вокруг нас оцифровывались. Например, у нас есть iPhone и Android для мобильных телефонов, Apple Watch для часов, Kindles для книг и Tesla для автомобилей. В будущем больше продуктов будет оцифровано. Некоторые даже предположили, что любой продукт станет цифровым лишь вопросом времени. Наша повседневная деятельность все больше переплетается с цифровыми объектами, и огромное количество цифровых данных собирается из нашей повседневной жизни посредством проникновения цифровых технологий в общество.

«Каждый продукт — это (цифровая) платформа, ожидающая своего появления»

Амит Тивана, Платформенные экосистемы

По мере того, как цифровые технологии проникают во все аспекты жизни нашего общества, создаются два типа данных. Первый тип называется структурированными данными, то есть данными в виде таблиц. Создание этого типа данных сильно зависит от классификации, потому что нам нужно классифицировать, прежде чем мы сможем считать. Нам нужно знать, что мы измеряем, как мы это измеряем и что означает каждое число. Это означает, что числа не находятся естественным образом, а создаются. Следовательно, числам присуща предвзятость, потому что нам приходится принимать решения о том, как измерять различные вещи, и эти решения не являются нейтральными.

«Одна из самых важных вещей, которые нужно знать о данных, это то, что они не являются природными веществами. В дикой природе их нет. Данные созданы. Они служат репрезентациями какой-то вещи или какого-то процесса. Это означает, что на самом базовом уровне они по своей сути субъективны».

Пол Леонарди и Цедал Нили, «Цифровое мышление»

Например, Netflix разделяет зрителей на своей платформе на три типа. Первый тип — Starters, домохозяйки, которые смотрят фильмы всего 2 минуты. Второй тип — Watchers, домохозяйства, которые смотрят фильмы до 70%. Третий тип — Полные, домохозяйства, которые смотрят фильмы до 90%. Эти цифры имеют значение для реального мира, потому что Netflix использует их, чтобы решить, какие сиквелы фильмов снимать. Однако важно отметить, что классификации, основанные на 2 минутах, 70% и 90%, являются произвольными и могли быть другими. Это отражает присущую процессу классификации предвзятость. Как упоминалось ранее, данные не находятся, а создаются, и такое создание имеет реальные последствия.

При использовании чисел нам необходимо понимать контекст, в котором они созданы. Джеффри С. Боукер и Сьюзен Ли Стар написали важную книгу под названием «Разбирая вещи» в 1999 году. В этой книге они проанализировали классификацию как информационную инфраструктуру и использовали Международную классификацию болезней (МКБ) в качестве примера. Когда есть смерть и причина смерти должна быть записана в свидетельстве о смерти, и это должно быть передано в МКБ. МКБ считается информационной инфраструктурой, поскольку она позволяет странам получать данные о различных заболеваниях в соответствии со стандартной классификацией и позволяет проводить сравнения во времени.

Когда мы используем числа, мы должны понимать контекст, в котором они созданы. Например, было обнаружено, что смертность от сердечных заболеваний в Японии относительно низка, и это наблюдение было связано с диетическими привычками японцев. Однако Боукер и Стар (1999) утверждают, что основные причины могут различаться, поскольку японцы рассматривают сердечные заболевания как болезнь физического происхождения, на которую следует смотреть свысока. В большинстве случаев семьи людей, умерших от болезни сердца, не хотят, чтобы их родственники были классифицированы как умершие от болезни сердца в свидетельствах о смерти. Вместо этого они предпочитают классифицировать смерти, вызванные заболеваниями, связанными с мозгом (инсульты), потому что использование мозга считается более высоким по статусу в Японии.

Поэтому понимание контекста классификации, которая генерирует данные, имеет решающее значение для точного использования данных. Кроме того, нам необходимо понимать, что включено или исключено из данных, которые мы используем. Например, ВВП, который обычно используется для измерения производства в экономике каждой страны, не включает такие факторы, как счастье или ухудшение состояния окружающей среды.

Помимо структурированных данных, существует еще один тип данных, называемый неструктурированными данными, который отличается от структурированных данных тем, что не представлен в виде таблицы. Вместо этого это может быть текст, изображения, аудио или видео. Когда мы пишем программы на компьютерах, используя Python или R, компьютер преобразует то, что мы пишем, в машинный язык или в последовательность нулей и единиц, что представляет собой очень сложный шаблон и называется двоичным. Тем не менее, компьютерная система может понимать этот язык.

В прошлом неструктурированные данные были тесно связаны с отдельными аналоговыми средствами записи. Например, текст может быть записан на бумаге, изображения — на фотопленке, звук — на кассетах, а видео — на видеокассетах. Однако при оцифровке неструктурированных данных все типы данных, будь то текст, изображения, аудио или видео, преобразуются, чтобы иметь общий знаменатель, который является двоичным. Таким образом, происходит конвергенция различных типов неструктурированных данных, которые теперь можно запускать только на одном цифровом устройстве.

В то время как структурированные данные обычно хранятся в табличной форме, неструктурированные данные могут храниться в форме тензоров, которые имеют больше измерений, чем структурированные данные (многомерные данные). Например, черно-белые изображения могут быть сохранены в 2D-тензоре, а цветные изображения могут быть сохранены в 3D-тензоре с несколькими 2D-тензорами, наложенными друг на друга для различной интенсивности цвета. Видео может храниться в виде 4D-тензора или объединения различных 3D-тензоров изображений.

Объединение различных типов данных в единую цифровую инфраструктуру приводит к значительному количеству инноваций. В отличие от предыдущих инфраструктур, таких как транспортные системы, системы водоснабжения или системы электропроводки, инфраструктура предыдущей эпохи не генерировала столько инноваций, сколько цифровая инфраструктура.

Конвергенция различных типов данных в цифровую инфраструктуру очень способствует инновациям, поскольку их можно повторно смешивать и реорганизовывать в новые виды продуктов и услуг. Джонатан Зиттрейн написал важную книгу под названием «Будущее Интернета и как его остановить» в 2008 году и предположил, что сущностью цифровой инфраструктуры, такой как Интернет, является генеративность, которая относится к способности системы создавать непроизвольные изменения с участием участников. нефильтрованная разнообразная аудитория.

Когда я готовился к получению докторской степени в области информационных систем в Лондонской школе экономики, у меня была возможность учиться у профессора Янниса Каллиникоса, автора важной книги под названием «Последствия информации» в 2007 году. Профессор Яннис заявил, что новая цифровая информация постоянно создается из существующей цифровой информации, что приводит к самореферентной динамике роста информации. Это привело к тому, что огромные объемы цифровых данных, как структурированных, так и неструктурированных, распределены по существующей цифровой инфраструктуре и быстро увеличиваются с каждым днем.

Объем цифровых данных быстро растет: по оценкам, в 2020 году объем цифровых данных составит 40 зеттабайт (ZB), что является невероятно большим объемом. Просто чтобы дать вам представление, 1 Зеттабайт эквивалентен 1 миллиарду Терабайт. По мере увеличения объема данных ценность специалистов по данным, которые являются аналитиками данных, также значительно возросла. Фактически, Harvard Business Review заявил, что «Ученый по данным: самая сексуальная работа 21-го века». Далее я объясню, как теоретические и практические аспекты анализа данных могут применяться в организациях.

II. Анализ данных в теории

История данных

Аналитику данных иногда можно сделать просто, и одна только описательная статистика может быть очень мощной. Я работаю аналитиком уже более 10 лет, и я превращаю данные в истории, рассказывая истории на основе данных. Эта деятельность не имеет фиксированной формулы; он полагается на интеллектуальное любопытство как на свою основу. Мы можем взять гипотезы нашего босса или наших клиентов и проверить их на данных, чтобы убедиться, что они верны. Иногда, просто делая это, мы уже можем создавать ценность. Чтобы достичь этого, нам нужно иметь возможность извлекать звуковые фрагменты, которые легко понять, но которые имеют большое влияние. Как только мы извлекли звуковые фрагменты, мы организуем их в повествование, чтобы рассказать историю, используя данные.

Я хотел бы привести пример своей работы, когда я был экономистом в Центре экономической информации (EIC) Siam Commercial Bank более 10 лет назад. Ключевой вывод из первого графика заключался в том, что стоимость инвестиций Таиланда все еще была ниже уровня финансового кризиса 1997–1998 годов. С другой стороны, ключевой вывод второго графика заключался в том, что реальная заработная плата в Таиланде практически не росла и была значительно ниже, чем в соседних странах. Я считаю, что эти два извлеченных ключевых сообщения были очень сильными. Когда люди их услышат, они, скорее всего, удивятся, и на следующем этапе их можно будет использовать для создания сторителлинга на основе данных. Любопытство имеет решающее значение в исследовании данных, потому что не существует фиксированной формулы. Нам нужно экспериментировать несколько раз, чтобы извлечь хорошие звуковые фрагменты и создать увлекательные истории.

Две культуры статистического моделирования

Помимо рассказывания историй о данных, еще одна вещь, которую делают специалисты по данным, — это создание математических моделей на основе данных. Лео Бриман написал интересную работу под названием «Статистическое моделирование: две культуры» в 2001 году, в которой обсуждал два подхода к созданию моделей. Первый подход — это традиционное статистическое моделирование, а второй подход — это использование машинного обучения, пришедшего из области компьютерных наук. Бриман был удивлен тем, что статистики в значительной степени полагаются на традиционные статистические методы исследования, в то время как подходы, разработанные в области компьютерных наук, могут быть более интересными и полезными. Эти два подхода отличаются друг от друга, и я объясню их на следующем шаге.

Статистическое сообщество придерживается почти исключительного использования моделей данных. Эта приверженность привела к неуместной теории, сомнительным выводам и помешала статистикам работать над множеством интересных текущих проблем».

Бриман (2001)

Традиционная статистика и поиск причинно-следственных связей

Я получил степень магистра экономики в Лондонской школе экономики. В области экономики есть предмет под названием эконометрика, который основан на традиционных статистических принципах. Основная цель традиционной статистики состоит в том, чтобы извлечь из данных причинно-следственные связи и результаты, например, улучшает ли обучение в классе с меньшим количеством учащихся их оценки или нет.

Когда мы анализируем данные с помощью эконометрики, нам необходимо делать предположения об истинной модели, которая управляет данными. Мы стремимся создать оценщики различных параметров в модели, которые являются несмещенными и имеют низкую дисперсию. Мы знаем, что для этих параметров существуют истинные значения, и наша цель — аппроксимировать эти истинные значения параметров. Если среднее значение нашей оценки совпадает с истинным значением, то мы считаем ее несмещенной оценкой, что является желательной характеристикой хорошей оценки.

Статистики традиционно изучали теорию о том, когда оценщики предвзяты, и как мы можем применить эти теоретические знания для анализа реальных данных и определения того, склонны ли наши оценщики к предвзятости или нет. Если возникает предвзятость, нам необходимо понять ее причины и найти способы исправить ее.

Однако главная проблема традиционной статистики, на мой взгляд, заключается в том, что у нас нет возможности узнать истинную модель, управляющую поведением нашего мира. Возможно, мы просто забыли включить некоторые переменные в наши расчеты, что привело к смещению оценок параметров. Поэтому существуют методы, разработанные для извлечения причинно-следственных связей, особенно в области экономики и других статистических дисциплин. Эти методы все чаще используются в современном статистическом анализе, который я объясню далее.

Первый метод называется рандомизированным контрольным экспериментом. Одним из примеров является эксперимент Tennessee STAR, в ходе которого проверялось влияние размера класса на оценки учащихся. Исследователи случайным образом распределили учеников по классам разного размера, а также случайным образом распределили учителей с разными характеристиками в каждом классе. Случайным образом распределяя участников, решается проблема предвзятости выбора, гарантируя, что общие характеристики учащихся в классах разного размера одинаковы.

Если бы учащимся была предоставлена ​​возможность выбирать класс, в котором они хотели бы учиться, неизбежно возникла бы систематическая ошибка выбора, поскольку некоторые учащиеся с определенными характеристиками могли бы предпочесть меньшие классы, в то время как другие могли бы предпочесть большие классы. Эксперимент STAR в Теннесси эффективно выявил причинно-следственную связь, предполагая, что влияние обучения в небольших классах примерно эквивалентно работе с более опытным учителем до 12 лет.

Эксперименты с рандомизированным контролем широко используются в цифровом мире, потому что проводить исследования с таким дизайном в цифровом мире относительно легко. Например, если Facebook хочет проверить влияние изменения интерфейса на вовлеченность пользователей, они могут создать два разных интерфейса и случайным образом назначить пользователей для использования каждого интерфейса. Сравнивая различия в вовлеченности, они могут определить причинное влияние изменения интерфейса.

Второй метод называется естественным экспериментом. Иногда мы не можем провести полномасштабные экспериментальные испытания по этическим соображениям. В таких случаях мы полагаемся на естественные эксперименты. Пример естественного эксперимента — когда в стране десять провинций, но только в двух из них повышается минимальная заработная плата. В этом случае мы можем рассматривать повышение заработной платы как естественный эксперимент и анализировать влияние повышения минимальной заработной платы на труд, сравнивая провинции, где заработная плата увеличилась, с теми, где она осталась неизменной. Это можно сделать с помощью хорошо известного статистического метода, называемого разностью разностей.

Как рандомизированные контрольные эксперименты, так и естественные эксперименты дают ценную информацию о причинно-следственных связях и являются важными инструментами современного статистического анализа.

Машинное обучение и поиск прогнозов

Я не только изучал традиционную статистику, но и прошел курс машинного обучения в Технологическом институте Джорджии. Это позволило мне достаточно хорошо увидеть различия между этими двумя сторонами анализа данных. В анализе, ориентированном на информатику, основное внимание уделяется точности прогнозов. Для прогнозирования используется множество алгоритмов, таких как регрессия, метод k-ближайшего соседа, метод опорных векторов, дерево решений, случайный лес и xgboost.

У каждого алгоритма есть гиперпараметры, которые мы можем настроить для повышения точности прогнозов. Позвольте мне привести пример алгоритма, называемого деревом решений, который предсказывает результаты, разделяя данные на группы. Например, рассмотрим модель прогнозирования игры в гольф, показанную ниже. Если игрок в гольф играет в гольф «с друзьями», а ветер «ветренный», модель предсказывает, что игрок, скорее всего, наберет «выше номинала». Одним из важных гиперпараметров при настройке модели дерева решений является глубина дерева. Чем глубже дерево решений, тем лучше оно соответствует данным. Настраивая гиперпараметры, мы можем точно настроить модели и повысить точность прогнозов.

Однако мы не хотим, чтобы наша модель слишком сильно соответствовала данным, потому что это может привести к явлению, называемому переоснащением, когда модель соответствует шуму в данных, а не основному сигналу. Наша цель — найти значения гиперпараметров, которые позволят нам соответствующим образом подогнать нашу модель машинного обучения, добиваясь правильного соответствия, а не переоснащения или недообучения.

Метод поиска подходящих значений гиперпараметров состоит в том, чтобы разделить наши данные на набор поездов, который мы используем для обучения нашей модели, и набор тестов, который мы используем для оценки нашей модели. Если мы выберем гиперпараметры, которые соответствуют данным, модель будет работать очень хорошо на наборе поездов, но не на тестовом наборе. Если мы выберем гиперпараметры, которые не соответствуют данным, производительность модели будет низкой как на наборе поездов, так и на тестовом наборе. Однако, если мы выберем гиперпараметры, обеспечивающие правильное соответствие, наша модель будет достаточно хорошо соответствовать набору поездов и будет работать на тестовом наборе лучше всего по сравнению со случаями переобучения и недообучения.

Недавно в машинном обучении появилась заметная инновация, известная как глубокое обучение. Классическое машинное обучение и глубокое обучение различаются по нескольким параметрам. Например, при прогнозировании личности человека по изображению с использованием классического машинного обучения нам необходимо построить характеристики, связанные с изображением человека, такие как форма лица, расстояние между глазами и ширина носа. После того, как мы извлекли признаки из изображения, мы можем построить модель для предсказания личности человека, используя классические алгоритмы машинного обучения.

Напротив, глубокое обучение не обязательно требует разработки признаков. Специалисты по данным могут вводить необработанные изображения непосредственно в нейронную сеть, и нейронная сеть автоматически выполняет проектирование признаков. Эта функция делает глубокое обучение широко используемым для анализа неструктурированных данных, поскольку разработка признаков для неструктурированных данных — непростая задача.

III. Аналитика данных на практике

Этот год является годом исследований в области инноваций данных в сообществе информационных систем. В этой области было опубликовано несколько отмеченных наградами исследовательских работ, признанных ведущими журналами. В связи с этим я хотел бы поделиться двумя выдающимися отмеченными наградами статьями из Journal of Strategic Information Systems. Первая статья называется «Ресурсы с данными: распаковка процесса создания ценностных предложений на основе данных» Венди Арианн Гюнтер и ее коллег (2022 г.). Второй документ называется «Изменение механизмов создания ценности МО: модель процесса создания ценности МО» Ариса Шолло и ее коллеги (2022).

Теоретического понимания аналитики данных может быть недостаточно для понимания практического использования данных. Причина в том, что то, что ученые считают, что они делают, или то, что они утверждают, может не совпадать с тем, что они делают на самом деле. Работа, которую я собираюсь здесь обсудить, интересна тем, что в ней исследуется использование данных для создания ценности для бизнеса с помощью качественных методов (таких как интервью). Таким образом, мы можем сказать, что в этой работе используются качественные методы для изучения количественных рабочих процессов. Это может показаться противоречивым, но очень важно понять, как данные на самом деле используются для создания ценности.

Венди Арианна Гюнтер и ее коллеги (2022) объяснили итеративный цикл извлечения ценности из данных, который необходимо повторять, чтобы максимизировать ценность, созданную для клиентов в соответствующем контексте.

Цикл начинается с представления ценностного предложения путем размышлений о ценности существующих данных и о том, как они могут удовлетворить потребности клиентов. Затем следует анализ данных и действия по обеспечению ресурсами. Однако часто возникают неожиданные последствия, побуждающие компанию пересмотреть, как использовать имеющиеся данные для более полного удовлетворения потребностей клиентов. Этот цикл продолжается до тех пор, пока компания не сможет создать максимальную ценность для клиентов в соответствующем контексте.

В этом исследовании Венди Арианна Гюнтер и ее коллеги (2022) использовали курьерскую компанию в качестве примера, когда компания собрала обширные данные о доставленных письмах. Однако по мере того, как мир менялся и все меньше людей отправляли письма, компании пришлось искать альтернативные способы создания ценности. Один из подходов заключался в анализе данных из доставленных писем для создания ценности для предприятий, которые отправляют письма домохозяйствам.

В первом раунде компания могла точно определить личную информацию каждого домохозяйства и нацелиться на конкретные демографические данные, например, где они работают или возраст их детей. Однако возникли непредвиденные последствия, когда юридический отдел компании заявил, что использование таких данных нарушает права на неприкосновенность частной жизни. Поэтому компании пришлось искать новые способы использования данных.

Во втором раунде компания объединила внутренние данные с внешними данными для сегментации домохозяйств по географическому признаку и демографическим характеристикам. Однако, представляя этот подход бизнес-клиентам, они ответили, что эта сегментация не соответствует их маркетинговым планам, или, другими словами, информация, полученная компанией, не соответствует контексту использования клиента. Поэтому компании снова пришлось искать новый способ использования данных.

В третьем раунде компания сегментировала домохозяйства по таким признакам, как «молодые городские специалисты» и «состоятельные пенсионеры». В этом случае компания смогла продать анализ бизнес-клиентам. Однако они столкнулись с новой проблемой, когда маркетинг для некоторых рекомендуемых сегментов клиентов не всегда приносил результаты. В компании полагали, что это произошло потому, что внешние данные, которые они анализировали вместе с внутренними данными, несколько устарели. Поэтому компании пришлось найти другой новый способ использования данных, чтобы максимизировать создаваемую ценность. Этот цикл продолжается бесконечно, пока не будет достигнуто соответствие между данными, созданием ценности и контекстом использования.

С другой точки зрения, Ариса Шолло и его коллеги (2022) проанализировали, что машинное обучение может создавать ценность для организаций тремя различными способами. Во-первых, он может способствовать созданию знаний, где машинное обучение используется для получения идей и знаний. Во-вторых, это может увеличить объем выполняемых человеком задач, таких как помощь сотрудникам колл-центра в определении подходящих вопросов для клиентов. Наконец, это может позволить разработку автономных агентов, таких как Siri, которые могут выполнять различные задачи и функции.

Кроме того, Ариса Шолло и его коллеги (2022) определили факторы, которые позволяют компаниям создавать ценность разными способами. Они обнаружили, что создание знаний — это самый простой способ создания ценности, требующий навыков работы с данными и знаний в предметной области. Расширение задач, с другой стороны, является более сложной задачей и требует надежной инфраструктуры данных, возможностей DevOps для развертывания кода и возможностей UX для создания пользовательских интерфейсов для помощи сотрудникам.

Создание автономных систем является наиболее сложным аспектом, так как требует сочетания вышеупомянутых факторов. Кроме того, компаниям необходимо интегрировать свой анализ данных с системами транзакций для бизнес-операций, обеспечить стабильность среды для хорошей работы системы машинного обучения и свести к минимуму юридические и этические ограничения для облегчения функционирования систем ИИ.

Ариса Шолло и его коллеги (2022) провели анализ различных проектов машинного обучения. Они обнаружили, что по мере изменения обстоятельств подход к созданию ценности для бизнеса с помощью машинного обучения также должен адаптироваться. Это позволяет компаниям последовательно извлекать выгоду из машинного обучения.

Например, давайте рассмотрим проект 1 на иллюстрации. Первоначально компания использовала автономную агентскую систему для разработки маркетинговых планов, таких как определение лучших мест для рекламы своего ювелирного бизнеса. Однако, когда произошла пандемия COVID-19, разработанная ими система стала неустойчивой (нестабильность среды). Чтобы решить эту проблему, компания переключила свое внимание на создание знаний, чтобы лучше понять изменения, и начала создавать системы, помогающие своим специалистам по маркетингу (расширение задач). В долгосрочной перспективе компания надеется вернуться к использованию автономной системы, аналогичной предыдущей.

IV. Социальные последствия данных

Более 10 лет назад, когда большие данные стали тенденцией, Глобальный институт McKinsey опубликовал крупный анализ создания ценности с помощью больших данных. Они обнаружили, что большие данные могут создавать огромную ценность для бизнеса в различных секторах, включая здравоохранение, розничную торговлю, производство, правительство и использование данных на основе местоположения.

Этот отчет был одной из причин, по которой я заинтересовался большими данными и решил получить докторскую степень. в информационных системах. Во время учебы я понял, что одним из важных результатов больших данных является ранжирование. Наш мир все больше заполняется рейтингами, и он будет продолжать расти в будущем, потому что мы ежедневно получаем огромные объемы данных. Ранжирование становится мощным инструментом, помогающим нам принимать решения о том, чему отдавать приоритет, а чему нет.

Интернет-экосистема перенасыщена системами ранжирования. Например, когда мы ищем информацию, мы полагаемся на Google для ранжирования веб-сайтов, которые мы считаем интересными. В Facebook есть алгоритм EdgeRank, который отдает приоритет тем сообщениям, которые мы должны увидеть первыми. Amazon использует рекомендательные системы, чтобы предлагать нам продукты. Более того, за пределами Интернета также существуют системы ранжирования, начиная от кредитного скоринга и заканчивая рейтингами университетов.

Важная работа по ранжированию исходит из области социологии Эспеланда и Саудера (2007) в их исследовании под названием «Рейтинг и реактивность: как общественные меры воссоздают социальные миры». Они изучили влияние рейтингов университетов и обнаружили различные механизмы, имеющие решающее значение для анализа влияния рейтингов на наше общество.

В первую очередь следует отметить, что рейтинги вузов весьма искусственны. Иногда нецелесообразно ранжировать университеты, потому что мы можем сравнивать вещи, которые по своей сути разные. Например, университет, в котором я учился, Лондонская школа экономики, специализирующаяся на социальных науках, возможно, не подходит для прямого сравнения с университетами, специализирующимися на естественных науках.

Как упоминалось ранее, числа не находятся, а создаются. Это относится и к рейтингу университетов. Как только рейтинги созданы, они имеют социальные последствия. Например, университет А может незначительно отличаться от университета Б, но если университет А получит более высокий рейтинг, в долгосрочной перспективе могут возникнуть значительные различия из-за самого рейтинга. Это связано с тем, что более талантливые студенты могут выбрать университет А, который имеет более высокий рейтинг, даже если первоначальные различия были минимальными.

Как только университет попадает в рейтинг, рейтинг становится решающим для его выживания. Затем университеты вынуждены играть в игру, созданную рейтинговыми системами. Например, университеты могут выделять ресурсы каждому отделу на основе их рейтинга.

Кроме того, университеты могут попытаться манипулировать системой. Если возможность трудоустройства выпускников сразу после выпуска важна для рейтинга, университет может нанять своих собственных выпускников, чтобы повысить уровень занятости. Еще более экстремально то, что университеты могут предоставлять ложные данные рейтинговым организациям. Случаи такого поведения имели место даже среди всемирно известных университетов, таких как Колумбийский университет.

В интернет-системе также есть рейтинговые игры, такие как поисковая оптимизация (SEO), которая представляет собой крупномасштабный бизнес. Один из факторов, используемых для ранжирования веб-сайтов в Google, называется алгоритмом PageRank. Веб-сайты, которые получают более высокий рейтинг, — это те, которые имеют многочисленные связи с другими веб-сайтами, и эти соединяющие веб-сайты имеют высокое качество. Это можно определить по количеству других веб-сайтов, которые ссылаются на них.

Один из методов обмана алгоритма PageRank называется бомбардировкой Google. Специалисты по поисковой оптимизации могут вставлять веб-сайты своих клиентов в важные интернет-источники, такие как Википедия. Следовательно, Google должен постоянно менять алгоритм, используемый для ранжирования веб-сайтов, чтобы помешать специалистам по поисковой оптимизации полностью понять систему Google и найти более простые способы обмана системы.

Кэти О’Нил, математик, написала интересную книгу под названием «Оружие математического разрушения» в 2016 году. В книге она проанализировала использование больших данных в различных контекстах, таких как страхование, реклама и образование. Она обнаружила, что использование больших данных потенциально может привести к неравенству в обществе. Например, учащиеся из неблагополучных семей, которые не могут позволить себе образовательные ссуды, могут не иметь доступа к образованию, поскольку они проживают в экономически неблагополучных районах (почтовые индексы, которые классифицируются как таковые), и поэтому ссуды им не выдаются. Поэтому они не могут вырваться из бедности с помощью образования.

Этот тип сценария распространен в интернет-системе. Бизнес поисковой оптимизации (SEO) является одним из примеров. Только люди с определенными ресурсами могут позволить себе нанять специалистов по поисковой оптимизации для повышения рейтинга своих веб-сайтов.

В. Контакт человечества с ИИ

Первый контакт: социальные сети

Первое взаимодействие между человечеством и ИИ произошло через появление социальных сетей. В настоящее время у Facebook около 3 миллиардов пользователей, в то время как население мира составляет около 8 миллиардов, а это означает, что почти 40% населения мира регулярно использует Facebook.

Многие люди используют Facebook и, следовательно, вступают в контакт со встроенной системой искусственного интеллекта на платформе. Facebook использует алгоритм EdgeRank, чтобы расставить приоритеты, какие сообщения пользователи увидят первыми. Этот алгоритм гарантирует, что пользователи увидят сообщения от друзей, с которыми они часто взаимодействуют, например, от тех, с кем они часто общаются в Facebook Messenger. Кроме того, Facebook, как правило, продвигает сообщения, которые получают высокую вовлеченность, например, с многочисленными комментариями и лайками. Время также играет важную роль, так как новые сообщения всегда получают более высокую видимость.

Однако алгоритм ранжирования, который использует Facebook, постоянно меняется. Например, недавно в ленту пользователей отправлялись сообщения, известные как «предложить вам». Эти сообщения не обязательно исходят от друзей или страниц, на которые подписаны пользователи, но Facebook считает их потенциально интересными для пользователей. Это вызывает значительный протест со стороны создателей контента, которые распространяют свой контент через Facebook, поскольку подавляет взаимодействие пользователей с их контентом.

Огромный масштаб Facebook создал глобальные проблемы. Примеры включают дело Cambridge Analytica и использование данных Facebook в политических целях, распространение разжигания ненависти, подстрекательство к геноциду и распространение фейковых новостей. Такие проблемы усугубляются алгоритмами, позволяющими быстро распространять проблемный контент. Например, Facebook имеет тенденцию усиливать сообщения с высокой вовлеченностью, в том числе с проблемными элементами.

Facebook и другие онлайн-платформы социальных сетей не бездействуют в решении этих проблем. Facebook создал Совет по надзору, функционирующий аналогично «Верховному суду», для наблюдения за методами сортировки данных. Однако масштабировать такие инициативы сложно. Следовательно, алгоритмы используются для помощи в выявлении проблемного контента. Тем не менее, использование алгоритмов — непростая задача, поскольку проблематичный характер сообщений иногда зависит от контекста, а алгоритмы не могут учесть все контекстуальные факторы.

В конечном счете, недовольство крупными онлайн-платформами социальных сетей может продолжать расти, что может привести к миграции пользователей на децентрализованные платформы социальных сетей. Например, после приобретения Илоном Маском Twitter многие пользователи Twitter перешли на децентрализованную платформу социальных сетей под названием Mastodon, которая имеет сходство с Twitter. Параллельно с этим основатель Twitter Джек Дорси инициировал разработку протокола Bluesky.

Централизованным платформам социальных сетей сложно угодить всем, поскольку пользователи должны находиться в одном и том же цифровом пространстве и управляться одним и тем же набором алгоритмов. Это отличается от децентрализованных платформ социальных сетей, где пользователи могут выбирать алгоритмы, определяющие организацию информации, которую они видят, предоставляя гораздо более широкий выбор вариантов.

Второй контакт с ИИ: Генеративный ИИ

Второе взаимодействие между человечеством и ИИ осуществляется через генеративный ИИ, такой как ChatGPT. Генеративный ИИ отличается от онлайн-социальных сетей тем, что он фокусируется на создании контента, тогда как социальные сети в основном участвуют в курировании контента. Использование ChatGPT, например, происходит быстро, в то время как Facebook потребовалось до 10 месяцев, чтобы достичь своего первого миллиона пользователей, ChatGPT потребовалось всего пять дней. Более того, ChatGPT очень интеллектуален, способен сдавать различные экзамены и совершенствоваться с развитием GPT-4, заменяющего GPT-3.5.

Появление генеративного ИИ, несомненно, внесет существенные изменения в сферу образования. Генеративный ИИ будет приобретать все большее значение в будущем, и учащимся необходимо научиться эффективно использовать генеративный ИИ. Они должны понимать, как работает ИИ (грамотность в области ИИ), и критически относиться к генеративному ИИ, не слишком на него полагаясь. Очевидно, что Генеративный ИИ, как и ChatGPT, может «галлюцинировать» или генерировать контент, который может быть неточным. Поэтому учащиеся должны использовать критическое мышление при использовании ChatGPT для оценки качества генерируемой информации. Кроме того, учащиеся должны постоянно развивать способность адаптироваться к новым технологиям, поскольку в будущем, несомненно, появятся новые типы генеративного ИИ.

Кроме того, школы и университеты также должны будут претерпеть изменения. Например, могут быть разработаны инструменты для точной идентификации текста, сгенерированного генеративным ИИ, а процесс обучения перейдет от механического запоминания к аналитическому мышлению и решению проблем. Более того, обучение будет переходить от приобретения существующих знаний к изучению неизвестного (переход от известного к неизвестному).

Генеративный ИИ, такой как ChatGPT, также повлияет на будущую рабочую силу. Эрик Бриньолфссон и его коллеги (2023 г.) провели интересное исследование под названием «Генеративный ИИ на работе», чтобы проанализировать влияние генеративного ИИ при его применении в реальных условиях, сосредоточив внимание на колл-центре, в котором использовались такие технологии, как ChatGPT. Они обнаружили, что генеративный ИИ может значительно отличаться от предыдущих технологий. В прошлом технологии приносили пользу людям с высокими навыками, в то время как генеративный ИИ приносил пользу людям с более низкими навыками. Например, благодаря помощи Генеративного ИИ сотрудники колл-центра с двухмесячным опытом работы могут работать так же хорошо, как и сотрудники с шестимесячным опытом.

Однако последствия трудоустройства неясны. Это зависит от того, происходит ли аугментация или автоматизация. В первом сценарии у людей появляются новые возможности для сотрудничества с ИИ. Между тем, в последнем сценарии ИИ заменяет людей, что приводит к сокращению рабочих мест. Исход остается неясным.

Тем не менее, Генеративный ИИ не без проблем. Во-первых, создатели Генеративного ИИ могут столкнуться с проблемами авторского права, если будут обучать модели с использованием чужих данных без надлежащего разрешения. Во-вторых, если Генеративный ИИ попадет не в те руки, это может быть проблематично, поскольку он может генерировать очень реалистичные поддельные тексты или глубокие подделки. В-третьих, в будущем генеративный ИИ может столкнуться с проблемой, известной как «крах модели». Если генеративный ИИ генерирует огромное количество данных в Интернете и использует их для обновления модели ИИ, модель генеративного ИИ может выйти из строя. В-четвертых, генеративный ИИ может развить важные человеческие навыки. Например, мы можем не чувствовать себя уверенно, садясь в самолет, который полностью управляется автоматизированной системой без пилотов-людей. Наконец, если люди станут слишком зависимы от генеративного ИИ, они могут потерять способность мыслить творчески и независимо, что поставит под угрозу их креативность и оригинальность.

Заключение

В этой статье я приглашаю и призываю читателей исследовать мир цифровых технологий, данных и искусственного интеллекта. Я пытаюсь представить всесторонний взгляд на данные и искусственный интеллект, начиная от взаимосвязи цифровых технологий и революции данных, которая привела к тому, что специалисты по данным стали сексистской профессией 21-го века.

После этого мы углубимся в теоретический аспект анализа данных и значение повествования о данных. Извлечение звуковых фрагментов из данных — непростая задача, требующая интеллектуального любопытства. Между тем, существует два подхода к математическому моделированию для анализа данных: традиционный статистический подход, направленный на извлечение причинно-следственных связей из данных, и подход компьютерных наук, который фокусируется на точном прогнозировании.

Однако то, что ученые говорят о своих действиях, и то, что они делают на самом деле, может не всегда совпадать. Поэтому нам необходимо изучить анализ данных с практической точки зрения. Мы обнаруживаем, что анализ данных для бизнес-целей часто приводит к неожиданным выводам, которые порождают новые проблемы. Предприятия могут извлекать пользу из данных в трех форматах: (1) создание знаний, (2) разработка систем для помощи сотрудникам и (3) создание автоматизированных систем.

Затем мы анализируем общее влияние использования больших данных на общество. Мы обнаружили, что решающим результатом использования больших данных является ранжирование. Будь то ранжирование веб-сайтов, онлайн-контента в социальных сетях или рекомендуемых продуктов в электронной коммерции, эти рейтинги основаны на числах, которые искусственно создаются людьми и оказывают значительное влияние на общество. Те, у кого много ресурсов, могут попытаться обыграть систему ранжирования и получить преимущества, что приведет к социальному неравенству.

Наконец, мы обсудим контакт человечества с ИИ, который уже имел место дважды. Первое взаимодействие происходит с онлайновыми социальными сетями, где такие платформы, как Facebook, стали чрезвычайно большими, и до 40% населения мира регулярно используют Facebook. Это привело к многочисленным тревожным глобальным проблемам. Второе взаимодействие связано с генеративным ИИ, таким как ChatGPT. Образование и работа должны будут претерпеть изменения. Проблема в том, что люди могут чрезмерно полагаться на генеративный ИИ до такой степени, что теряют важные навыки и чувство индивидуальности.

Я надеюсь, что вся эта информация будет в большей или меньшей степени полезна и поможет читателям получить более полное представление о цифровых данных и искусственном интеллекте. Он также может послужить хорошей отправной точкой для дальнейшего изучения цифровых данных и искусственного интеллекта, охватывающего теоретические, практические и социальные аспекты.