Наши поколения, жившие с 1984 по 2020 год, стали свидетелями самого большого и быстрого цикла творения со времен Большого взрыва. То есть одно 36-летнее окно, которое конкурирует с известными людям 14,5 миллиардами лет существования. Это творение определяет, какая информация доступна нам, наши варианты и наш выбор в каждой сфере жизни, тысячи раз в день. Он может определять жизнь или смерть, передачу богатства, геополитику Земли и расширение знаний. Мы его создатели, и мы не можем ни остановить его создание, ни узнать его каким-либо осязаемым образом. Это: данные.

Итак, что случилось? Как это произошло? Что сделало большие данные большими? Во многом это произошло из-за повсеместного распространения процессоров в конце 20-го века, появления и роста числа пользователей Интернета (с 1000 в 1984 году до 2,7 миллиарда в 2016 году, половина из которых находится на Facebook), а затем миниатюризации процессоров. в смарт-устройства, такие как телефоны, часы и т. д.; однако в основном сейчас экспоненциальный рост данных является результатом неструктурированных баз данных (например, MongoDB, NoSQL и т. д.), которые хранят все наши цифровые взаимодействия и поведение. Эти неструктурированные поведенческие данные в настоящее время составляют около 75% создаваемых данных. Но мы еще ничего не увидели, потому что в ближайшие 15 лет рост данных будет еще больше из-за Интернета вещей. (Стена, 2014)

Итак, насколько велик «Большой»? По данным IBM, в 2012 году мы создавали 2,5 гигабайта данных в день. При таком уровне, согласно другой часто цитируемой статистике IBM, которая была первоначально написана норвежцем Асе Драгландом из аналитического центра SINTEF в 2013 году, 90% всех данных в мире были созданы за предыдущие два года. (Dragland, 2013) Однако скорость роста данных — скорость создания — на самом деле увеличивается. По словам исследователя данных Ричарда Ферреса из Австралийской национальной службы данных (ANDS), мы создаем данные в 10 раз быстрее каждые два года. (Ferres, 2015) Другими словами, начиная с 1 в 1985 году, мы были со скоростью 1x1015 в 2015 году (например, один квадриллион «миль в час»), а в 2017 году наша скорость создания данных составляет 1x1016 (например, десять квадриллион «миль в час»).

Если это ускорение было недостаточно быстрым, вскоре мы будем создавать данные еще быстрее благодаря Интернету вещей (IoT). Интернет вещей — это собирательное название для миллиардов устройств, в которые встроены датчики для передачи данных в сети. Вспомните «умный» холодильник Samsung, который отслеживает, какие продукты находятся внутри него, автомобильную или домашнюю сигнализацию или радионяню. которой вы можете управлять с помощью мобильного телефона. По оценкам группы технологических исследований Gartner, в 2016 году в сети было 6,7 миллиарда таких устройств или датчиков (Gartner, 2015), а по оценкам исследовательской группы IDC к 2020 году их будет 30 миллиардов (IDC, 2014). Интернет-пользователи. Таким образом, прогнозируется, что количество создателей данных увеличится в 10 раз только в течение следующих трех лет. Упрощенная математика предполагает, что 10-кратное увеличение числа создателей данных в 10 раз каждые два года может означать, что в течение 3-4 лет скорость нашего ежегодного создания данных будет увеличиваться в 100 раз каждые два года.

Но эти числа имеют такой масштаб, что человеческому мозгу трудно их понять или представить. Два гигабайта, что составляло 80% объема данных, которые мы коллективно создавали в 2012 году каждый день, составляют около 20 ярдов (60 футов) книг средней длины на полке или около 6,67 км (4,15 мили) книг в год. Но поскольку в 2016 году мы создавали данные в 10 раз быстрее, это означает, что в год у нас было до 66,7 км (41,5 мили) книг подряд. Если мы ускоримся в 10 раз быстрее к 2018 году, как прогнозировалось, и в 100 раз быстрее, как было предложено выше, к 2020 году, это будет означать, что мы создадим 667 километров (415 миль) книг на полке в 2018 году и будем создавать 6667 километров (4150 миль) книг на полке каждый год к 2020 году. При таких темпах, если бы мы издавали книги вместо электронных данных, этого было бы достаточно, чтобы каждый год обходить Землю по экватору где-то до 2022 года, то есть всего за шесть лет.

Представьте, если бы значимые знания или открытия в области больших данных были бы алмазами на Земле. Чтобы добыть или найти их, нам нужно собрать десятки тысяч кубометров почвы. Затем кто-то приходит с изобретением, которое позволяет нам собирать миллиарды кубических ярдов почвы, исходя из теории, что мы найдем на порядки больше алмазов в на порядки больше грязи. Может быть. Но, безусловно, это также на несколько порядков усложняет миссию алмазодобытчиков (для нас — специалистов по обработке и анализу данных).

Что еще хуже, до тех пор, пока мы не станем опытными в ее использовании, статистика больших данных часто создает больше ложных знаний, чем истинных. Чаще всего исследователь, пытаясь обнаружить новые значимые связи в этих данных, вычисляет корреляции (например, каждый раз, когда X изменяется, Y также изменяется); однако эти корреляции часто бывают «ложными», поскольку мы предполагаем, что они являются причинно-следственными (изменение X вызывает изменение Y), что приводит к дезинформации. Для определения причинно-следственной связи требуется байесовская статистика, довольно продвинутый статистический инструментарий, с которым не знакомы многие специалисты по данным, не говоря уже о руководителях, принимающих решения. Однако подверженный ошибкам процесс на этом не заканчивается, потому что есть две основные категории байесовской статистики — наивная (предполагающая, что точки данных функционируют независимо друг от друга) и сетевая (предполагающая, что точки данных влияют друг на друга). Если и когда специалист по данным знаком с Байесом, в 50% случаев он использует неправильное применение формулы. Суть в том, что большинство типов корреляций и основных статистических данных, которые люди изначально применяют к большим данным, дают ложную или вводящую в заблуждение информацию.

В нашей аналогии не только наша скорость создания больших данных увеличивается с возрастающей скоростью, а это означает, что мы должны перемещать миллионы кубических ярдов почвы в год, миллиарды — во второй год и десятки миллиардов — в третий год. re «обработка» пронизана фальшивыми бриллиантами. Хотя его часто ошибочно приписывают физику Стивену Хокингу или библиотекарю Конгресса США Дэниелу Бурстину, на самом деле именно историк Генри Томас Бакл во втором томе своей серии «История цивилизации Англии» 1861 года первым заметил, что «величайший враг знания — это не невежество, это иллюзия знания». (Пряжка, 1861 г.)

Нам не обязательно нужны большие данные, хотя мы, безусловно, их получим. Нам нужны более значимые данные. Таким образом, экспоненциальное накопление данных, которое происходит с беспрецедентной скоростью в истории человечества и вот-вот ускорится еще больше, создает больше шума, который нужно просеять, чтобы найти значимые знания, чем до эпохи больших данных. Становится все труднее определить, что важно. Таким образом, эволюция человечества через открытие знаний будет ускоряться не за счет прожорливого создания все больших объемов данных, а за счет сосредоточения внимания на наиболее значимых данных, их создания и изоляции.

Процитированные работы

Пряжка, HT (1861 г.). Исследование шотландского интеллекта в 18 веке. В H. T. Buckle, History of the Civilization of England (стр. 408). Нью-Йорк: Д. Эпплтон и Ко.

Драгланд, А. (2013, 22 мая). Большие данные — к лучшему или к худшему Получено из SINTEF: www.sintef.no/en/latest-news/

Феррес Р. (14 июля 2015 г.). Кривая роста данных. Австралия: Куора.

Гартнер. (2015, 10 ноября). По данным Gartner, в 2016 году будет использоваться 6,4 миллиарда подключенных вещей, что на 30% больше, чем в 2015 году». Получено с сайта Gartner: http://www.gartner.com/newsroom/id/3165317

ИДЦ. (2014, апрель). Цифровая вселенная возможностей: обширные данные и растущая ценность Интернета вещей. Получено из IDC — EMC: https://www.emc.com/leadership/digital-universe/ 2014iview/интернет-вещей.htm

Уолл, М. (2014, 4 марта). Большие данные: готовы ли вы к взлету? Новости BBC, стр. www.bbc.com/news/business-26383058.