Когда дело доходит до больших данных, подумайте об этих трех словах: анализировать; контекстуализировать; интернализировать

2 ноября 2017 автор Эрик Д. Браун

Если вы не знаете, я немного помешан на данных. Я много лет пишу о больших данных, науке о данных, машинном обучении и других новых вещах. Я верю в науку о данных и верю в большие данные. Я сторонник машинного обучения (но думаю, что оно вам, вероятно, не нужно) для решения большинства проблем, с которыми сталкивается большинство организаций.

Итак… имея это в виду… позвольте мне сказать следующее: большие данные и наука о данных не являются чем-то новым. Все говорят о больших данных, машинном обучении, искусственном интеллекте и науке о данных, как будто эти вещи «совершенно новые» для мира, но это не так. Все эти кандидаты на «модное бинго» существуют уже много лет… подумайте, более 50 лет в той или иной форме. Замечательно видеть ажиотаж вокруг них в эти дни, поскольку у нас наконец-то есть вычислительная мощность для реализации некоторых из этих идей гораздо более масштабируемым способом.

Тем не менее… не позволяйте масштабируемости обмануть вас, думая, что все, что вам нужно сделать, это «масштабировать», и все будет хорошо. Способность масштабироваться для решения более крупных задач и больших наборов данных чрезвычайно важна, но без самых основ науки о данных и прикладной статистики все ваши проекты с большими данными/машинным обучением/ИИ не будут для вас столь же ценными/ вашей организации, как вы могли бы надеяться.

По данным IBM, мы сейчас генерируем 2,5 квинтиллиона байт данных в день. Что мы делаем со всеми этими данными? Разве не все это используется хорошими специалистами по данным для создания новых моделей, получения дохода и предоставления организациям полезных идей? Я точно знаю, что это не так, хотя есть много компаний, которые пользуются этими данными (например, Google и Facebook). Я однажды написал, что сегодня мы тонем в данных и изголодались по информации (что было небольшим изменением в шедевре Мегатенденции Джона Нейсбитта 1982 года, в котором он написал мы тонем в информации и изголодались по знаниям.

Сегодня мы работаем с огромными наборами данных, и нет причин думать, что эти наборы данных не будут продолжать расти. Но размер ваших данных — это не обязательно то, о чем вам следует беспокоиться. Помимо важных основ (качество данных, управление данными и т. д.), которые, кстати, имеют очень мало общего с размером данных, следующим наиболее важным аспектом любого проекта по работе с данными является способность анализировать данные и создавать некоторую форму знания из этих данных.

Когда я говорю с компаниями о проектах данных, они обычно сначала хотят поговорить о технологиях и платформах, но это неправильный первый шаг. Эти обсуждения необходимы, но я всегда говорю им, чтобы они не зацикливались на Spark, Hadoop, Map-reducer или других технологиях/подходах. Я подталкиваю их к разговору о том, обладают ли они и их организация необходимыми навыками для анализа, контекстуализации и усвоения любых данных, которые у них могут быть. Обладая способностью анализировать, контекстуализировать и усваивать, вы добавляете смысл данным, и именно так вы переходите от данных к знаниям.

Для выполнения этой работы организации должны убедиться, что у них есть люди со статистическими навыками, а также с навыками разработки, чтобы иметь возможность брать любые данные, которые у вас есть, и делать выводы из этих данных. Такие навыки нужны нам больше, чем способность раскручивать кластеры Hadoop. Я знаю 25 человек, которым я могу позвонить завтра, чтобы они предложили мне какую-нибудь инфраструктуру больших данных, способную обрабатывать самые большие из больших наборов данных… выводы из этого набора данных» и верят, что у них есть все навыки (технические, статистические и социальные) для правильного выполнения работы.

Не забывайте, что есть наука о больших данных (кхм… в конце концов, это называется наукой о данных). Эта наука необходима, чтобы подняться по лестнице данные -> информация -> знания. Добавляя контекст к своим данным, вы создаете информацию. Добавляя смысл к вашей информации, вы создаете знания. Технологии позволяют специалистам по обработке и анализу данных добавлять контекст и смысл, но тяжелая работа по-прежнему остается за человеком.

Не поймите меня неправильно, технические навыки для таких систем важны. Специалисты по данным должны иметь возможность кодировать и использовать любые доступные им системы, но настоящая работа и ценность заключаются в создании информации и знаний из данных. Тем не менее, вы не сможете подняться по лестнице «данные -> информация -> знания», не имея возможности понимать и контекстуализировать данные, а технологии (как правило) не могут выполнять эти очень важные шаги за вас (хотя с искусственным интеллектом мы может получить их когда-нибудь).

Перестаньте думать о технологиях и модных словечках. Не думайте «Spark», «python», «SAS» или «Hadoop»… думайте «анализировать» и «контекстуализировать». Вместо того, чтобы гнаться за новыми платформами, ищите новые способы «усвоения» данных. Если вы и ваша команда не сможете найти способы анализа, контекстуализации и усвоения данных, ваша способность реально влиять на бизнес с помощью больших данных окажется под угрозой.

Первоначально опубликовано на сайте ericbrown.com 2 ноября 2017 г.

Когда дело доходит до больших данных, подумайте об этих трех словах: анализировать; контекстуализировать; интернализировать

Вопросы по теме