Вы боитесь больших данных? Ты не одинок

3 совета, как пережить надвигающееся цунами данных

Мы медленно движемся в эпоху, когда большие данные являются отправной точкой, а не концом. - Перл Чжу, цифровой мастер

Это был 1984 год. К счастью для западного мира, социальные потрясения 1950-х годов так и не переросли в состояние Большого брата Джорджа Оруэлла, но только начинались технические потрясения другого рода. Он был похоронен глубоко под землей, и в то время мы даже не чувствовали его приближения. Но это был тремор, который быстро развился до такой степени, что теперь мы опасаемся, что он может настигнуть нас. Мы называем это большими данными. Компания по анализу рынка IDC называет сумму всех созданных данных глобальной сферой данных. Еще в 1984 году на планете было примерно 20 миллионов гигабайт (ГБ) данных, хранящихся в цифровом виде. С тех пор многое изменилось.

В 2010 году глобальная сфера данных составляла примерно 4 зеттабайта (ZB). Зеттабайт равен 1 триллиону гигабайт или равен емкости хранения почти 4 миллиардов iPhone (модель с 256 ГБ). Если вы посмотрите на диаграмму ниже, то увидите, что для того, чтобы сфера данных достигла более 50ZB, потребуется всего несколько лет. Для хранения всех этих данных вам потребуется более 207 миллиардов iPhone.

Мы называем это «большими» данными, потому что люди не могут напрямую работать с их объемом и масштабом, и нам нужны машины для выполнения большей части обработки и анализа.

Творческие профессии - и под этим я подразумеваю любую профессию, которая что-то создает, будь то дизайн, разработка программного обеспечения, медиа, финансы, строительство, список можно продолжать - уже или скоро будут наводнены данными.

Если вы творческий профессионал и изо всех сил пытались сообразить масштаб цифр, которые я описал выше, у меня для вас плохие новости: мы только начинаем.

По прогнозам, к 2025 году объем данных увеличится втрое до почти 160ZB. Это означает, что растет не только объем данных, которые мы создаем, но и темпы роста как создания данных, так и сетевого трафика. Этого тоже не избежать. Данные пронизывают каждую отрасль, поскольку мы выходим не только на ПК и мобильные устройства, но и на повсеместные датчики, постоянно генерируя и передавая данные. Это вездесущий край, обсуждаемый техническими знатоками. Интернет вещей (IoT) уже помещает датчики, генерирующие данные, на то, что традиционно было глупыми объектами. Здесь только несколько:

Этот список является лишь небольшой выборкой, но даже если мы возьмем все, что происходит в IoT сегодня, он будет ничтожен по сравнению с тем, что мы увидим в следующем десятилетии и далее.

Интеллектуальное все

Недавно я пил кофе с друзьями. В кофейне было устройство, поддерживающее платежи NFC - я мог приложить телефон к устройству, и он списал деньги с моей кредитной карты. Если вы использовали Apple Pay или Android Pay, вы сделали то же самое, и это пример использования Интернета вещей в действии.

Что было еще интереснее, так это то, что в этой кофейне тоже были «умные столики». Мне удалось сделать покупку в киоске (ранняя форма умного меню, если хотите), и один из последних шагов - взять «настольный трекер», устройство, которое выглядело довольно как толстая пластиковая подставка для напитков с номером на ней и явно встроенной электроникой (у нее был маленький светодиод, светящийся зеленым). Я поднес трекер к столу, на котором тоже был номер. Стол, в который также встроена некоторая электроника, «знает», какие трекеры находятся на нем, и сообщает персоналу номера стола и трекера.

Когда мой напиток был готов, кто-то принес его прямо туда, где я сидел, хотя до этого момента я никогда не разговаривал ни с кем из персонала. Когда мы пили кофе и размышляли о будущем этой технологии, было довольно легко понять, что это только начало.

В конце концов, стол тоже будет разговаривать с стаканами и тарелками, зная, например, когда мой стакан пуст, и предлагая пополнить его.

Когда мы закончим, мы сможем безопасно платить прямо за столом. И все это без учета того, как Интернет вещей может быть задействован в бронировании, координации действий с друзьями и транспортировке всех туда. В кофейне, возможно, люди будут участвовать в приготовлении и подаче еды и напитков, или, возможно, большая часть этого будет автоматизирована, но у меня нет особых сомнений в том, что отрасль добьется этого, и, вероятно, в не слишком отдаленном будущем. .

Данные, которые необходимо будет собрать, передать и обработать, чтобы все это произошло, на порядки больше, чем того требует ресторанный бизнес сегодня, и все это должно быть сделано таким образом, чтобы это было выгодно для ресторана, при этом принося максимальное удовольствие клиентам. , конфиденциальность и безопасность. Это сложная задача (возможно, даже разрушительная), но те предприятия, которые не успевают за ними, останутся позади, поскольку современный ресторан станет более приятным для клиентов и более прибыльным для тех, кто вводит новшества.

Как вы можете не отставать?

Может быть, вы дизайнер, директор фабрики или юрист. Вы создаете физические объекты, работаете с интеллектуальной собственностью или предоставляете услуги другим людям. Однако в одном вы не являетесь экспертом в области данных, не говоря уже о больших данных. Но факт в том, что средний (или даже выше среднего) профессионал даже в областях, не связанных с инженерией данных или наукой о данных, все равно должен будет участвовать в этом безмерно богатом данными мире. Ожидается, что ваши решения будут основываться на данных (см. Мои мысли по этому поводу здесь), и что вы будете использовать данные, чтобы помочь себе и тем, с кем вы работаете, понять свой бизнес и своих клиентов.

Но как специалист, не занимающийся данными, справляется с огромным количеством доступных данных и возрастающей сложностью их эффективного понимания? Я хочу прояснить здесь, что работа с большими данными сопряжена с множеством технических сложностей. Его необходимо захватить и сохранить. И есть запросы и моделирование, которые необходимо выполнить, чтобы извлечь из этого пользу. Вот почему у нас есть специалисты по обработке данных и инженеры.

Вот три совета, как научиться выживать и преуспевать в наступающем мире больших данных. Я надеюсь, что они помогут вам понять, чего ожидать от профессионалов в области данных, и научиться задавать правильные вопросы.

1. Делайте большое меньше

Как следует из этого термина, большие данные слишком велики как по объему, так и по сложности, чтобы большинство людей могло эффективно ими управлять. Люди предрасположены бояться огромных проблем, видя в них больше угрозы, чем возможности. Как Большой Плохой Волк, Большой Ног или Большой Брат, большие данные для многих прямо вписываются в сферу большой, неправильно понятой сущности, которую они должны либо победить, либо потребить. Один из способов справиться с слишком большими препятствиями - уменьшить их размер. В частности, мы можем уменьшить размер, с которым нам придется иметь дело напрямую. Имея в виду большие данные, я не имею в виду, что вы стремитесь уменьшить общий объем или сложность. Скорее вы сократите набор данных, которые вам нужно обработать. Есть несколько эффективных способов сделать это. Один - задавать вопросы, а другой - фокусировать данные. Они связаны, поэтому давайте посмотрим на них обоих.

Задавайте вопросы
Смысл в том, что вы хотите четко понять, на какие вопросы вы хотите, чтобы данные пытались ответить. Другими словами, спросите, какую проблему вы пытаетесь решить. В приведенной ниже сетке показан ряд чисел. Это всего лишь данные, и без каких-либо вопросов к ответам они практически ничего нам не говорят.

Чтобы уменьшить размер данных в этой сетке, мы можем начать задавать такие вопросы, как:

Какое наибольшее число в сетке?
Сколько там строк?
Сколько столбцов?
Какова сумма первой горизонтальной строки?
Какое число чаще всего встречается в четырех центральных квадратах?

Вы уловили идею. Вопросы резко уменьшают необходимость беспокоиться обо всех данных и помогают нам начать думать о том, что нам на самом деле нужно. Это помогает значительно уменьшить размер данных, но мы можем сделать их еще меньше, сфокусировавшись еще больше.

Сфокусируйтесь на данных
Один из способов, с помощью которого мы можем сфокусироваться еще больше, - это очень точно определить, что мы ожидаем от данных. Я имею в виду, что вы можете разработать гипотезу и использовать данные для проверки этой гипотезы. Например, предположим, что вы разрабатываете продукт, который, как вы ожидаете, будет использоваться в основном женщинами в возрасте 25–35 лет без детей. Под «главным образом» вы имеете в виду более 60%. Из всех данных, которыми вы можете располагать о вашем продукте - сколько он продается, где он продается, как часто он используется и т. Д., Единственная часть данных, которая вам понадобится для проверки вашей гипотезы, - это возраст и пол клиентов. Если вы обнаружите, что среди ваших клиентов более 60% мужчин в возрасте 45–55 лет, это даст вам ценную информацию либо о вашем продукте, либо о ваших предположениях о ваших клиентах, либо о том и другом, но не требует просмотра всех данных. у вас есть о вашем продукте.

Оглядываясь назад на нашу числовую сетку, предположим, что наша гипотеза состоит в том, что сетка представляет собой последовательный список чисел от 1 до 100. Теперь используйте данные, чтобы проверить эту гипотезу.

Вы заметите, что вопрос, на который вы пытаетесь ответить, позволяет вам сосредоточиться на том, как вы смотрите на данные. Благодаря такому фокусу вы, вероятно, смогли довольно быстро обнаружить ту часть сетки, которая опровергает гипотезу.

Хотя глубокий фокус помогает во многих ситуациях, широкий фокус также может быть эффективным способом работы с большими данными. Мы делаем это, ища тенденции или закономерности.

2. Ищите шаблоны

Другой подход - сделать большой шаг назад от всех деталей и вместо этого искать закономерности на более широком уровне. По правде говоря, все детали по-прежнему необходимы, но с большими данными инструменты помогают выявить закономерности. Иногда этот инструмент представляет собой что-то относительно простое, например Excel. В других случаях (и все чаще) для этого требуется нечто большее, например сложные модели данных и алгоритмы машинного обучения (ML). Данные для этих алгоритмов могут поступать откуда угодно. Например, коровы.

Недавно я услышал о ферме, которая начала использовать устройства Интернета вещей на своем скоте. Проблема, которую они пытались решить, заключалась в том, чтобы узнать, когда корова готова к родам.

Типичной фермерской корове требуется помощь фермера для обеспечения успешных родов и ухода за теленком. «Низкотехнологичный» способ сделать это состоит в том, что когда фермер считает, что корова готова к родам, он или она должны физически следить за коровой, ожидая признаков того, что корова вот-вот родит. Однако исследователи заметили, что за несколько минут до родов корова будет уникальным образом махать хвостом. Это дало им ключ к разгадке. Решение заключалось в том, чтобы прикрепить датчик к хвосту коровы, отправляя данные обратно в службу, которая могла бы обрабатывать данные, наблюдая за контрольными колебаниями. Как только образец будет обнаружен, фермер может быть предупрежден и будет там, когда теленок будет доставлен. Решение для обработки данных здесь включает в себя большие данные - датчик на хвосте коровы отправляет много информации, которую человеку сложно обработать и понять. Но все это не имеет значения до тех пор, пока не возникнет конкретная закономерность, только тогда данные станут критически важными, и программное обеспечение сможет делать правильные вещи. Знание того, какой образец искать, является ключом к тому, чтобы это сработало.

3. Играть

Игра может показаться несколько банальной, когда мы говорим о большом количестве важных данных, но это не так странно, как может показаться. Когда мы играем в детстве, мы берем свое воображение и позволяем ему разыграться. Мы создаем персонажей, истории и целые миры, и нет границ, выходящих за рамки того, что мы можем представить. Во взрослом возрасте игра может быть такой же сильной, если возможно, более направленной. Обдумывание возможностей, выходящих за рамки очевидного, является важной частью инноваций и обучения. Другое слово для игры может быть экспериментирование, но я использую здесь игру, потому что слово «эксперимент» может звучать слишком формально и научно, а это не всегда то, что требуется. Игра - важный инструмент в наборе инструментов для работы с большими данными. Это особенно ценно, когда проблема неоднозначна или возможные решения сложны. Процесс относительно прост. Если у вас есть проблема с множеством возможных решений, вы должны:

Разработайте идеи о том, какими могут быть некоторые результаты
Создавайте конкурсы для тестирования каждого из них по отдельности
Набирайте очки в каждом конкурсе
Посмотрите результаты и выберите победителей

Похоже на игру, не так ли? Хотя это может (и должно быть) развлечься, это также серьезный бизнес. Это станет ясно, если вы подставите несколько слов выше:

идеи = теории
конкурсы = эксперименты
результаты = решения
оценки = данные

Здесь важно понимать, что есть настоящая наука для разработки хороших экспериментов и правильной оценки результатов, часто требующих специальных знаний в области математики и статистики. Но для лиц, принимающих решения, есть реальная ценность сначала поиграть с идеями, сведя проблему к более мелким частям, чем пытаться обработать все сразу. Давайте посмотрим на описанный выше процесс на примере.

Предположим, вы работаете в транспортной компании. Вам поручено найти способы улучшить экономию топлива во всем автопарке. Поскольку компания уже взялась за «низко висящие плоды», закупив самые экономичные грузовики, ваша задача - найти другие способы оптимизации. Вы можете посмотреть на множество вещей:

Привычки вождения, включая трогание с места, среднюю скорость и т. д.
Маршруты до обычных пунктов назначения
Днем грузовики едут по дорогам
Тип используемого топлива
Типы используемых шин
Средний вес каждого грузовика

Наиболее вероятный исход состоит в том, что повышение экономии топлива потребует корректировки большинства или всех из них, но данные, необходимые для оценки всего решения, действительно будут очень большими. Чтобы решить эту проблему, нужно поэкспериментировать или «поиграть» с переменными. Переменные похожи на кубики Lego. Вы смешиваете и сопоставляете, пока не найдете то, что работает. Из приведенного выше списка давайте воспользуемся гипотезой о том, что шины могут способствовать повышению топливной эффективности. Чтобы проверить, что вы хотите выделить шины в качестве переменной, вы можете сделать это, используя следующий процесс:

Грузовики с текущими шинами будут контрольной группой
Вам нужно взять небольшой комплект грузовиков и попробовать другой комплект шин
Вы сравните расход топлива за определенный период времени между двумя наборами и посмотрите, какой из них лучше соответствует вашей заявленной цели по большей экономии топлива

Повторяйте это, пока не протестируете все желаемые варианты шин

Этот простой пример скрывает некоторую сложность правильного проведения эксперимента - вы должны учитывать изменчивость в таких вещах, как драйверы, погода, маршруты и т. Д. - но смысл сосредоточения внимания на одной переменной состоит в том, что в конечном итоге вы получите связанные данные. только с этой переменной, шинами, и вы будете иметь хорошее представление о том, насколько варианты шин способствуют проблеме экономии топлива. Если вы проделаете то же самое с другими гипотезами, вы получите оценку каждой гипотезы и ее относительного вклада в ваше общее решение. Итак, наш список выше может выглядеть следующим образом:

Общая экономия топлива: 25%

Улучшение навыков вождения: 3%
Оптимизация маршрута: 6%
Оптимизация времени: 2%
Тип используемого топлива: 4%
Типы используемых шин: 3%
Средний вес каждого грузовика: 7%

Этот результат позволяет компании принимать более обоснованные решения о том, с чего начать и чего ожидать от каждого изменения. Проблема больших данных стала намного более управляемой.

Будьте готовы, большие данные станут намного больше

Большие данные являются или скоро станут реальностью в профессиональной жизни для подавляющего большинства людей в современной экономике. Здесь я рассмотрел всего три стратегии, которые вы можете использовать, чтобы добиться успеха в этом мире. Их гораздо больше, и я скоро расскажу о них на Medium. 1984 год был не просто годом Большого Брата, это был подземный толчок того, что к 2017 году должно было стать землетрясением данных. Цунами приближается.

Чтобы выжить и даже процветать, мы должны понимать, что нам нужно из данных, разработать методы, чтобы сфокусировать наши вопросы. и поэкспериментируйте с переменными. При правильном подходе мы можем обуздать мощь цунами данных и превратить его в мощную силу для нас самих и нашей работы.

Я хотел бы услышать ваши комментарии! Я участвовал в создании программного обеспечения большую часть своей карьеры и в настоящее время руковожу многопрофильной группой инженеров, средств массовой информации и обработки данных в Microsoft. Следуйте за мной в Twitter и LinkedIn.

Прочтите мою другую историю о данных для объявлений

Чтобы оставаться в курсе Microsoft Design, подписывайтесь на нас в Dribbble, Twitter и Facebook или присоединяйтесь к нашей программе Windows Insider. А если вы хотите присоединиться к нашей команде, зайдите на aka.ms/DesignCareers.