Почему пора погрузиться в озера данных

Сила данных неоспорима. Любой достойный бизнес инвестировал в Машинное обучение и Искусственный интеллект. Эти два инструмента были предметом сотен статей — мы говорили о том, как их использует бизнес, как чат-боты, технологии прогнозирования и прогнозирования, а также автоматическая кластеризация изменят правила игры. Но нам еще предстоит полностью изучить инструменты, которые имеют наибольшее значение — те, которые окажут наибольшее влияние.

В этой статье мы сосредоточимся на озёрах данных — ключе к решению любых предстоящих задач.

Что такое озеро данных?

Семь лет назад Forbes опубликовал статью, в которой технический аналитик Дэн Вудс объяснил, что самые важные данные нельзя организовать в строки и столбцы. Чтобы максимально использовать эти данные, мы должны разработать способ организации и хранения множества различных форматов данных — в их самом чистом и необработанном виде — чтобы избежать любого преобразования данных, которое может повлиять на будущий анализ.

Сейчас мы находимся в движущемся поезде, и становится все труднее предсказать, какой анализ будет возможен через два или три года. Тем не менее, мы можем быть уверены в одном: анализ, который вы будете проводить через пару лет, будет основываться на данных, которые вы не можете сохранить сегодня.

Технологии быстро меняются. Витрины данных и хранилища данных доказали свою полезность в прошлом — и они продолжают приносить пользу в некоторых случаях — потому что данные, которые мы анализируем, структурированы — мы можем быстро получить доступ к этим данным и легко извлечь ценную информацию.

Но в мире, где Интернет вещей заполонил наши гостиные и каждый день создается 2,5 квинтиллиона байтов данных, мы должны предположить, что в течение следующих нескольких лет наша нынешняя способность структурировать данные в реальном времени не исчезнет. достаточно. Нам нужно начать хранить данные в самом необработанном виде. Такие форматы, как .jpg и .pdf, с каждым днем становятся все проще структурировать, а машинное обучение позволяет нам автоматически помечать и упорядочивать изображения, квитанции такси, входящие посылки и извлекать красивые и важные идеи.

Работа со всеми этими данными

Основное различие между озерами данных и традиционными хранилищами данных (или витринами данных) заключается в том, что данные больше не организуются и не структурируются в точке входа. Тем не менее, нам нужно выяснить, как подойти к обработке такого большого количества данных. Ну, есть ряд доступных технологий, разработанных, чтобы помочь вам сделать это:

В зависимости от ваших потребностей, ваше озеро данных может состоять из любого количества полезных инструментов.

Витрина данных не работает, покупайте в другом месте

Витрины данных и хранилища данных не так эффективны, как озера данных, а эпоха искусственного интеллекта требует мощного подхода к хранению данных. Спросите себя — есть ли в вашей организации эксперт, способный ловить информацию в вашем новом озере данных? Что вам нужно, так это Data Scientist — самая сексуальная работа векапо мнению некоторых. Эта роль претерпела значительную эволюцию за последние несколько лет. Однако имейте в виду, что вам нужен больше, чем просто специалист по данным с глубоким пониманием хранения и анализа данных — вам нужно убедиться, что большинство ваших сотрудников имеют, по крайней мере, базовое понимание используемых инструментов и процессов. специалистами по данным, чтобы отслеживать и оценивать ценность извлекаемых данных.

Хорошая новость заключается в том, что разработка новых инструментов делает область науки о данных все более доступной. Такие платформы, как BigML, партнер Good Rebels, предлагают как структурированные, так и неструктурированные инструменты машинного обучения с простым пользовательским интерфейсом и мощным рабочим процессом, позволяющим безгранично расширять проекты. Помните, что в каждом из нас есть немного специалиста по данным.

Мигель Бланко

Почему пора погрузиться в озера данных

Вопросы по теме