Я подозреваю, что вас удивило название.

Если вы погуглите «как стать успешным специалистом по данным», вы, скорее всего, увидите следующее:
«Стать специалистом по данным: 10-недельные курсы по науке о данных»
«Введение в науку о данных: От обучения к успеху »
« 9 обязательных навыков, которые вам необходимы, чтобы стать специалистом по данным, обновлено »

……..

По общему признанию, технические навыки абсолютно необходимы специалисту по данным. Вы можете изучить технические аспекты и навыки онлайн или в школах.

Тем не менее, я хотел бы поприветствовать вас в реальном мире, поскольку он применим к науке о данных.

В классическом сериале «Друзья», как сказала Моника Рэйчел после того, как Рэйчел разрезала все кредитные карты своего отца и решила жить самостоятельно …… .. «Добро пожаловать в реальный мир! Это отстой. Тебе это понравится "

Первый урок, который вы должны усвоить, войдя в «реальный мир» науки о данных, - это смотреть правде в глаза и управлять своими ожиданиями!

Вот некоторые из реалий:

1. «Большие данные» действительно не такие уж большие!

Физический размер. Во-первых, многие думают, что несколько гигабайт - это «большие» данные;

Вот как может начаться простой, но типичный разговор

«Итак, у вас есть данные… Это здорово. Подскажите, пожалуйста, сколько у вас данных? »

"Много …. В базе данных SQL хранится более 1 ГБ данных »

«1 ГБ !! Извините, но это действительно не большие данные, друг мой ».

Маркировка данных: когда данные не имеют эффективной и адекватной маркировки и от вас ожидается решение контролируемой проблемы, данные на самом деле не являются «большими» независимо от их физического размера.

Еще один простой разговор:

"Вот и наш 1 миллион изображений. Не могли бы вы определить, какое из них является дефектным?"

"Конечно, не могли бы вы показать мне, где помечены данные"

«С ярлыком ?!»

«К сожалению, без надлежащей маркировки изображений это представляет собой огромную проблему»

«Мы имеем в виду? Как вы знаете, у нас есть большие данные »

В большинстве случаев большие данные оказываются бесполезными, если они не помечены должным образом.

Хранение данных. Когда данные не хранятся, это фактически означает, что это вовсе не данные, не говоря уже о больших данных.

Производство больших данных - это не то же самое, что владение большими данными.

Однажды один очень высокопоставленный руководитель сказал мне, что у его команды есть огромное количество данных, и они в восторге от пути ИИ.

«Не могли бы вы показать мне, где находятся данные?» Я попросил.

«О, мы еще не собрали данные, но наши бизнес-процессы действительно производят огромное количество данных»

«К сожалению, без надлежащей маркировки изображений это представляет собой огромную проблему»

Стратегический сбор данных может занять месяцы или даже годы.

2. «Озеро данных» почти всегда довольно сухое!

Когда кто-то говорит вам, что они «построили озеро данных», вы никогда не должны просто предполагать, что данные чистые и доступные, и вы можете начать создавать свои удивительные алгоритмы.
Когда люди предлагают вам создать озеро данных, это вполне может означать, что они просто открыли корзину AWS S3 или экземпляр красного смещения.
Скорее всего, данных в озере данных пока нет!

3. «Витрины данных» все еще разрознены!
Действительно, бывают ситуации, когда размер данных велик, а сами данные правильно помечены И данные также отправляются в озеро данных - большие тики по всюду.
Отличные новости?
Ну, еще нет.
Вы можете обнаружить, что данные хранятся в нескольких базах данных и их нельзя «объединить».
Вы можете столкнуться с ситуацией, когда независимые переменные хранятся в одной базе данных, а зависимая переменная хранится в другой, и нет первичного ключа или уникального столбца, чтобы присоединиться к ним. Но ожидается, что вы решите проблему контролируемого обучения.

4. Мы - компания, «управляемая данными». Да неужели?
На самом деле это самый сложный.
Сказать, что у вас бизнес / компания, "управляемая данными", определенно не равнозначно бизнес-аналитике.
Наличие отчетов Tableau или PowerBI не должно быть конечной целью для любой компании, которая хочет быть «управляемой данными».
Я твердо верю, что необходимы два ключевых момента: необходимо определить ценностное предложение и разработать план аналитических возможностей для использования данных.
Компания, действительно работающая с данными, может начать с бизнес-аналитики, но никогда не должна на этом заканчиваться.

Это действительно отстой! Не так ли? Но мне это нравится, несмотря на трудности. Почему?

Потому что мы - люди, которые изменят текущее восприятие, вызовут дебаты и дискуссии о лучших способах и, в конечном итоге, добавят огромную ценность, которую дают данные и наука об их использовании. Я рассматриваю все эти проблемы как возможности, позволяющие определить новую эпоху, основанную на данных.

  • Мы сделаем большие данные «БОЛЬШИМИ»
  • Мы сделаем озеро данных «СВЕЖЕМ и ОБЕСПЕЧЕННЫМ»
  • Мы сделаем хранилища данных «СВЯЗАННЫМИ»
  • Мы сделаем организации действительно "НАПРАВЛЯЕМЫМИ ДАННЫМИ"
  • Мы сделаем так, чтобы данные «ГОВОРИЛИ»

Это мой первый пост из многих.

Я надеюсь, что вы смогли идентифицировать себя с некоторыми вещами, которые я описал в этой статье, а также извлекли из них некоторые уроки.

В будущих статьях я буду постоянно делиться своими взглядами на визуализацию данных, аналитику данных, науку о данных, машинное обучение и искусственный интеллект.

Давайте работать вместе, чтобы сделать каждую организацию, с которой мы работаем, «дружественной к данным и управляемой данными».

- - Юнна Вэй