На Quora кто-то недавно спросил: «Почему так много специалистов по фальшивым данным и инженеров по машинному обучению?» Хотя шумиха вокруг науки о данных неоспорима, действительно ли она вызывает приток фейков, или мы просто наблюдаем, как поле пытается найти свою идентичность? Давайте честно посмотрим, где мы находимся в области науки о данных и что действительно определяет «настоящего» специалиста по данным.

Сказать, что существует большое количество фальшивых специалистов по данным, значит предположить, что вы знаете, как выглядит реальная версия этой позиции. Если бы вы разместили свой вопрос о том, как узнать настоящего специалиста по данным, когда его увидят, вы столкнетесь с такой же степенью неопределенности.

Например, кто из них «самый настоящий» специалист по анализу данных?

  • Кандидат искусственного интеллекта, никогда не работавший над корпоративным производственным программным обеспечением;
  • Физик с глубокими знаниями в области моделирования физики, но без опыта моделирования на основе данных;
  • Статистик, который является экспертом в области выборки, интерпретации и оценки, но который работал только с параметрическими моделями;
  • Нейробиолог с огромным опытом разработки исследовательских экспериментов, который никогда не писал ни строчки кода;
  • Выпускник со степенью магистра машинного обучения, который никогда не проверял модель на глазах у реальных пользователей;
  • Разработчик программного обеспечения, понимающий передовой опыт, который никогда не пробовал тестировать программное обеспечение с недетерминированным результатом;
  • Новоиспеченный выпускник Data Science, чей «опыт» получен на курсах и семинарах;
  • Математик, который занимается теорией оптимизации, но не может объяснить ее важность заинтересованным сторонам, не имея технической подготовки.

Кого бы вы выбрали? Никто не может с полным правом сказать, кто из этого или любого другого списка станет лучшим специалистом по анализу данных или любым другим специалистом в области машинного обучения. Наука о данных находится в зачаточном состоянии и становится областью, в которой она должна быть для поддержки продуктов следующего поколения. Разработка продукта намного сложнее, чем набор базовых теорий, которые имеют смысл только в вакууме. Более сложный, чем академический подход к разработке алгоритма обучения, который никогда не увидит свет. Более интенсивный, чем анализ семинара по созданию модели с использованием чистых наборов данных.

Вот почему не существует ОДНОГО человека или ОДНОГО фона, которые можно было бы определить как «настоящие». Как и любая успешная система по своей природе, Data Science извлекает выгоду из разнообразия, где разные мнения и опыт влияют на то, как решать проблемы. Единственная метрика «настоящего» - это искренняя страсть, которую нужно привнести в процесс решения проблем и получения этого нового вида продукта на глазах у реальных людей. Наука о данных - это не то место, где живет математическая элегантность или передовой академический дизайн. Это запутанный мир, который намного сложнее, чем что-либо, к чему вас могли бы подготовить ученая степень или специальная подготовка. Единственные «фальшивые», которые живут здесь, - это те, кто гонится за зарплатой выше обучения или считает, что «умный» определяется вашей способностью бросать наивные формулы на доску, которую никто не использует. Эти люди живут недолго, их отфильтровывает естественный процесс, когда наши усилия подотчетны единственному, что имеет значение; создание продукта, которым люди хотят пользоваться.

Наука о данных вступает в свои права, поскольку мы только сейчас закладываем основы в этой области. Я могу сказать вам, что если вы придете в науку о данных, думая, что она будет работать как академическое машинное обучение, вы потерпите неудачу. Если вы думаете, что создание продуктов машинного обучения выглядит так же, как и массовая гибкая разработка, вы потерпите неудачу. Если вы думаете, что статистическая проверка - это верный указатель на то, чтобы данные работали внутри предсказуемого приложения, вы потерпите неудачу. И если вы считаете, что математика важнее концепций высокого уровня, каждый может понять, что вы проиграете.

Реальная окупаемость наших усилий достигается за счет разнообразия и абстракции. Требуется сочетание многих навыков и опыта, чтобы получить осязаемую часть программного обеспечения, которая улучшает опыт пользователей. Ни одна компания не «поняла» Data Science и не может заявить, что владеет инновациями для продуктов, которые изменят правила игры завтрашнего дня. Если вы увлечены использованием данных и работой с группами людей для создания чего-то, что меняет саму суть того, как мы используем технологии, то присоединяйтесь к нам. Он сложный, беспорядочный, полный ошибок и далек от идеализированного окружения за башнями из слоновой кости. Но оно того стоит. Вот что реально.