Дело не только в технологиях и алгоритмах

Наука о данных сложна, получить ценность от данных сложно, и большинство проектов данных терпит неудачу. Это все боли, которые мы чувствовали, когда пытались предоставить решение для науки о данных. После разговоров с разными людьми в отрасли наиболее распространенной проблемой, с которой сталкиваются группы по обработке данных на местах, часто называют сложность создания решения для обработки данных. В этом утверждении есть доля правды, но я считаю, что существует общее заблуждение относительно того, почему это так сложно. И, не имея надлежащего понимания того, откуда исходит сложность, мы продолжим бороться за то, чтобы приносить пользу.

Тем, кто работал над бизнес-проблемой с реальными данными, мы знаем, как с этим связаны боль и сложность. Получить ценность из данных сложно, сложно, потому что данные беспорядочные, сложно, потому что статистические допущения не всегда верны на практике, и сложно, потому что иногда у нас даже нет правильных данных, чтобы ответить на вопрос. Однако, как бы нам ни хотелось думать, что сложность науки о данных проистекает из технических проблем, я считаю, что настоящая сложность кроется в другом.

Какую проблему мы решаем?

Как часто мы останавливаемся и задаемся этим вопросом? К сожалению, не так часто. Я уверен, что у всех нас был большой опыт обучения в прошлом, когда мы тратили слишком много времени на создание решения, которое не решало проблему, которую мы намеревались решить. Дело не в том, что мы не знаем, как найти правильное решение, но мы плохо отслеживаем более широкую картину, когда сосредотачиваемся на технической проблеме. Мы часто тратим слишком много времени на обсуждение того, хорошо ли разработано решение с технической точки зрения, и недостаточно времени на проверку того, решает ли решение ту проблему, которую мы пытаемся решить.

Неважно, насколько хорошо масштабируется ваше решение, насколько точно ваша модель может предсказать или какой у вас тестовый охват, это все равно бесполезное решение, если оно не решает правильную проблему. Одна из самых больших сложностей - понять, какую бизнес-проблему вы пытаетесь решить, потому что иногда у вас нет проблемы науки о данных, и, конечно, решение для науки о данных не принесет вам никакой пользы.

Вы занимаетесь данными или наукой?

Взрыв популярности науки о данных вызван возможностью собирать, обрабатывать и анализировать большой объем данных, и основная предпосылка машинного обучения заключается в том, что использование большого количества данных и простого алгоритма даст лучшие результаты, чем сложная модель. с небольшим объемом данных. Несмотря на то, что это широко распространенное мнение в отрасли, мы по-прежнему видим, что компании уделяют больше внимания науке, а не данным. Специалистам по обработке данных щедро платят за тестирование различных алгоритмов и настройку гиперпараметров, но на самом деле алгоритм не является сложной частью решения. С другой стороны, задачи очистки данных, понимания нюансов и последствий того, как данные собираются и как их следует использовать, а также извлечения значимых функций из беспорядочных данных, не одобряются отраслью, как если бы они были чем-то ниже что должен делать специалист по данным. Сложность науки о данных заключается в данных, но мы не тратим на это достаточно времени и энергии. Хотя мы получаем предельные выгоды, делая более точные научные исследования, мы получаем гораздо более значительные улучшения, если используем более качественные данные.

Вы строите правильные вещи?

Создание решения для науки о данных ничем не отличается от создания программного решения в том смысле, что важно то, что решение должно решать проблему. Мы не используем Netflix, потому что у них отличная микросервисная архитектура, мы не используем LinkedIn, потому что у них есть платформа распределенной потоковой передачи, и мы, конечно же, не используем Google, потому что у них есть надежная система оркестровки контейнеров. Технологии - это круто, и как ботаник я понимаю их привлекательность и даже желание поиграть с ними, но это всего лишь инструменты, и наличие большего количества инструментов не поможет вам найти правильное решение.

Нам нужно сосредоточиться на получении ценности от данных, может быть, нам нужна модель машинного обучения, может быть, нам нужна информационная панель, или, может быть, нам просто нужен простой еженедельный отчет. Поиск технологии, отвечающей вашим потребностям, является первым приоритетом, а все остальное становится важным только после того, как мы решим основную проблему. Нам нравится тратить время на обеспечение будущего нашего дизайна, автоматизацию конвейеров CI / CD и оптимизацию производительности. Хотя эти вещи важны, они ничего не значат, если наше решение не работает. Просто подумайте, будете ли вы по-прежнему подписываться на Netflix, если у них нет шоу, которое вы хотите посмотреть, но они говорят вам, что у них хорошо спроектированная система.

Что вы собираетесь с этим делать?

Последняя сложность заключается в том, что мы делаем с решением после его создания. Наука о данных могла бы дать нам более эффективные инструменты, но, в конце концов, она дает не более чем набор цифр. Эти цифры могут сообщить нам ценную информацию, например, собираются ли наши клиенты отказываться от них, какие продукты они заинтересованы в покупке или как мы можем лучше всего с ними общаться. Но это просто числа, если мы не используем их для чего-то, и нам нужно применить решение на практике, чтобы получить пользу от наших данных. Среднестатистическое развернутое и используемое решение гораздо более ценно, чем отличное решение, которое никогда не выходит в свет.

Создание решений для науки о данных, которые решают наши проблемы, несомненно, сложно, и неудивительно, что компании, которые смогли их предоставить, получают преимущество над своими конкурентами. Заманчиво думать, что эти компании добились успеха, потому что они решили всю техническую сложность проблемы, но если мы сделаем шаг назад, мы также должны признать, что они успешны благодаря чему-то большему, чем просто техническая компетентность. У них есть четкое представление о том, какую проблему они пытаются решить, они понимают данные, с которыми работают, они сосредоточены на создании правильных вещей и, что наиболее важно, они применяют решение на практике. Поэтому, если вы хотите добиться успеха в создании решения для ваших проблем в области науки о данных, убедитесь, что вы понимаете, в чем заключается истинная сложность.

Если вам понравился мой контент, подпишитесь на https://jchoi.solutions/subscribe