В науке о данных, да и в науке в целом, проблемы, которые необходимо решить, часто не ясны. Если вы не занимаетесь наукой, это может вас удивить. Когда вы читаете исследовательские статьи, часто может показаться, что решение проблем, затронутых в статье, является естественным следующим шагом в этой области, но часто это не так, и часто требуется много творческого подхода, чтобы просто прийти к решению, какие вопросы отвечать. То же самое относится и к промышленности, если не в большей степени. Многие компании имеют большие хранилища данных, но не знают, что они могут делать с этими данными (т.е. они не знают, какие вопросы им следует задавать), но это нормально! К счастью для компаний, они могут нанять людей, которые являются экспертами в поиске ценности в данных, - исследователями данных. Хороший специалист по данным чувствует себя комфортно, работая в областях неопределенности, и способен выявлять и решать проблемы, которые приносят пользу компании.

С точки зрения обучения выявлению и решению этих типов проблем, это непрерывный процесс обучения, который часто приобретается на основе опыта. Что касается меня, в настоящее время я работаю специалистом по обработке данных в промышленности, но в основном я получил подготовку по работе в областях неопределенности, когда я получил степень доктора философии. Я часто работал с наборами данных, которые собирал другой исследователь, который больше не работал в университете, и проблема, которую нужно было решить, не всегда была ясна. Но все же это непрерывный процесс обучения.

Несмотря на то, что я считаю, что лучше всего изучить этот набор навыков на собственном опыте, чтобы вы начали, здесь я собираюсь поделиться несколькими стратегиями, которые я нашел полезными для выявления и решения неоднозначных проблем в области науки о данных.

1. Определите серьезные проблемы, которые можно решить с помощью науки о данных.

Обычно, работая с предприятиями, специалисты по данным стараются помочь увеличить прибыль. Скорее всего, будет много проблем, если их решение приведет к увеличению прибыли, но поскольку в сутках очень много часов, полезно выявить серьезные проблемы, которые, вероятно, выиграют от науки о данных. Пытаясь определить серьезные проблемы, которые нужно решить, я часто проверяю клиента на предмет проблем, которые приведут либо к увеличению дохода, либо к снижению затрат. В качестве нескольких примеров можно привести создание рекомендательной системы для увеличения продаж или оптимизацию рабочего процесса распределения для снижения затрат. Многие сценарии следует изучить и обсудить. Также важно учитывать осуществимость проблемы, и именно здесь вступает в игру шаг №2.

2. Определите доступные данные или ресурсы для сбора новых данных.

После определения нескольких возможных проблем следующим шагом будет определение данных, которые можно использовать для решения этой проблемы. Для решения проблемы науки о данных, как правило, необходимы данные. Это могут быть данные, которыми компания уже владеет, или, возможно, набор данных с открытым исходным кодом (или даже комбинация того и другого!). Также могут быть случаи, когда лучше всего собрать новые данные. В зависимости от того, какие данные собираются, это может оказаться не так сложно, как вы думаете, с использованием таких сервисов, как Amazon Mechanical Turk. Ничего страшного, если данные не идеальны. Многие специалисты по данным имеют обширный опыт работы с беспорядочными данными, поэтому для нас в этом нет ничего нового; Кроме того, на шаге № 4 я расскажу, как мы можем улучшить наборы данных с течением времени. После просмотра источников данных следующий шаг - выбрать первую задачу для решения!

3. Решите проблему.

Следующим шагом будет решение проблемы! Большая часть моей работы связана с обучением классификатора машинного обучения, но очень важно понимать, что обучение модели обычно является лишь частью решения. Часто наиболее важным шагом является интерпретация модели, а не просто предсказания модели. Например, вы можете обучить модель, которая будет предсказывать, сохраните ли вы клиента или нет, но одно это предсказание бесполезно. Вам необходимо определить, какими функциями вы можете манипулировать, чтобы изменить поведение клиентов. Именно здесь часто вступают в игру методы интерпретации модели и беговое моделирование. Подробнее об этом я рассказываю в предыдущем посте в блоге.

4. Итерировать

В зависимости от типа проблемы, часто даже после того, как проблема «решена», еще предстоит проделать дополнительную работу. Во-первых, на шаге № 2 я упомянул, что вы часто хотите улучшить набор данных с течением времени. Например, вы можете захотеть получить обратную связь от пользователей, чтобы продолжить увеличивать размер вашего набора данных. По мере роста набора данных и повышения качества вы можете попробовать более сложные подходы к машинному обучению. Кроме того, в связи с получением обратной связи от пользователей, в зависимости от типа проблемы, вам, вероятно, придется отслеживать отклонение модели (т. Е. Следить за тем, чтобы производительность модели оставалась на ожидаемом уровне).

Выводы

Я надеюсь, что эти шаги будут вам полезны. Опять же, привыкание к неопределенности - это процесс обучения, поэтому ничего страшного, если вы поначалу боретесь. Если вы начинающий специалист по данным, я думаю, что первый шаг в плане изучения этого набора навыков - просто осознать, что многие компании не знают точных вопросов, на которые они должны отвечать, чтобы извлечь пользу из своих данных, так что вы уже выполнили первый шаг! Наконец, если вы считаете, что ваша компания может извлечь выгоду из моих услуг, не стесняйтесь обращаться ко мне (моя контактная информация доступна на моем веб-сайте).