Всего пять лет назад наука о данных была бурно развивающейся карьерой, которой хотел заниматься ВСЕ. Высокий рыночный спрос был высоким, а предложение талантов было низким, что приводило к шестизначным зарплатам для должностей начального уровня. Престижные университеты (например, Калифорнийский университет в Беркли, Нью-Йоркский университет, Массачусетский технологический институт и т. д.) поспешили запустить программы Науки о данных и мгновенно заполнили аудитории; лучшие учебные лагеря по науке о данных, несмотря на наличие докторской степени. степень в области STEM, принимали только 2% la-creme-de-la-creme; и деньги текли как форма инвестиций в будущее, с многочисленными примерами, такими как Инициатива по науке о данных на 100 миллионов долларов.

Однако тот золотой век давно прошел. Первыми исчезли простые, но необходимые задачи, которые раньше отнимали значительное количество времени ученых и аналитиков данных. Интеграция данных с различными платформами может осуществляться с помощью подключаемых модулей; дальнейшие этапы преобразования и манипулирования теперь выполняются с помощью перетаскивания, а причудливая интерактивная панель инструментов может быть настроена в мгновение ока с использованием набора инструментов визуализации. Все вышеперечисленное можно выполнить с нулевыми навыками программирования.

Можно справиться даже с машинным обучением: существуют десятки готовых решений, которые делают обучение функциональной модели машинного обучения надежной. существуют решения, в которых все, что вам нужно сделать, это загрузить файл CSV и определить, что предсказывать, и для обучения будут использоваться сотни алгоритмов, и лучшая модель будет автоматически обнаружена — без участия кодирования. Крупные технологические компании хорошо уловили легкость и простоту взаимодействия с пользователем в названиях своих продуктов: «AutoML Tables» (Google) или «Autopilot» (Amazon) — все происходит АВТОМАТИЧЕСКИ и с первоклассной производительностью.

Если все работает автоматически, как по волшебству, что остается специалистам по данным?

Прежде всего, позвольте мне просто указать, что, какими бы впечатляющими ни были эти готовые решения, у каждого из них неизбежно есть ограничения. Некоторые берут только хорошо структурированные, табличные данные (а мы все знаем, что это редкость в реальном мире), другие не предлагают гибкости с точки зрения настройки модели, и почти все они оставят брешь в вашем кошельке (в конце концов , вы перебираете больше моделей, чем вам нужно). В этом смысле есть еще много способов, которыми хороший специалист по данным может быть полезен для организации всего процесса и обеспечения оптимизированной модели по разумной цене.

Более ценным, но часто упускаемым из виду активом специалиста по обработке и анализу данных является его / ее опыт в предметной области и способность решать бизнес-проблемы с помощью технических знаний. Решения типа AutoML не будут отображать альтернативные наборы данных, которые могли бы улучшить производительность модели, и не будут предлагать новую модель для устранения узких мест в бизнес-процессе. Когда дело доходит до важного бизнес-решения с точки зрения подхода ML, что установить в качестве базового уровня, что достаточно хорошо для поставки в качестве MVP, знающие и опытные специалисты по данным могут изменить мир к лучшему. В этой степени то, что делают AutoML-решения, по сути, заботятся о «приземленной» части работы по науке о данных, так что специалист по данным может направить свою энергию на более важный аспект проблемы и, в конечном итоге, решить проблему. более высокие значения. Это особенно важно в условиях стартапа, где ресурсы часто более ограничены. Сосредоточение специалистов по обработке и анализу данных на наиболее важном аспекте работы и разумное распределение ограниченных ресурсов для быстрого получения результатов может привести к успеху или краху компании.

Можно с уверенностью сказать, что AutoML знаменует собой не конец эпохи, а начало захватывающей главы, в которой специалисты по данным становятся неотъемлемой частью успеха в бизнесе.