В моем последнем посте Наука о данных — новая эра я описал, как традиционная наука о данных претерпевает изменения на предприятии. В этом посте я опишу создание спроса на корпоративную науку о данных и то, насколько сложно заполнить вакансии в области науки о данных. Для анализа я использовал статьи Forbes и IBM Quant Crunch.
Спрос
Специалисты по данным — это дорогостоящая рабочая сила следующего поколения, и им требуется больше всего времени, чтобы заполнить вакансию. Наука и аналитика данных (DSA) — это рынок, на котором специалисты по данным играют огромную роль наряду с инженерами данных и разработчиками данных. По данным McKinsey, списки вакансий DSA прогнозируются на уровне около 2,72 млн в США.
Поскольку спрос на рабочие места DSA увеличивается, это оказывает большое давление на предложение талантов DSA взамен. Мы взяли интервью у нескольких руководителей отделов обработки данных на нескольких предприятиях, и у них общая боль.
«Боже! Я хочу, чтобы нанимать специалистов по обработке и анализу данных было проще”
Сегодня средний список вакансий DSA может стоить около 100 тысяч долларов +, не считая льгот. На каждого опытного профессионала в этой области приходится огромная конкуренция среди множества предприятий. 81 % всех объявлений о вакансиях DSA запрашивают сотрудников с опытом работы не менее трех лет. Высокий спрос на опытных кандидатов в сочетании с сильным ростом многих должностей DSA создает проблему курицы и яйца на рынке труда DSA: у работников не так много возможностей получить опыт, связанный с DSA, который требуют работодатели. .
Учитывая вышеуказанные проблемы со спросом, есть потребность в инструментах для повышения производительности Data Science.
Современная продуктивность науки о данных
Сегодня большинство специалистов по данным тратят свое время на разные этапы: от обнаружения данных до создания моделей машинного обучения и, наконец, их оптимизации. Однако, если вы внимательно наблюдаете, это первый этап, в котором участвуют специалисты по данным, зависящие от инженерных и DevOps-команд. Итак, ниже приведены некоторые проблемы, с которыми сталкивается сегодняшняя организация DSA.
- Недостаток совместной работы. Взаимодействие межфункциональных команд с разными наборами навыков затруднено. Например: специалист по данным, который лучше всего разбирается в статистике, но может не уметь масштабировать, по сравнению с инженером по данным, который лучше всех разбирается в масштабировании, развертывании, но может плохо разбираться в статистике.
- Разрозненные операции. Часто команды, участвующие в жизненном цикле DSA, представляют собой межфункциональные команды, такие как Data Scientist, Data Engineer, Data Devops, которые большую часть времени работают изолированно.
- Дублированная работа. В большинстве случаев работа дублируется между разными членами команды сознательно или неосознанно, поскольку приоритетом для команды является выполнение, а не оптимизация.
- Автономные скрипты: скрипты пишутся межфункциональными командами внутри DSA, и часто один скрипт нельзя использовать для другого конвейера/модели машинного обучения.
- Никакой стандартизации: нет стандартизации фреймворков, на которые люди полагаются, чтобы установить строгие правила, а есть игра на ходу.
- Нет сквозного решения. Часто поставщики сосредотачиваются на небольшой проблеме внутри науки о данных, но не предоставляют комплексного решения для науки о данных. В конечном счете, внедрение моделей в производство — это совместная работа нескольких команд, требующая сквозной интеграции.
- Головная боль, связанная с масштабированием и развертыванием. В каждом третьем разговоре специалисты по работе с данными очень беспокоятся о том, как их модели будут масштабироваться и продолжать хорошо работать в масштабе.
- Усталость от обработки данных: ученые, получившие докторскую степень в ведущих учреждениях, сегодня тратят много времени непропорционально, а не на базовые алгоритмы.
- Кошмары разработки функций: Текущее отсутствие возможности повторного использования функций через каталог функций делает постоянное уточнение функций рутиной.
- A/B-тестирование на основе догадок. Возможность последовательно экспериментировать с объективными, репрезентативными переменными имеет решающее значение для воспроизводимых результатов между различными вариантами алгоритмов модели.
Учитывая эти проблемы, существует потребность в сквозных платформах развертывания жизненного цикла машинного обучения для производства.
Платформа искусственного интеллекта Datatron предоставляет то же самое. Для получения дополнительной информации обращайтесь по адресу [email protected]. Мы повышаем продуктивность команд специалистов по обработке и анализу данных как минимум на 30%.
Преимущества платформ данных жизненного цикла машинного обучения
- Повысить производительность команды специалистов по обработке и анализу данных как минимум на 30 %
- Более быстрые итерации и эксперименты дают модели более высокого качества
- Используйте операторы, не зависящие от языка
- Используйте потоковые данные с разной задержкой поступления
- Создавайте динамические модели с помощью онлайн-обучения
- Более быстрая адаптация новых членов команды
- Автоматически продвигать/понижать модели на основе KPI
- Возможность автоматического тестирования, управления и удаления моделей
Спасибо за чтение!
Чтобы увидеть больше статей, перейдите здесь!
Первоначально опубликовано на https://blog.datatron.com 17 декабря 2017 года. Автор Хариш Додди.