В моем последнем посте Наука о данных — новая эра я описал, как традиционная наука о данных претерпевает изменения на предприятии. В этом посте я опишу создание спроса на корпоративную науку о данных и то, насколько сложно заполнить вакансии в области науки о данных. Для анализа я использовал статьи Forbes и IBM Quant Crunch.

Спрос

Специалисты по данным — это дорогостоящая рабочая сила следующего поколения, и им требуется больше всего времени, чтобы заполнить вакансию. Наука и аналитика данных (DSA) — это рынок, на котором специалисты по данным играют огромную роль наряду с инженерами данных и разработчиками данных. По данным McKinsey, списки вакансий DSA прогнозируются на уровне около 2,72 млн в США.

Поскольку спрос на рабочие места DSA увеличивается, это оказывает большое давление на предложение талантов DSA взамен. Мы взяли интервью у нескольких руководителей отделов обработки данных на нескольких предприятиях, и у них общая боль.

«Боже! Я хочу, чтобы нанимать специалистов по обработке и анализу данных было проще”

Сегодня средний список вакансий DSA может стоить около 100 тысяч долларов +, не считая льгот. На каждого опытного профессионала в этой области приходится огромная конкуренция среди множества предприятий. 81 % всех объявлений о вакансиях DSA запрашивают сотрудников с опытом работы не менее трех лет. Высокий спрос на опытных кандидатов в сочетании с сильным ростом многих должностей DSA создает проблему курицы и яйца на рынке труда DSA: у работников не так много возможностей получить опыт, связанный с DSA, который требуют работодатели. .

Учитывая вышеуказанные проблемы со спросом, есть потребность в инструментах для повышения производительности Data Science.

Современная продуктивность науки о данных

Сегодня большинство специалистов по данным тратят свое время на разные этапы: от обнаружения данных до создания моделей машинного обучения и, наконец, их оптимизации. Однако, если вы внимательно наблюдаете, это первый этап, в котором участвуют специалисты по данным, зависящие от инженерных и DevOps-команд. Итак, ниже приведены некоторые проблемы, с которыми сталкивается сегодняшняя организация DSA.

  1. Недостаток совместной работы. Взаимодействие межфункциональных команд с разными наборами навыков затруднено. Например: специалист по данным, который лучше всего разбирается в статистике, но может не уметь масштабировать, по сравнению с инженером по данным, который лучше всех разбирается в масштабировании, развертывании, но может плохо разбираться в статистике.
  2. Разрозненные операции. Часто команды, участвующие в жизненном цикле DSA, представляют собой межфункциональные команды, такие как Data Scientist, Data Engineer, Data Devops, которые большую часть времени работают изолированно.
  3. Дублированная работа. В большинстве случаев работа дублируется между разными членами команды сознательно или неосознанно, поскольку приоритетом для команды является выполнение, а не оптимизация.
  4. Автономные скрипты: скрипты пишутся межфункциональными командами внутри DSA, и часто один скрипт нельзя использовать для другого конвейера/модели машинного обучения.
  5. Никакой стандартизации: нет стандартизации фреймворков, на которые люди полагаются, чтобы установить строгие правила, а есть игра на ходу.
  6. Нет сквозного решения. Часто поставщики сосредотачиваются на небольшой проблеме внутри науки о данных, но не предоставляют комплексного решения для науки о данных. В конечном счете, внедрение моделей в производство — это совместная работа нескольких команд, требующая сквозной интеграции.
  7. Головная боль, связанная с масштабированием и развертыванием. В каждом третьем разговоре специалисты по работе с данными очень беспокоятся о том, как их модели будут масштабироваться и продолжать хорошо работать в масштабе.
  8. Усталость от обработки данных: ученые, получившие докторскую степень в ведущих учреждениях, сегодня тратят много времени непропорционально, а не на базовые алгоритмы.
  9. Кошмары разработки функций: Текущее отсутствие возможности повторного использования функций через каталог функций делает постоянное уточнение функций рутиной.
  10. A/B-тестирование на основе догадок. Возможность последовательно экспериментировать с объективными, репрезентативными переменными имеет решающее значение для воспроизводимых результатов между различными вариантами алгоритмов модели.

Учитывая эти проблемы, существует потребность в сквозных платформах развертывания жизненного цикла машинного обучения для производства.

Платформа искусственного интеллекта Datatron предоставляет то же самое. Для получения дополнительной информации обращайтесь по адресу [email protected]. Мы повышаем продуктивность команд специалистов по обработке и анализу данных как минимум на 30%.

Преимущества платформ данных жизненного цикла машинного обучения

  • Повысить производительность команды специалистов по обработке и анализу данных как минимум на 30 %
  • Более быстрые итерации и эксперименты дают модели более высокого качества
  • Используйте операторы, не зависящие от языка
  • Используйте потоковые данные с разной задержкой поступления
  • Создавайте динамические модели с помощью онлайн-обучения
  • Более быстрая адаптация новых членов команды
  • Автоматически продвигать/понижать модели на основе KPI
  • Возможность автоматического тестирования, управления и удаления моделей

Спасибо за чтение!

Чтобы увидеть больше статей, перейдите здесь!

Первоначально опубликовано на https://blog.datatron.com 17 декабря 2017 года. Автор Хариш Додди.