Наука о данных - это термин, который ускользает от какого-либо единственного полного определения, что затрудняет его использование, особенно если цель состоит в том, чтобы использовать его правильно. Если вы изучаете науку о данных или впервые выходите на рынок труда в области науки о данных, вас простят за некоторую путаницу в отношении того, что на самом деле влечет за собой карьера в области науки о данных.

В этой серии из двух частей мы исследуем различные аспекты науки о данных, от необходимых навыков до команд и конкретных ролей. Эта серия основана на недавно опубликованном отчете Workera Карьерный путь AI: встаньте на правильный путь.

Вы можете прочитать вторую часть здесь:



Часть I: жизненный цикл разработки ИИ и необходимые навыки

Чтобы понять, какие навыки необходимы для работы в области науки о данных, лучше всего начать с того, как обычно работает жизненный цикл разработки проекта ИИ.

Сначала кто-то готовит данные для моделирования. Затем кто-то обучает модель на этих данных. Как только это произойдет, модель будет доставлена ​​заказчику. Затем члены команды анализируют модель, чтобы определить, принесла ли она пользу бизнесу и / или пользователю. Если все пойдет хорошо, цикл повторится с новыми данными, моделями и анализами. Все это время люди, работающие в инфраструктуре искусственного интеллекта, создают программное обеспечение для повышения эффективности цикла.

Инженерия данных

Данные - это фундамент, на котором строится наука о данных, машинное обучение, глубокое обучение и искусственный интеллект. Традиционные данные хранятся в различных базах данных и файлах, в то время как большие данные представляют собой структурированные или неструктурированные данные в формате от чисел до текста, изображений, видео или аудио в больших объемах, таких как тера-, пета-, эксабайты, и хранятся в специализированных хранилища данных.

Инженеры по обработке данных несут ответственность за подготовку данных и преобразование их в форматы, которые могут использовать другие члены команды. Им необходимы сильные навыки программирования и разработки программного обеспечения, в идеале в сочетании с навыками машинного обучения, которые помогут им принимать правильные проектные решения, связанные с данными. Они обычно используют инструменты больших данных, такие как Hadoop и Hive, навыки языка запросов, такие как SQL, и языки объектно-ориентированного программирования (ООП), такие как Python, Java и C ++.

Общие задачи инженерии данных включают в себя:

  • Определение требований к данным
  • Сбор данных
  • Маркировка данных
  • Проверка и очистка данных
  • Дополнение данных
  • Перемещение данных и построение конвейеров данных
  • Запрос данных
  • Данные отслеживания

Эта часть цикла разработки формирует основу, на которой строятся следующие шаги, поэтому крайне важно определить результаты проекта в целом. Как говорят в машинном обучении, «мусор на входе, мусор на выходе».

Моделирование

Раздел моделирования - моя любимая часть, и это то, о чем многие люди думают, когда говорят о науке о данных. Мне больше всего нравится эта часть, потому что здесь искусство и наука объединяются и сливаются, чтобы обеспечить результат. Я считаю, что наука о данных - это искусство, так как два разных специалиста по данным будут по-разному решать проблемы с помощью разработки функций и выбора используемых алгоритмов; это само по себе прекрасно.

Люди, которым поручено моделирование, ищут закономерности в данных, которые могут помочь организации предсказать результаты различных бизнес-решений, выявить риски и возможности или определить причинно-следственные связи.

Моделирование может выполняться на Python, R, Java, MATLAB, C ++ или на любом другом желаемом языке программирования. Здесь важен прочный фундамент в области математики, статистики и машинного обучения, а также творческий подход к решению проблем.

Общие задачи моделирования включают в себя:

  • Подбор вероятностных и статистических моделей
  • Обучение машинному обучению и моделям глубокого обучения
  • Ускорение тренировок
  • Определение показателей оценки
  • Ускорение времени предсказания
  • Итерация по эффективному циклу проектов машинного обучения
  • Поиск гиперпараметров
  • Своевременно обновляйте свои знания

Наиболее распространенные методы машинного обучения включают: линейную регрессию, логистическую регрессию, деревья решений, случайный лес, XGBoost, машины опорных векторов, K-средних, K-ближайших соседей, нейронные сети, анализ главных компонентов. Навыки глубокого обучения требуются компаниям, специализирующимся на компьютерном зрении, обработке естественного языка или распознавании речи.

Развертывание

Эта часть цикла превращает хорошую модель в полезный продукт. Потоки данных объединяются с моделью и тестируются перед началом производства. Облачные технологии, такие как AWS и Azure, могут сделать развертывание более быстрым и успешным.

Задачи при развертывании включают:

  • Преобразование кода прототипа в производственный код
  • Настройка облачной среды для развертывания модели
  • Ветвление (контроль версий) с помощью такого инструмента, как GitHub
  • Улучшение времени отклика и экономия полосы пропускания
  • Шифрование файлов, в которых хранятся параметры модели, архитектура и данные.
  • Создание API-интерфейсов для приложения, использующего модель
  • Переобучение моделей машинного обучения
  • Установка моделей на устройства с ограниченными ресурсами

Бизнес-анализ

Цель любого проекта в области науки о данных - обеспечить ценность, а это обычно означает ценность для бизнеса. Начиная с науки о данных, вы можете спросить, что происходит с моделями после развертывания. Здесь на помощь приходит бизнес-анализ. Члены команды на этом этапе предлагают или вносят изменения, чтобы либо увеличить выгоду, либо отказаться от непродуктивных моделей.

В этом секторе цикла разработки рекомендуется, чтобы члены команды обладали сильными коммуникативными навыками и деловой хваткой, а также необходимыми принципами аналитики для данного проекта в области науки о данных.

Задачи бизнес-анализа включают:

  • Создание визуализаций данных
  • Создание информационных панелей для бизнес-аналитики
  • Представление технической работы клиентам или коллегам
  • Преобразование статистики в полезные бизнес-идеи
  • Анализ наборов данных
  • Проведение экспериментов для анализа развернутых моделей
  • Проведение кампаний A / B-тестирования

Например, перед командой стоит задача создать механизм рекомендаций, который будет предоставлять пользователям шутки для комедийных онлайн-сериалов. Люди, ответственные за бизнес-анализ, будут использовать эти данные для оценки эффективности системы рекомендаций и измерения того, какую ценность она создает для клиента.

Инфраструктура ИИ

Команда, занимающаяся инфраструктурой искусственного интеллекта, создает и поддерживает надежные, быстрые, безопасные и масштабируемые программные системы, чтобы помочь людям, занимающимся проектированием данных, моделированием, развертыванием и бизнес-анализом. Они создают инфраструктуру, поддерживающую проект.

Продолжая пример с рекомендателем шуток, кто-то в инфраструктуре ИИ должен гарантировать, что рекомендательная система доступна круглосуточно и без выходных для глобальных пользователей, что базовая модель надежно хранится и что взаимодействия пользователя с моделью на веб-сайте можно надежно отслеживать. .

Работа с инфраструктурой искусственного интеллекта требует сильных и широких навыков разработки программного обеспечения для написания производственного кода и понимания облачных технологий, таких как AWS и Azure.

Задачи в инфраструктуре ИИ включают:

  • Принятие решений по разработке программного обеспечения
  • Построение распределительных систем хранения и баз данных
  • Дизайн для масштаба
  • Поддержка программной инфраструктуры
  • Сети
  • Защита данных и моделей
  • Написание тестов

Имея представление о жизненном цикле разработки ИИ, теперь мы можем посмотреть, как разные должности влияют на разные части цикла. Скоро ознакомьтесь со второй частью, где мы более подробно исследуем роли в науке о данных.

Эта серия из двух частей основана на недавно опубликованном отчете Workera Пути карьерного роста AI: встаньте на правильный путь. Посетите workera.ai для получения дополнительной информации и ресурсов по подготовке к собеседованию и тестам в роли специалиста по данным и машинного обучения.



Дерик Казимото завершает степень магистра наук о данных по специальности "Финансовые технологии" в Университете Кейптауна. Он является студенческим послом Зинди в UCT и председателем Общества криптовалюты и искусственного интеллекта UCT. После получения степени он планирует работать в сфере финансовых услуг.