В сообщении 2010 года под названием «Таксономия науки о данных» в блоге dataists Хилари Мейсон и Крис Виггинс представили структуру OSEMN. В основном это включало категоризацию общего рабочего процесса, который обычно выполняют специалисты по данным. Это список задач, над которыми ученый данных должен быть знаком и чувствовать себя комфортно.

В этом посте я расскажу о структуре науки о данных, проведя вас через каждый этап жизненного цикла проекта, а также обсудив ключевые навыки и требования.

Теперь давайте более подробно рассмотрим пять шагов структуры OSEMN.

1. Получить данные

Первым шагом является получение необходимых данных из доступных источников данных. На этом этапе вам необходимо запросить базы данных, используя такие технические навыки, как MySQL, для их обработки. Вы также можете получить файл Excel. Если вы Python или R, у них есть специальные пакеты (pandas, readxl), которые могут читать данные.

Другой популярный способ сбора данных — подключение к веб-API (такие веб-сайты, как Facebook и Twitter, позволяют пользователям подключаться к своим веб-серверам и получать доступ к своим данным, а также такие веб-сайты, как repidapi, имеют широкий спектр API).

И, конечно же, самый традиционный способ получения данных — непосредственно из файлов, таких как загрузка из Kaggle или существующих корпоративных данных, которые хранятся в формате CSV или TSV (значения, разделенные табуляцией).

Требуемые навыки:

  • Управление базой данных: MySQL, PostgresSQL,MongoDB
  • Запрос к реляционным базам данных
  • Извлечение неструктурированных данных: текст, видео, аудиофайлы, документы
  • Распределенное хранилище: Hadoops, Apache Spark/Flink

2. Очистка данных

Очистка данных — это процесс исправления или удаления неверных, поврежденных, неправильно отформатированных, дублирующихся или неполных данных в наборе данных. При объединении нескольких источников данных существует много шансов дублирования или неправильной маркировки данных. Например, если ваши данные хранятся в нескольких CSV-файлах, вы объедините эти CSV-данные в единый репозиторий, чтобы их можно было обрабатывать и анализировать.

Если данные неверны, результаты и алгоритмы ненадежны, даже если они могут выглядеть точными. Хотя это часто самая трудоемкая (и для большинства скучная) задача, это важный шаг.

Думайте об этом процессе как об организации и упорядочении данных, удалении того, что больше не нужно, замене отсутствующего и стандартизации формата всех собранных данных.

Требуемые навыки:

  • Язык сценариев: Python, R, SAS.
  • Инструменты обработки данных: Python Pandas, R
  • Распределенная обработка: Hadoop, Map Reduce / Spark

3. Исследуйте данные

Как только ваши данные будут готовы к использованию, и прямо перед тем, как перейти к искусственному интеллекту и машинному обучению, вам нужно будет изучить данные.

Обычно в корпоративной или деловой среде ваш начальник просто выдает вам набор данных, и вы сами должны их понять. Таким образом, вы должны помочь им понять бизнес-вопрос и преобразовать их в вопрос о науке о данных.

Для этого нам нужно изучить данные. Прежде всего, вам нужно будет проверить данные и их свойства. Различные типы данных, такие как числовые данные, категориальные данные, порядковые и номинальные данные и т. д., требуют разной обработки.

Термин «функция», используемый в машинном обучении или моделировании, — это функции данных, которые помогают нам идентифицировать характеристики, представляющие данные. Например, «Имя», «Возраст», «Пол» — это типичные характеристики набора данных участников или сотрудников.

Наконец, мы будем использовать визуализацию данных, чтобы помочь нам определить важные закономерности и тенденции в наших данных. Мы можем получить лучшую картину с помощью простых диаграмм, таких как линейные диаграммы или гистограммы, которые помогут нам понять важность данных.

Требуемые навыки:

  • Python: Numpy, Matplotlib, Pandas, Scipy
  • R: GGplot2, Dplyr
  • Выводная статистика
  • Экспериментальный дизайн
  • Визуализация данных

4. Данные модели

На четвертом этапе мы используем методы машинного обучения, чтобы помочь вам разобраться в данных и получить важную информацию для принятия решений на основе данных. Как многие бы сказали, там, где происходит волшебство.

Еще раз, прежде чем перейти к этому этапу, имейте в виду, что этапы очистки и исследования одинаково важны для создания полезных моделей. Так что не торопитесь на этих этапах вместо того, чтобы сразу переходить к этому процессу.

Первое, что вам нужно сделать при моделировании данных, — это уменьшить размерность вашего набора данных. Не все ваши функции или значения необходимы для прогнозирования вашей модели. Что вам нужно сделать, так это выбрать релевантные из них, которые способствуют прогнозированию результатов.

Есть несколько задач, которые мы можем выполнить в моделировании. Мы также можем обучить модели выполнять классификацию для различения полученных вами электронных писем как «Входящие» и «Спам» с помощью логистической регрессии. Мы также можем прогнозировать значения, используя линейную регрессию. Мы также можем использовать моделирование для группировки данных, чтобы понять логику этих кластеров. Например, мы группируем наших клиентов электронной коммерции, чтобы понять их поведение на вашем веб-сайте. Это требует от нас идентификации групп точек данных с помощью алгоритмов кластеризации, таких как k-means или иерархическая кластеризация.

Короче говоря, регрессия и прогнозы используются для прогнозирования будущих значений, а классификация идентифицирует и группирует ваши значения.

Требуемые навыки:

  • Машинное обучение: контролируемые/неконтролируемые алгоритмы
  • Методы оценки
  • Библиотеки машинного обучения: Python (Sci-kit Learn) / R (CARET)
  • Линейная алгебра и многомерное исчисление

5. Интерпретация данных

На последнем этапе мы пытаемся осмыслить данные, упрощая и суммируя результаты всех построенных моделей и сообщая о наших выводах.

Интерпретация данных относится к представлению ваших данных нетехническому неспециалисту. Мы предоставляем результаты, чтобы ответить на бизнес-вопросы, которые мы задавали, когда впервые начали проект, вместе с практическими идеями, которые мы получили в процессе обработки данных.

Практическое понимание — это ключевой результат, который мы показываем, как наука о данных может привести к прогнозной аналитике, а затем и к предписывающей аналитике. В котором мы узнаем, как повторить положительный результат или предотвратить отрицательный результат.

Кроме того, вам нужно будет соответствующим образом визуализировать свои выводы, руководствуясь вашими бизнес-вопросами. Крайне важно представить свои выводы таким образом, чтобы они были полезны для организации, иначе это было бы бессмысленно для ваших заинтересованных сторон.

Для этого необходимо прийти к осмысленным выводам и обосновать практические выводы, которые позволят и поддержат вас и ваших коллег в определении следующего направления действий.

Требуемые навыки:

  • Знания в сфере бизнеса
  • Инструменты визуализации данных: Tablaeu, D3.JS, Matplotlib, GGplot, Seaborn.
  • Общение: презентация/выступление и отчетность/письмо

Заключение

Подводя итог,

  • Сформулируйте свою бизнес-задачу
  • Получить ваши данные

получать свои данные, очищать свои данные, исследовать свои данные с помощью визуализаций, моделировать свои данные с помощью различных алгоритмов машинного обучения. , интерпретируйте данные путем оценки и обновите свою модель.

Помните, что мы ничем не отличаемся от данных. У нас обоих есть ценности, цель и причина существования в этом мире.

Большинство проблем, с которыми вы столкнетесь, на самом деле являются инженерными проблемами. Даже со всеми ресурсами великого бога машинного обучения большая часть влияния будет исходить от великолепных функций, а не от великолепных алгоритмов машинного обучения. Итак, основной подход:

  1. Убедитесь, что ваш конвейер надежен от начала до конца
  2. Начните с разумной цели
  3. Понимайте свои данные интуитивно
  4. Убедитесь, что ваш конвейер остается надежным

Мы надеемся, что этот подход принесет много денег и/или сделает многих людей счастливыми в течение длительного периода времени.

Итак… в следующий раз, когда вас спросят, что такое наука о данных. Скажите им:

«Наука о данных — это OSEMN»

Надеюсь, сегодня вы чему-то научились! Если есть что-то, что вы, ребята, хотели бы добавить к этой статье, не стесняйтесь оставлять сообщение и не стесняйтесь! Любая обратная связь действительно приветствуется. Не бойтесь поделиться этим! Спасибо!

Использованная литература:





Если вам нравится мой блог, подписывайтесь, делитесь, лайкайте