Заметки об ИИ

Как создать стратегию обработки данных для вашей организации

Три основных принципа создания надежной стратегии обработки данных

Здесь я хочу простыми словами описать стратегию обработки данных и помочь вам создать ее для вашей организации. В последние годы данные стали стратегическим ресурсом для компаний, и каждая компания должна разработать стратегию обработки данных, чтобы не проиграть игру своим конкурентам. Главный вопрос - как? Чтобы ответить, вы должны, во-первых, понять, что такое стратегия данных. Затем вы должны создать план, адаптированный к вашей организации, зная ограничения и возможности. Короче говоря, стратегия данных состоит из трех основных столпов: (1) ценность, (2) сбор и (3) архитектура. Стратегия обработки данных имеет и другие аспекты, которые я не затрагиваю в этой статье. Если вы не справитесь с какой-либо из этих составляющих, вы не сможете оправдать свои ожидания.

Я решил написать эту статью после того, как получил множество положительных отзывов о моей предыдущей статье под названием На пути к проведению крупномасштабного сбора данных, в которой я поделился некоторыми идеями по предотвращению распространенных ошибок при проведении сбора данных.



Ценить

Стратегия данных должна описывать, как вы можете создать бизнес-ценность в организации с помощью данных. Существует два основных способа: (а) создание продукта или услуги на основе данных (внешние продукты) и (б) создание отчетов и получение информации (внутренние продукты). Стратегия обработки данных должна быть согласована с корпоративной стратегией (в частности, со стратегией цифровизации) и не может осуществляться отдельно. Поэтому он должен быть определен и утвержден владельцами бизнеса; в противном случае она никогда не выйдет за пределы младенческой стадии.

Вы можете создать продукт или услугу на основе данных, которые будут приносить доход поверх существующих. Например, компания, которая создает дизайнера электронной почты, может добавить систему рекомендаций на основе данных для своих клиентов, чтобы упростить создание электронных писем или, что еще лучше, сделать их более привлекательными. Вы также можете использовать данные для анализа и создания отчетов для улучшения текущих бизнес-процессов. Например, пищевая компания может использовать отчеты на основе данных для измерения качества своей продукции на этапе сортировки. Это поможет компании повысить эффективность своих процессов.

Коллекция

Позвольте мне начать с примера. Вы хотите очистить веб-сайт RottenTomatoe и собрать данные. Вы запускаете парсер в течение дня, а на следующий день обнаруживаете, что должно было быть записано другое поле данных. Процесс необходимо повторить. Вы сталкивались с подобным сценарием? Это может произойти при крупномасштабном сборе данных, и это будет болезненно. Сбор крупномасштабных данных - дорогостоящий процесс, поэтому перед его проведением вы должны ответить на такие вопросы, как (а) какие поля данных должны быть записаны? (б) как должно быть качество данных измеряется? (c) Каков масштабируемый способ сбора чистых данных?

Качество данных является основным фактором, определяющим шансы на успех в реализации стратегии данных. Вот почему распространенный кошмар среди специалистов по анализу данных - собрать большое количество некачественных данных без всякой пользы. Согласно статье HBR, опубликованной в 2017 году, только 3% данных, существующих в компаниях, соответствуют основным стандартам качества. Поэтому настоятельно рекомендуется не проводить сбор данных, по крайней мере, в крупном масштабе, не зная, как измерить качество данных. Кроме того, не стоит возлагать надежды на существующие данные, если их качество не соответствует основным требованиям.

Архитектура

Архитектура данных состоит из двух основных этапов: (а) хранение и (б) анализ. Требования к каждому этапу различны. Например, вы должны создать конвейер данных для быстрого приема и хранения данных с минимальной избыточностью. Базы данных NoSQL обычно используются на первом этапе, поскольку они быстро обрабатывают новые данные. Кроме того, они удобочитаемы, что помогает понимать данные. Затем вы должны создать конвейер для получения и анализа данных. На этом этапе часто используются базы данных SQL, поскольку стандартные библиотеки машинного обучения, такие как Scikit-Learn, принимают табличные данные в качестве входных данных. При разработке архитектуры данных вы всегда должны думать о масштабируемости и эффективности. Если вы не смогли спроектировать наилучшую архитектуру данных с первого раза, будьте готовы пересмотреть ее по мере необходимости. Неэффективная архитектура данных сильно ударит по вам в будущем.

Спасибо за прочтение!

Если вам понравился этот пост и вы хотите меня поддержать…

  • Подписывайтесь на меня на Medium!
  • Посмотрите мои книги на Amazon!
  • Станьте участником Medium!
  • Присоединяйтесь к Linkedin!
  • Подписывайтесь на меня в Twitter!