.. так что давайте сначала ответим на вопрос ПОЧЕМУ, для мотивации! 😊

Зачем нам нужна подготовка данных?

Большинство отраслевых экспертов считают, что от 80% до 90% мировых данных неструктурированы, и около 90% из них были созданы только за последние два года. Сегодня анализируется и используется только 0,5% этих непостижимо огромных хранилищ.

Мы не можем передавать необработанные неструктурированные данные непосредственно в визуализацию, надеясь получить почти точные результаты. Наши модели анализа или машинного обучения будут настолько хороши, насколько хороши данные, которые мы используем.

У нас есть доступ к сотням зеттабайт необработанных неструктурированных данных, которые растут в геометрической прогрессии, но используется менее 1% из них. Как говорится,

Нет чистых данных, но большинство из них полезно. ~ Дин Эбботт

Чтобы иметь возможность преобразовывать необработанные данные во что-то полезное, необходимо подготовить данные. В опросе, проведенном Gil Press, говорится, чтона подготовку данных приходится около 80 % работы специалистов по данным. И это понятно, поскольку подготовка данных является основой для точного анализа и построения моделей машинного обучения.

Теперь, когда мы увидели важность подготовки данных, давайте разберемся, что это значит и как мы можем получить полезные данные.

Оглавление

  1. Что такое подготовка данных?
  2. Какие этапы включает подготовка данных?
  3. Используются ли какие-либо инструменты для подготовки данных?
  4. Вывод

Что такое подготовка данных?

Проще говоря, подготовка данных — это процесс преобразования необработанных данных в форму, готовую для анализа и обучения моделей машинного обучения. Это включает в себя множество отдельных задач, таких как сбор, форматирование, очистка и консолидация данных.

Каковы этапы подготовки данных?

  1. Сбор данных

Когда у вас будет постановка задачи, вы поймете, какие данные вам могут понадобиться для разработки вашей модели. Используя эту информацию, попробуйте провести реинжиниринг и собрать данные из различных источников, таких как базы данных, файлы, веб-страницы и так далее.

Первый шаг всегда имеет решающее значение, постарайтесь правильно подобрать данные для вашей цели.

2. Обнаружение данных и профилирование

На этом этапе вам нужно будет собрать статистику собранных данных и внимательно изучить их, чтобы найти закономерности и аномалии. Профилирование поможет вам понять качество данных, суммируя отсутствующие значения, дубликаты, выбросы и другие несогласованные данные.

3. Очистка данных

После того, как ваши данные профилированы, вы должны очистить свои данные.

  • Удалите все лишние данные
  • Обработайте пропущенные значения, заполнив их наблюдаемым шаблоном.
  • Удалите выбросы в ваших данных
  • Удалите одну из двух сильно коррелированных функций
  • Масштабируйте все различные функции, чтобы иметь одинаковое количество данных
  • Маскируйте всю личную информацию для защиты конфиденциальности

После очистки обязательно проверьте набор(ы) данных на наличие явных ошибок.

4. Преобразование данных

На этом шаге основное внимание уделяется стандартизации типов переменных и распределений переменных вероятностей ваших функций. Необходимо преобразовать категориальные данные (такие как пол, месяц и т. д., которые являются значениями меток) в числовой формат, поскольку моделирование будет включать математические формулы.

Исправьте все ошибки, которые были упущены при профилировании. Этот шаг гарантирует, что данные структурированы и имеют высокое качество.

5. Разработка данных

Разработка данных — это процесс, в котором вы можете изменить размер набора данных в зависимости от ваших потребностей. Если ваш набор данных слишком мал для обучения модели, выполните увеличение данных. В противном случае, если набор данных огромен, выполните выборку данных.

  • Увеличение данных

Расширение данных — это процесс диверсификации данных без фактического сбора новых данных, что означает синтез новых данных из существующих данных. Существуют различные методы, такие как обрезка, дополнение, отражение и т. Д.

  • Выборка данных

Выборка данных — это процесс выбора подмножества, представляющего набор данных, и манипулирования им.

6. Хранение/публикация данных

На этом этапе ваши данные готовы к хранению в целевой системе, которая может быть сторонними инструментами бизнес-аналитики для анализа данных.

Если вы используете данные для обучения моделей машинного обучения, выполните предварительный шаг разделения данных на набор данных для обучения и набор данных для тестирования.

Используются ли какие-либо инструменты для подготовки данных?

Теперь вы можете расслабиться!😄 Есть несколько замечательных инструментов, таких как Altair, AWS Glue DataBrew, Trifacta, Talend и т. д., которые являются интерактивными и визуальными.

Хотя существуют инструменты для самостоятельной подготовки данных, требующие технических знаний, но обладающие широкими возможностями настройки, существуют также инструменты для полной подготовки данных, не требующие предварительных технических знаний, которые наиболее полезны для бизнес-пользователей при анализе данных.

Подготовка данных, хранящихся в базе данных, также может быть выполнена с помощью инструментов SQL, вы можете обратиться к шпаргалке.

Заключение

«Это все данные. Подарок вчерашнего дня, который вы получаете сегодня, чтобы сделать завтрашний день лучше».
— Джон Акафф

Поскольку объем данных продолжает расти день ото дня, это одновременно и благо, и зло для ИТ. Это будет означать, что подготовка данных может стать более трудоемкой и исчерпывающей, но при этом самой важной фазой мира данных.

Хорошо подготовленные данные имеют решающее значение для плодотворного анализа и получения точных прогнозов модели. А в воспитании всегда найдется более действенный инструмент ✨

Ссылки







P.S. Пожалуйста, не стесняйтесь оставлять свои комментарии, я обязательно рассмотрю ваши предложения и импровизирую в блоге. Ваше здоровье!