Но прежде чем вы начнете играть с этими блестящими алгоритмами машинного обучения, вам нужно собрать и очистить свои данные.

Это не всеми любимый шаг… Я имею в виду, кто действительно любит убираться? Фактически, 60% специалистов по данным считают подготовку и очистку данных наименее приятной частью своей работы.

Но очистка данных жизненно важна для эффективной аналитики данных.

Прежде чем мы погрузимся во все тонкости качественной очистки данных, мы должны спросить…

Что прогнозная аналитика может сделать для вашего бизнеса?

Предиктивная аналитика, основанная на машинном обучении, позволяет получать полезные сведения. Вооруженные этими знаниями, решения могут стимулировать рост бизнеса и повышать лояльность клиентов.

Имея эффективные данные, организация может:

  • дополнительные продажи клиентам
  • прогнозировать тенденции отрасли
  • внедрить стратегии для удовлетворения сотрудников
  • понимать отзывы клиентов

…и многое другое.

Предиктивная аналитика на практике

Вы когда-нибудь ходили в продуктовый магазин ради буханки хлеба… чтобы потом оставить 100 долларов с тележкой, полной еды?

Не повезло, что вы проходите мимо арахисового масла и желе от хлебного ряда до кассы. Благодаря прогнозной аналитике продуктовые магазины понимают модели потребительских покупок. Организовав магазин по этим шаблонам, вы с большей вероятностью совершите спонтанную покупку.

Если это приводит к тому, что большинство клиентов покупают хотя бы один непреднамеренный товар, это является причиной крупного дохода.

Практика отработана годами. Но с машинным обучением компании могут быть более стратегическими, чем когда-либо.

  • Стриминговые сервисы используют аналитику, чтобы рекомендовать новые песни или шоу, которые могут вам понравиться.
  • Аналитика подсказывает те сумасшедшие конкретные объявления, которые появляются в ваших социальных сетях.
  • Предиктивная аналитика даже играет в купидона, предлагая ваши совпадения в приложениях для онлайн-знакомств.

Варианты использования бесконечны. Но без чистых данных не имеет значения, насколько продвинуты ваши алгоритмы машинного обучения. Без чистых данных прогнозная аналитика бесполезна.

У вас не может быть хорошей аналитики без очистки данных

Очистка ваших данных — важный шаг в подготовке данных для аналитики. Знаете ли вы, что подготовка данных составляет 80% работы специалиста по данным?

Почему? Ненужный шум в наборе данных может привести к неправильным выводам. Таким образом, вы не только имеете неверную информацию, но и теряете время.

Представление неточных данных высшему руководству заставит их потерять веру в вашу аналитику.

Зная, насколько мощными могут быть хорошие идеи, мы хотим убедиться, что у нас есть точные данные для их подпитки.

Но что представляют собой чистые данные? Чистые данные это:

Давайте рассмотрим эту идею подробнее на примере нашего продуктового магазина:

Каждая ваша покупка дает магазинам бесценные данные о ваших моделях покупок. Эти данные в сочетании с данными сотен других клиентов и магазинов позволяют сделать довольно точные выводы.

Но… предположим, у вас есть данные двух крупных сетей продуктовых магазинов в США, Kroger и Publix. Kroger может пометить буханку белого хлеба как whitebread001, а Publix называет ее «bread-white1».

Хотя мы, люди, понимаем, что эти ярлыки относятся к похожим предметам, компьютер может и не понимать.

Конечно, вы можете собрать команду для сортировки данных. Но подумайте, сколько людей ежегодно покупают хлеб в 2800 магазинах Kroger или в 1200 магазинах Publix.

Это много данных… и ручная сортировка всего этого — неэффективное использование времени.

Но именно здесь на помощь приходит машинное обучение. Вам не нужно ждать, пока данные станут чистыми, чтобы использовать этот мощный инструмент. Инженеры могут писать алгоритмы машинного обучения для сортировки данных.

Хотите узнать больше о подготовке данных? У нас есть пост, в котором подробно рассказывается о хорошем решении извлечения, преобразования, загрузки (ETL).

О чем следует помнить во время очистки данных:

Итак, что вам нужно сделать, чтобы ваши данные были чистыми и готовыми к анализу?

Полный

Заполнить недостающие данные

Вы можете обнаружить, что в ваших данных есть пробелы или один набор данных включает переменную, которой нет в другом. В этом случае важно заполнить недостающую информацию, чтобы обеспечить полноту данных и точность выводов.

Отфильтруйте данные, которые вам не нужны

Этот шаг не только облегчит вам навигацию по вашим данным, но и сэкономит время обработки. В век больших данных — тысяч терабайт или петабайт — это жизненно важно.

Точный

Удалить дубликаты

Не позволяйте подлому злому близнецу записи исказить вашу аналитику.

Очистить данные

Для качественных данных вам потребуется удалить знаки препинания, специальные символы, преобразовать все данные в нижний регистр и т. д.

Последовательный

Стандартизировать именование

В примере, который мы упоминали ранее, мы показали вам проблему различных форматов именования. На этом шаге вам нужно убедиться, что данные, которые представляют одно и то же, имеют одно и то же имя.

Организуйте свои данные с помощью чистых столбцов

Создавайте чистые имена столбцов, это значительно упростит анализ данных. Например, измените столбцы с надписью «ТЕКУЩИЙ СТАТУС» на «текущий_статус».

Действительный

Исправить выбросы

Визуализация данных — это мощный инструмент, помогающий выявлять выбросы. Запустите базовые описательные параметры (такие как диапазон, среднее значение, медиана и стандартное отклонение) для наборов количественных данных. Оттуда вы можете определить выбросы, которые могут исказить вашу аналитику.

И вот оно! Возьмите свой чистый набор данных и позвольте алгоритмам машинного обучения работать над этими бизнес-идеями!

Первоначально опубликовано на https://www.kms-technology.com 23 октября 2019 г.