Понимание ваших данных является ключом к успешному анализу

Многим покажется забавным, что любой специалист по данным не будет смотреть на свои данные перед построением модели. Большинство специалистов по данным увлекаются приобретенными навыками машинного или глубокого обучения и очень хотят показать это в своем анализе, но забывают самое главное: данные.

Неверные данные

Следует признать, что не все данные представляют ценность для вашего бизнеса, и это подводит нас к концепции неверных данных.

Плохие данные — это данные, которые страдают от проблем с качеством, таких как неточность, неполнота, несогласованность или дублирование. Некоторые наборы неверных данных бесполезны для нужд бизнеса, а некоторые просто «грязные» и требуют очистки перед анализом.

Стоимость неверных данных

Согласно Исследованию IBM, плохие данные обошлись бизнесу в США в 3,1 триллиона долларов в 2016 году, что всего на 400 миллиардов долларов меньше ВВП Германии за тот же год (МВФ). Неверные данные могут дорого стоить бизнесу несколькими способами. Плохие данные стоят так дорого из-за того, насколько люди, принимающие решения, полагаются на данные.

Понимание данных

Первый и самый важный шаг к правильному пониманию данных — понимание бизнес-цели. Понимание бизнес-цели позволит вам осознать потенциал и ограничения ваших данных. Специалисты по данным должны задавать вопросы владельцам бизнеса, чтобы поставить себя в их положение для хорошего знания данных.

Знание структуры данных также очень важно, это поможет в очистке и подготовке данных, так как вы сможете легко обнаружить необычные значения в ваших данных.

Ваше знание данных также поможет вам интерпретировать результаты после анализа. Например, я когда-то работал с данными о домах в США и был удивлен, увидев 1,5 как количество спален. Это выглядит странно, так как я ожидал, что количество спален будет считаться целым числом, но быстрый опрос заставил меня понять, что квартиры со спальней и меньшей комнатой, называемой кабинетом, относятся к категории 1,5 в Соединенных Штатах. Хотя это не было проблемой для данных и не было бы проблемой для анализа, что было бы хорошим анализом, когда его нельзя было интерпретировать.

Заключение

Доступность данных помогла нам определить причину нескольких происшествий, предсказать будущие события и предписать упреждающие меры для решения проблем, но они сами могут стать проблемой, если не будут приняты адекватные меры для обеспечения того, чтобы правильные данные использовались для решения правильной проблемы. .