Как создать доступную инфраструктуру данных на стартапе в области науки о данных

В современном цифровом мире почти все данные хранятся на реальной машине, и это привело к созданию новой науки, которая помогает нам извлекать знания или идеи из различных форм данных.

Основная цель науки о данных в отношении бизнеса - анализ собранной информации для повышения прибыльности. Эта вероятность может быть достигнута после создания надежной и доступной инфраструктуры данных, что является предпосылкой для успешного развития машинного обучения.

Создание огромных хранилищ данных, не говоря уже об объеме необходимой инженерной работы, может быть сложной задачей для любой команды, но еще сложнее для команды стартапа, особенно для той, у кого бюджет ограничен.

Измерение качества данных

По данным Statista, к 2021 году инвестиции в системы центров обработки данных достигнут 178 миллиардов долларов, по сравнению со 170 миллиардами в 2016 году. Также исследование Statista показывает, что в 2016 году расходы на ИТ в целом составили примерно 3,3 миллиарда долларов. По оценкам, доля, потраченная на системы центров обработки данных, составила около 5% от общих инвестиций в ИТ. Несмотря на эту небольшую цифру, отрасль привлекает широкий круг компаний благодаря своей универсальности с точки зрения финансового анализа.

Мы уже знаем, что сбор и анализ больших данных проблематичен из-за нехватки времени и финансовых ограничений. Фактически, необходимо найти золотое сечение между качеством и количеством данных, которые вы собираете. Идея состоит в том, что лучше иметь очень мало данных высокого качества, чем иметь большие объемы данных, которые содержат информацию более низкого качества. С другой стороны, использование слишком малого количества данных означает неточные статистические результаты; делая его ненадежным.

Качество собранных данных можно измерить с помощью различных параметров, описанных ниже:

· Полнота - когда определенный набор данных (столбец, элемент или класс) заполнен (не содержит значений N / A).

· Непротиворечивость - когда один факт согласуется с другим.

· Уникальность - проверка правильности всех сущностей или атрибутов.

· Целостность - когда все отношения заполнены (например, родительские или дочерние сущности для конкретной сущности).

· Соответствие - соответствие всем конвенциям и стандартам.

· Точность - измерение, которое сложнее всего проверить, поскольку оно требует ручной проверки экспертом по предметным вопросам (SME).

Компании могут улучшить качество данных, сочетая различные навыки и инструменты. Правильный подход включает в себя несколько аналитических навыков наряду с некоторыми техническими навыками, такими как синтаксический анализ, стандартизация и многое другое.

Кроме того, можно увеличить объем данных в рамках проекта за счет использования масштабируемой инфраструктуры данных. При запуске проекта по науке о данных рекомендуется помнить о масштабируемости, если вы не можете измерить требуемый диапазон данных или ожидаете роста своего бизнеса в будущем.

Когда дело доходит до анализа данных, гораздо удобнее инвестировать в профессиональные консалтинговые услуги по обработке данных, которые сэкономят ваше время, усилия и, что самое важное, помогут вам лучше понять своих клиентов. Анализ больших данных требует определенных навыков, поскольку математический подход является обязательным для разработки успешного маркетингового плана.

Решение проблем безопасности при работе с большими данными

Еще одна важная проблема, которую команды стартапов должны решить после сбора достаточного количества данных, - это безопасность. Некоторые данные могут содержать личную информацию, такую как идентификационные номера, адреса и т. Д. Чтобы избежать потенциальных угроз, такие данные обязательно должны быть зашифрованы с помощью авторитетной сертификации.

В 2016 году Cloud Security Alliance (CSA) выпустил Руководство по безопасности и конфиденциальности больших данных : книгу, в которой изложены 100 лучших практик в области безопасности и конфиденциальности больших данных. Вот краткое изложение 10 основных категорий, которые могут оказаться полезными:

1. Защита вычислений в средах распределенного программирования - важность обеспечения надежности картографа и безопасности данных, несмотря на ненадежные картографы.

2. Защита не -реляционных данных - такие базы данных, как NoSQL, уязвимы для атак с использованием инъекций и, следовательно, требуют шифрования.

3. Обеспечение безопасности хранилища данных и журналов транзакций - жизненно важно, поскольку некоторые решения для управления большими данными не записывают место хранения данных.

4. Фильтрация и проверка входных данных конечной точки - фильтрация вредоносных входных материалов из определенного источника данных.

5. Мониторинг безопасности и соответствия в реальном времени - использование таких инструментов, как Kerberos, защищенная оболочка (SSH) и другие, для предотвращения несанкционированных подключений. .

6. Сохранение аналитики - реализация дифференциальной конфиденциальности для максимальной точности запросов из статистических баз данных.

7. Использование криптографических технологий для больших данных - CSA рекомендует следующие криптографические методы для балансировки данных: шифрование на основе идентификатора (IBE) или шифрование на основе атрибутов (ABE).

8. Детальный контроль доступа - уменьшение ограничений данных без нарушения политик.

9. Детализированный аудит - создание целостного представления аудита атаки.

10. Источник данных - предотвращение доступа злоумышленников к данным.

Если вы все еще работаете над своим проектом и вам требуется продолжение данных тестирования, есть возможность хранить личную информацию отдельно от остальных данных. Этот метод не только снижает потребность в защите данных, но и значительно увеличивает скорость экспериментов.

Другие факторы, которые следует учитывать

Это может показаться удивительным, но иметь слишком много данных также проблематично из-за ограничений ресурсов. Некоторые компании хранят слишком много данных по мере их использования. В результате иногда невозможно проанализировать все данные из-за нехватки вычислительной мощности и других технических проблем.

Согласно исследованию, проведенному Forrester, предприятия не могут использовать от 60% до 73% данных для аналитики. Это довольно странно, но факты не лгут, если исходят из авторитетных источников. В заключение, нет необходимости собирать ненужные данные просто потому, что это не стоит дополнительных времени и денег.

Помимо сбора и хранения нерационального количества данных, существуют также нормативные меры, которые необходимо принять во внимание перед разработкой модели машинного обучения. Дискриминация - одна из самых серьезных проблем для компаний, владеющих большим объемом личной информации.

Во избежание возможных неудобств, таких как расизм, сексизм или другое неравенство, компании обязаны понимать такие акты, как Закон о справедливой кредитной отчетности (FCRA) и Закон о Федеральной торговой комиссии (FTCA).

Проекты в области науки о данных требуют глубокого понимания многих технических и нормативных нюансов, чтобы полностью соответствовать отраслевым стандартам. Команды стартапов могут нанимать профессионалов для большей части работы, но для них важно осознавать все эти (и многие другие) проблемы, чтобы успешно внедрить аналитику данных в свой бизнес.

Как создать доступную инфраструктуру данных на стартапе в области науки о данных

Вопросы по теме