Все о больших данных — «следующая большая вещь»!

Автор: Сайед Сафи Улла Шах.

«Большие данные и аналитика» относятся к наборам данных, которые слишком велики для традиционных приложений, а также к конкретным методам и приложениям, которые были разработаны для их обработки.

Что такое большие данные и наука о данных?

Чтобы понять, что такое большие данные, полезно сравнить их с традиционными данными. Традиционные данные — это данные, которые обычно генерируются и управляются в компаниях малого и крупного бизнеса. Он структурирован и четко определен. Традиционные данные также, как правило, собираются со скоростью, которая поддается управлению с помощью традиционной базы данных и программного обеспечения для обработки данных, такого как MS Excel. С другой стороны, большие данные, как правило, не так четко определены и структурированы, как традиционные данные, и скорость, с которой они генерируются, также экспоненциально выше. В связи с этим возникает проблема, как работать с большими данными. Огромный объем и скорость, с которой он собирается, слишком велики для традиционного программного обеспечения. Это привело к развитию науки о данных, которая включает в себя различные алгоритмы и методы для работы с большими данными и придания необработанным данным смысла таким образом, чтобы их можно было применять для получения выгоды в реальном мире.

5 V больших данных:

Чтобы лучше понять большие данные, давайте рассмотрим их 5 V.

1. Объем:

Объем или размер наборов данных больших данных огромен, это определяющая характеристика больших данных. Анализ объема больших данных — важный первый шаг в их обработке. Размер наборов данных, которые квалифицируются как большие данные, измеряется эксабайтами (108) или петабайтами (1015). Сравните это с традиционными наборами данных, которые варьируются в гигабайтах (109) или терабайтах (1012).

2. Скорость:

Скорость данных — это скорость, с которой собираются новые данные. Скорость, с которой генерируются новые данные, становится все быстрее и быстрее. Традиционные методы обработки данных и программное обеспечение не могут справиться с такой головокружительной скоростью.

3. Разнообразие:

Это относится к типу генерируемых данных. Определение типа генерируемых данных является ключом к их анализу. Когда дело доходит до больших данных, входящие данные имеют тенденцию быть многогранными и могут казаться неструктурированными. Это особенно актуально при рассмотрении данных, которые отличаются от остальной части набора данных, это может произойти, когда данные собираются из множества разнородных источников.

4. Правдивость:

Это относится к тому, насколько конкретными или достоверными являются данные. При выборке невероятных объемов данных в данных присутствует некоторая неопределенность. Существует также загвоздка в том, что если вы выберете меньше данных, набор данных может не отражать факты реального мира, а если вы выберете много данных, это приведет к увеличению общей неопределенности.

5. Значение:

Ценность данных относится к тому, чего можно достичь с помощью большого количества собранных данных. Если вы отбираете и сохраняете большие и сложные наборы данных, не превращая их в информацию, это бесполезно.

Происхождение больших данных:

Социальные медиа:

Гиганты социальных сетей, такие как Facebook и Twitter, собирают огромное количество данных о каждом пользователе. К ним относятся, с каким контентом взаимодействовал пользователь, какой контент ему понравился, каковы его предпочтения, с какими людьми он взаимодействует, где он находится, контент, который он публикует, такой как видео и фотографии, и даже какие другие веб-сайты они используют. Все эти данные генерируются постоянно для каждого отдельного пользователя, учитывая, что у Facebook более 2 миллиардов пользователей, а у Twitter сейчас 333 миллиона пользователей; общий объем данных, генерируемых на этих платформах, становится огромным.

2. Отрасль:

Поскольку большая часть отраслей в настоящее время автоматизирована, объем данных, которые производители могут собирать о своих фабриках, увеличился в геометрической прогрессии. Производители могут собирать много данных о работе своих машин, таких как данные с датчиков и сведения о поведении машин до поломки. Поскольку машины работают постоянно, данные, которые они генерируют, постоянны и бесструктурны, и, поскольку вы не можете отличить полезные данные от бесполезных без анализа, производители должны записывать все данные, чтобы впоследствии отфильтровать полезные данные. Этот процесс заканчивается созданием огромного количества необработанных данных.

3. Транзакционные данные:

С переходом мира от бумажных денег к электронным средствам данных, генерируемых каждой транзакцией, может стать много. Банки могут собирать все виды данных о каждой транзакции, например, где она происходит, на каком устройстве она выполняется, о чем сообщают датчики устройства, в каких других действиях участвует пользователь, в каком состоянии было устройство до транзакции. транзакция и т. д. Такое количество данных из каждой отдельной транзакции и миллионы транзакций, происходящих каждую секунду, означает, что общий объем необработанных данных, которые собирает банк, становится огромным.

Анализ больших данных:

1. Сбор данных:

Данные собираются из реального мира и хранятся в необработанном неструктурированном виде.

2. Структурирование данных:

На этом шаге собранные данные структурируются привычным образом, чтобы их было легче анализировать. Этот шаг часто включает в себя структурирование данных в строки и столбцы с использованием статистики.

3. Очистка данных:

После того, как данные организованы, нет уверенности, что данные, собранные из реального мира, полезны для нас или хотя бы точны. На этом этапе организованные данные обрабатываются статистическими и математическими методами для выявления аномалий и неточностей в данных. Набор данных сравнивается с предыдущими проверенными наборами данных и традиционными наборами данных, чтобы увидеть, согласуется ли он с ними. После выявления аномалии удаляются из набора данных, и у нас остается набор данных, который представляет реальность и содержит полезные данные. Очистка данных также может включать гомогенизацию данных, что означает преобразование похожих данных в разных форматах в один формат. Например, набор данных изображений, вероятно, будет содержать изображения во всех видах форматов, преобразование всех их в один формат необходимо для дальнейшего анализа данных.

4. Исследовательский анализ данных:

После очистки набора данных мы можем применить к набору данных статистические модели, чтобы извлечь закономерности из данных. Этот шаг дает нам общее представление о том, какова тенденция реальных источников, из которых мы собрали данные. На этом этапе может потребоваться использование машинного обучения на очищенном наборе данных для сбора информации.

5. Моделирование:

Используя информацию, полученную на этапе исследовательского анализа, к данным применяются математические формулы и искусственный интеллект, чтобы создать модель, которая аппроксимирует набор данных. Это может включать в себя выяснение того, какие переменные в данных вызывают изменение других переменных в данных. Целью этого шага является упрощение будущего анализа.

6. Визуализация данных:

После анализа данных часто полезно визуализировать их графически. Используя это, информация может быть передана лицам, принимающим решения, которые могут не понимать статистические и математические модели. В зависимости от данных, которые необходимо визуализировать, можно использовать различные 2D- и 3D-визуализации.

Приложения:

1. В финансах:

Банки могут собирать данные о мошеннических транзакциях и проводить описательный анализ набора данных. Это поможет им увидеть, какие факторы приводят к мошенническим транзакциям. Используя эту информацию, банки могут внедрять алгоритмы, которые обнаруживают мошеннические транзакции в режиме реального времени и блокируют их. Розничные трейдеры могут применить предписывающий анализ данных с фондового рынка и выяснить, будет ли инвестирование в конкретную акцию хорошим решением или нет. Они также могут применять диагностический анализ акций, которые рухнули, и выяснить, какие факторы приводят к краху акций. Это может помочь им инвестировать более разумно.

Примером может служить SAS anti-money laundering — программное обеспечение, использующее аналитику больших данных для обнаружения подозрительных транзакций, которые могут быть связаны с мошенничеством или отмыванием денег.

2. В СМИ:

Медиакомпании могут собирать данные о потребительской активности и выяснять, какая аудитория что любит. Spotify, сервис потоковой передачи музыки, уже делает это. Spotify анализирует, какие песни нравятся конкретному пользователю, когда он слушает конкретную музыку, какие жанры ему нравятся больше всего и множество мелких деталей. Он берет эти данные и рекомендует пользователю больше музыки, которая, по его мнению, понравится пользователю. Рекомендации по видео на YouTube работают примерно так же. Это будущее медиа, поток медиа, адаптированный специально для каждого пользователя.

3. В промышленности:

Производители могут проводить прогнозный анализ данных о производстве, продажах, машинах и других данных, чтобы выяснить, как оптимизировать производственный процесс для получения максимальной прибыли. Производители также могут проводить диагностический анализ машин, которые выходят из строя, и выяснять, что вызывает их сбои, что приводит к созданию лучших и более эффективных машин.

4. В здравоохранении:

Больницы могут собирать много данных обо всех своих пациентах, например, о конкретных симптомах, о том, когда пациент их проявлял и какое заболевание у них было диагностировано. Имея достаточно данных, больницы могут изучать закономерности у новых пациентов, выявлять и лечить болезнь раньше, чем обычные тесты смогут их идентифицировать. Они также могут предоставить лекарства, которые будут лучшими для конкретного пациента, в отличие от предоставления множества различных лекарств и наблюдения за тем, какое из них работает лучше всего, как это часто бывает.

Будущие перспективы:

1. Машинное обучение:

Машинное обучение уже принесло огромную пользу для развития аналитики больших данных, но ожидается, что в будущем роль и влияние машинного обучения будут расти по мере проведения дополнительных исследований.

2. Вопросы конфиденциальности:

Теперь, когда корпорации собирают так много данных о каждом человеке, который с ними взаимодействует, возникают опасения по поводу нарушения частной жизни людей. Facebook был привлечен к суду за продажу большого количества пользовательских данных Cambridge Analytica, этот судебный процесс поднял проблемы конфиденциальности до небывалого уровня, и теперь все знают, как компании собирают данные. Если большие данные будут расти в будущем, необходимо ответить на вопросы конфиденциальности людей.

3. Алгоритмы важнее программного обеспечения:

Корпорации, как известно, покупают программное обеспечение или нанимают людей для создания программного обеспечения, которое помогло бы им в бизнесе, но с учетом важности аналитики больших данных прямо сейчас и обилия разработчиков программного обеспечения, которые уже есть в большинстве крупных корпораций. Корпорации могут начать покупать алгоритмы, а не программное обеспечение, потому что внедрение алгоритмов не является сложной задачей. Алгоритмы могут стать основным бизнесом в мире технологий.

Подводя итог, значение этой области в современном мире можно обосновать следующей цитатой Клайва Хамби: