Давайте посмотрим, что такое БОЛЬШИЕ ДАННЫЕ 🙄

Термин «большие данные» относится к данным, которые являются настолько большими, быстрыми или сложными, что их трудно или невозможно обрабатывать традиционными методами. Акт доступа и хранения больших объемов информации для аналитики существует уже давно. Данные в больших данных представлены в виде огромного количества текста, видео, фотографий и т. д.

Ключевыми преимуществами в мире больших данных являются:

Объем. Организации собирают данные из различных источников, включая бизнес-транзакции, интеллектуальные (IoT) устройства, промышленное оборудование, видео, социальные сети и многое другое. В прошлом хранение было бы проблемой, но более дешевое хранилище на таких платформах, как озера данных и Hadoop, облегчило бремя.

Разнообразие. Данные поступают во всех форматах — от структурированных числовых данных в традиционных базах данных до неструктурированных текстовых документов, электронных писем, видео, аудио, биржевых котировок и финансовых транзакций.

Скорость. С развитием Интернета вещей данные поступают в бизнес с беспрецедентной скоростью, и их необходимо обрабатывать своевременно. Метки RFID, датчики и интеллектуальные счетчики вызывают необходимость иметь дело с этими потоками данных почти в реальном времени.

Достоверность. Достоверность относится к качеству данных. Поскольку данные поступают из стольких разных источников, сложно связать, сопоставить, очистить и преобразовать данные в разных системах. Предприятиям необходимо связывать и сопоставлять отношения, иерархии и множественные связи данных. В противном случае их данные могут быстро выйти из-под контроля.

Ценность. Большая часть данных, не имеющих ценности, бесполезна для компании, если вы не превратите их во что-то полезное. Данные сами по себе бесполезны или важны, но их необходимо преобразовать во что-то ценное для извлечения информации.

Изменчивость.В дополнение к возрастающей скорости и разнообразию данных, потоки данных непредсказуемы — они часто меняются и сильно различаются. Это сложно, но компаниям необходимо знать, когда что-то в тренде в социальных сетях, и как справляться с ежедневными, сезонными и вызванными событиями пиковыми нагрузками данных.

Типы больших данных

1️⃣ Структурированные данные: это относится к данным, которые имеют правильную структуру, связанную с ними. Например, данные, присутствующие в базах данных, CSV-файлах и электронных таблицах Excel, можно назвать структурированными данными.

2️⃣ Неструктурированные данные: это относится к данным, которые вообще не имеют никакой структуры, связанной с ними. Например, файлы изображений, аудиофайлы и видеофайлы могут называться неструктурированными данными.

3️⃣ Полуструктурированные данные: это относится к данным, которые не имеют надлежащей структуры, связанной с ними. Например, данные, присутствующие в электронных письмах, файлах журналов и текстовых документах, можно назвать полуструктурированными данными.

Инструменты, используемые при сборе больших данных:

  1. Таблица
  2. Хадуп
  3. Splunk
  4. Визуальная аналитика SAS
  5. Таленд
  6. Кассандра
  7. SiSence
  8. Искра
  9. нож
  10. монгодб

И многое другое…

Каковы примеры использования в реальном мире? как с этим справляются технологические гиганты, такие как Facebook, Google, Netflix, Amazon и т. д.?

Вот некоторые из ежедневных статистических данных:

  • 700 000 входов на Facebook
  • Около 530 000 фотографий размещены в Snapchat.
  • Около 350000 твитов размещено в твиттере
  • 30 000 фотографий размещены в Instagram
  • 21 миллион сообщений в WhatsApp

Собранные данные в основном используются для обучения моделям машинного обучения, распознаванию лиц, текстовому анализу, таргетингу рекламы.

В концеДАННЫЕ ЭТО НОВАЯ НЕФТЬ😬

Спасибо за чтение!!