Большие данные - революция или провал?

Безусловно, большие данные - самая популярная технология в этом десятилетии. Не многие люди знают это «вслепую», но им наверняка нравится выставлять напоказ это. Использование термина «большие данные» стало таким же распространенным, как и само явление.

Обсуждение «больших данных» привело к колоссальному пониманию управления бизнесом и заставило компании переосмыслить свои стратегии, внедряя проницательные и значимые методы применения огромного количества информации, доступной в 21 веке. Он неоднократно упоминался на Oracle Open World; компании готовятся к работе с так называемыми большими данными, и разрабатываются устройства для обработки больших данных. Тем, кто, возможно, не привык к своим устройствам, постоянно читая новости, связанные с технологиями, термин «большие данные» может быть им чужд.

Что такое большие данные?

Символы, количества или символы, с которыми операции выполняются компьютером, которые могут храниться и передаваться в форме электрических сигналов и записываться на магнитные, оптические или механические носители записи. Нет ничего нового в распознавании больших данных, которое существует по крайней мере с 2001 года.

Короче говоря, большие данные - это ваши данные. Это информация, принадлежащая вашей компании, полученная и обработанная с помощью новых методов для создания ценности наилучшим образом.

На протяжении десятилетий компании стремились наилучшим образом использовать информацию для улучшения своих деловых возможностей. Однако именно структура (или ее отсутствие) и размер больших данных делают их такими уникальными. Большие данные также уникальны, потому что они представляют как важную информацию, которая может уступить дорогу новым возможностям, так и то, как эта информация анализируется, чтобы помочь открыть эти двери. Анализ идет рука об руку с информацией, поэтому в этом смысле «большие данные» представляют собой существительное - «данные» и глагол - «анализ данных в поисках ценности».

Точное определение «больших данных» сложно дать, потому что проекты, поставщики, практики и бизнес-профессионалы используют его совершенно по-разному. Имея это в виду, вообще говоря, большие данные - это:

Большая база данных
Категория вычислительных стратегий и технологий, которые используются для обработки больших баз данных.

В этом контексте «большая база данных» означает базу данных, слишком большую для реалистичной обработки или хранения с помощью традиционных инструментов или на одном компьютере. Эти наборы данных постоянно меняются, становятся неуправляемыми и могут значительно отличаться от организации к организации.

Некоторые примеры BigData:

* 10 ТБ данных генерируются реактивными двигателями за 30 минут полета. При многих тысячах рейсов в день объем генерируемых данных достигает многих петабайт.

* Фондовая биржа Нью-Йорка генерирует около 1 ТБ новых торговых данных в день.

* Facebook собирает 4 миллиона лайков каждую минуту, и на сегодняшний день на Facebook загружено более 250 миллиардов фотографий.

Категории BigData:

Структурированный
Неструктурированный

3. Полуструктурированный

Структурированный

Термин структурированные данные обычно относится к данным, которые имеют определенную длину и формат для больших данных. Со временем, с развитием информатики, были достигнуты большие успехи в разработке методов работы с такими данными (формат которых хорошо известен заранее), а также в извлечении из них ценности. Однако современные специалисты по данным прогнозируют проблемы, когда размер таких данных значительно возрастет, а типичные размеры находятся в диапазоне нескольких зеттабайт.

Неструктурированный

Неструктурированные данные - это данные, которые не имеют определенного формата для хранения больших данных. Если 20 процентов данных, доступных предприятиям, представляют собой структурированные данные, остальные 80 процентов являются неструктурированными. Помимо огромного размера неструктурированных данных, основная проблема заключается в их обработке для извлечения выгоды из них.

Примером неструктурированного набора данных является источник данных, содержащий комбинацию простых файлов, фотографий, видео и т. Д. Организации имеют в наличии большой объем ценных данных, но, к сожалению, они не знают, как извлечь из этого пользу. поскольку эти данные находятся в необработанном или неструктурированном формате.

Полуструктурированный

Полуструктурированные наборы данных содержат обе формы данных. Мы можем видеть полуструктурированный набор данных как структурированные данные по форме, но на самом деле он не определен, например определение таблицы в реляционной СУБД.

Чем отличаются системы больших данных?

Требования для работы с системами больших данных такие же, как и для работы с базами данных разного размера. С другой стороны, огромный масштаб, скорость приема и обработки, а также характеристики данных, с которыми приходится иметь дело на каждом этапе процесса, создают новые серьезные проблемы при разработке решений.

Основная цель большинства систем больших данных - извлекать из больших объемов данных внешние данные и связи, которые невозможно было бы реализовать обычными методами. И другие характеристики, которые отличают большие данные от обработки других данных:

Степень

Абсолютная часть обрабатываемой информации в основном определяет системы больших данных. База данных может быть больше, чем традиционные базы данных, которые требуют большего внимания на каждом этапе жизненного цикла обработки и хранения.

Неоднократно, поскольку потребности в работе превышают возможности одного компьютера, возникает проблема анализа, распределения и координации ресурсов групп компьютеров. Алгоритмы, способные разбивать задачи на более мелкие части, становятся чрезвычайно важными.

Быстрота

Большие данные сильно отличаются от других систем данных из-за скорости передачи информации через систему. Данные регулярно поступают в систему из разных источников и часто, вероятно, будут обрабатываться в режиме реального времени для получения информации и обновления текущей системы.

Обратная связь отвлекла многих практиков, занимающихся большими данными, от пакетно-ориентированного подхода к системе реального времени. Данные постоянно обрабатываются, добавляются и анализируются, чтобы идти в ногу с потоком новой информации и выявлять ценную информацию на раннем этапе, когда это наиболее целесообразно. Для подобных идей требуются мощные системы с высокодоступными компонентами, защищающими от сбоев в конвейере данных.

Разнообразие

Проблемы, возникающие при работе с большими данными, часто носят исключительный характер из-за широкого диапазона обрабатываемых источников и их сравнительного качества.

База данных может быть получена из внутренних систем, таких как журналы приложений и серверов, из социальных сетей и других внешних API-интерфейсов, с датчиков устройства и от других пользователей / поставщиков. Большие данные стремятся обрабатывать информацию потенциально независимо от того, откуда она приходит, путем объединения всей информации в единую систему.

Содержание и типы медиа также могут существенно различаться. Такие носители, как фотографии, видео и аудиозаписи, используются вместе с файлами, структурированными журналами и т. Д. В то время как обычные системы обработки данных могут ожидать, что данные поступят в конвейер, которые уже отформатированы и предварительно организованы, помеченные системы больших данных обычно принимают и хранят данные ближе к исходному состоянию. Предпочтительно, чтобы любые изменения исходных данных были в памяти во время обработки.

Другая отличительная черта

Различные люди и организации предлагали расширить эти три функции, хотя в этих предложениях, как правило, описывались проблемы, а не качества больших данных. Вот некоторые общие характеристики:

Подлинность: разные источники и сложность обработки могут привести к проблемам с обработкой качества данных (и, как следствие, качества результирующего анализа).
Непредсказуемость. Непредсказуемость данных может привести к значительным колебаниям качества. Другие ресурсы могут потребоваться для выявления, обработки или фильтрации данных низкого качества, чтобы сделать их более полезными.
Ценность. Решающая задача больших данных - приносить пользу. Часто существующие системы и процессы достаточно сложны, поэтому использование данных и извлечение фактической ценности может стать затруднительным.

Большие данные - это не фурор. Мы только находимся в начале революции, которая повлияет на каждый бизнес и каждую жизнь на этой планете. Но разные люди по-прежнему относятся к концепции больших данных как к чему-то, что они могут предпочитать игнорировать - тогда как на самом деле они вот-вот столкнутся с силой, которая представляет собой большие данные.

Не верите? Вот 10 статистических данных, которые должны убедить любого в том, что большие данные требуют его внимания:

1. Объем данных растет быстрее, чем когда-либо прежде, и к 2021 году около 2 МБ (мегабайт) новой информации будет создаваться каждую секунду для каждого человека на планете.

2. И один из моих любимых фактов: на данный момент анализируется и используется менее 0,7% всех данных, просто представьте себе потенциал здесь.

3. 75% организаций уже инвестировали или планируют инвестировать в большие данные к 2017 году.

4. Белый дом уже вложил более 200 миллионов долларов в проекты по большим данным и НИОКР.

5. Hadoop, среда программирования на основе Java с открытым исходным кодом, которая поддерживает обработку и хранение чрезвычайно больших наборов данных на рынке распределенных вычислительных сред, по прогнозам, будет расти со средним годовым темпом роста на 58% и превысит 1 миллиард долларов к 2020 году.

6. К 2020 году ежегодные расходы на большие данные составят 48,6 миллиарда долларов.

7. Производство данных в 2020 году будет в 44 раза больше, чем в 2009 году. Люди создают более 70% цифровой вселенной. Но предприятия несут ответственность за хранение и управление примерно 80% из них.

8. Приблизительно Walmart собирает более 2 петабайт данных каждый час в результате транзакций своих клиентов. Петабайт - это один квадриллион байтов, или эквивалент текста объемом около 20 миллионов картотек.

9. Согласно McKinsey (всемирная консалтинговая компания по вопросам управления), ритейлер, использующий большие данные в полной мере, может увеличить свою операционную маржу более чем на 63%.

10. Объемы данных буквально растут, за последние 24 месяца было создано больше данных, чем за всю продолжительность жизни человечества.

За эти годы появилось несколько продуктов и технологий, которые «вспыхнули», которые сначала быстро сгорели, а потом сгорели. WebTV, Micro Channel Architecture и операционная система OS / 2 - лишь несколько примеров.

В каждом случае можно было бы утверждать, что эти продукты потерпели неудачу, потому что не было четкого восприятия общественностью необходимости или цели этих продуктов.

В случае с большими данными существует понимание необходимости анализа данных, а также преимуществ, которые он может принести, и методов достижения успеха. Это не столько тенденция, сколько постоянная составляющая в организации, которая будет иметь измеримое долгосрочное влияние на компании и учреждения, как большие, так и маленькие.