Это красивое слово очень похоже на горячего сослуживца, с которым каждый хочет работать.

Забавно, как мы можем относиться к такому понятию, как данные.

Итак, давайте зададим эти неудобные вопросы на первом свидании большим данным:

В) Что такое большие данные?

Ответ) Это просто огромная коллекция странных данных, которые раздвигают границы технологий, которыми мы располагаем.

В) Как вы это определяете?

Ответ. У этого нет четкого определения, что означает, что то, что для одного считается большими данными, может не быть большими данными для других.

Например, 2 ТБ текста для меня - это большие «чертовы» данные, но для Google это просто кусок пирога.

В) Значит, нет способа определить это?

Ответ. Мы можем установить несколько характеристик, которые обычно встречаются в больших данных, например три буквы "V", чтобы определить их:

1) Объем: огромный размер !! Как и вся Википедия

2) Скорость. Скорость генерации данных невероятно высокая такая же, как при одновременном отслеживании местоположения миллиардов телефонов Android.

3) Разнообразие: действительно комковатое! Нет фиксированного шаблона или формата. Как у Facebook есть изображения, видео, гифки и т. Д., И у каждого из них своя кодировка (.JPG, .MP4)

В) Насколько огромны?

Ответ). Если вы не можете открыть файл данных, не заморозив компьютер, и невозможно вручную проверить данные, значит, он начал становиться достаточно большим. Время от времени для этого требуется больше памяти, чем есть в вашей системе, которую вы должны сжать и сохранить.

В) Как быстро?

Ответ. Вам потребуется тяжелый параллелизм - несколько серверов, балансировщики нагрузки, резервные узлы и т. д.

Думайте об этом как о ловле мячей. Если это всего лишь 1 мяч, его легко поймать. Если есть 2 мяча, это будет немного сложно, но вы все равно сможете их поймать. А теперь представьте, что 1000 шаров бросают со скоростью 10 шаров в секунду. Тогда вам понадобится как минимум 10 рук, чтобы иметь шанс поймать большую часть этих мячей.

В) Насколько разнообразны?

Ответ) С разнообразием дело обстоит так, что оно порождает случайность. Если данные очень разнообразны, и вы уже знаете о них, вы можете заранее подготовиться к этому. Проблема возникает, когда встречается формат, который вы никогда не ожидали, тогда ваша система может не знать, что с ним делать.

Пример: у вас миллион продавцов фотоаппаратов. Вы просите их ввести мегапиксели камер, чтобы оценить их.

Теперь вы предполагаете, что каждый вводит подходящее число, но затем появляется гений, который пишет «Очень красиво» в столбце «Мегапиксель». Ваша система ожидала число, но в нем были английские символы, поэтому теперь ваша система не сможет понять его или знать, что с ним делать.

Таким образом, чем больше данных, тем больше будет гениальных ответов.

В) Хорошо, это так? Так мы определяем большие данные?

Ответ) Да, но недавно были добавлены 4 дополнительных буквы V:

1) Достоверность: данные должны быть верными.

2) Изменчивость: у него должен быть широкий кругозор.

3) Визуализация: может быть визуализирована (графики, диаграммы и т. Д.)

4) Ценность: у него должен быть огромный потенциал (коммерческое или научное использование).

НО ОПЯТЬ, это не жесткие определения. Данные могут быть огромными и разнообразными, и это могут быть большие данные. Вышеупомянутые моменты были всего лишь ожиданиями людей от больших данных.

В) Окей, неужели большие данные - это жутко?

Ответ) Нет, это море знаний. Вам просто нужно это проанализировать. После этого вы сможете увидеть его странность и оценить его потенциал.

Подсказка: все алгоритмы усовершенствованного искусственного интеллекта требуют "достаточно больших" данных. Посмотрите на лишние 4 буквы "V".