Это красивое слово очень похоже на горячего сослуживца, с которым каждый хочет работать.
Забавно, как мы можем относиться к такому понятию, как данные.
Итак, давайте зададим эти неудобные вопросы на первом свидании большим данным:
В) Что такое большие данные?
Ответ) Это просто огромная коллекция странных данных, которые раздвигают границы технологий, которыми мы располагаем.
В) Как вы это определяете?
Ответ. У этого нет четкого определения, что означает, что то, что для одного считается большими данными, может не быть большими данными для других.
Например, 2 ТБ текста для меня - это большие «чертовы» данные, но для Google это просто кусок пирога.
В) Значит, нет способа определить это?
Ответ. Мы можем установить несколько характеристик, которые обычно встречаются в больших данных, например три буквы "V", чтобы определить их:
1) Объем: огромный размер !! Как и вся Википедия
2) Скорость. Скорость генерации данных невероятно высокая такая же, как при одновременном отслеживании местоположения миллиардов телефонов Android.
3) Разнообразие: действительно комковатое! Нет фиксированного шаблона или формата. Как у Facebook есть изображения, видео, гифки и т. Д., И у каждого из них своя кодировка (.JPG, .MP4)
В) Насколько огромны?
Ответ). Если вы не можете открыть файл данных, не заморозив компьютер, и невозможно вручную проверить данные, значит, он начал становиться достаточно большим. Время от времени для этого требуется больше памяти, чем есть в вашей системе, которую вы должны сжать и сохранить.
В) Как быстро?
Ответ. Вам потребуется тяжелый параллелизм - несколько серверов, балансировщики нагрузки, резервные узлы и т. д.
Думайте об этом как о ловле мячей. Если это всего лишь 1 мяч, его легко поймать. Если есть 2 мяча, это будет немного сложно, но вы все равно сможете их поймать. А теперь представьте, что 1000 шаров бросают со скоростью 10 шаров в секунду. Тогда вам понадобится как минимум 10 рук, чтобы иметь шанс поймать большую часть этих мячей.
В) Насколько разнообразны?
Ответ) С разнообразием дело обстоит так, что оно порождает случайность. Если данные очень разнообразны, и вы уже знаете о них, вы можете заранее подготовиться к этому. Проблема возникает, когда встречается формат, который вы никогда не ожидали, тогда ваша система может не знать, что с ним делать.
Пример: у вас миллион продавцов фотоаппаратов. Вы просите их ввести мегапиксели камер, чтобы оценить их.
Теперь вы предполагаете, что каждый вводит подходящее число, но затем появляется гений, который пишет «Очень красиво» в столбце «Мегапиксель». Ваша система ожидала число, но в нем были английские символы, поэтому теперь ваша система не сможет понять его или знать, что с ним делать.
Таким образом, чем больше данных, тем больше будет гениальных ответов.
В) Хорошо, это так? Так мы определяем большие данные?
Ответ) Да, но недавно были добавлены 4 дополнительных буквы V:
1) Достоверность: данные должны быть верными.
2) Изменчивость: у него должен быть широкий кругозор.
3) Визуализация: может быть визуализирована (графики, диаграммы и т. Д.)
4) Ценность: у него должен быть огромный потенциал (коммерческое или научное использование).
НО ОПЯТЬ, это не жесткие определения. Данные могут быть огромными и разнообразными, и это могут быть большие данные. Вышеупомянутые моменты были всего лишь ожиданиями людей от больших данных.
В) Окей, неужели большие данные - это жутко?
Ответ) Нет, это море знаний. Вам просто нужно это проанализировать. После этого вы сможете увидеть его странность и оценить его потенциал.
Подсказка: все алгоритмы усовершенствованного искусственного интеллекта требуют "достаточно больших" данных. Посмотрите на лишние 4 буквы "V".