208 терминов больших данных от А до Я: обновленный глоссарий определений больших данных

Промышленность и корпорации уже заняты его перемалыванием! Ларри Пейдж назвал это следующей крутой вещью. Итак, если ваш радар сканирует последние термины и жаргоны больших данных, не ищите дальше. Специально для вас мы составили обновленный глоссарий определений больших данных.

Пристегнитесь и поехали!

A

Кислотный тест

Тест ACID применяется к транзакциям/состоянию данных для обеспечения четырех основных атрибутов. Этими атрибутами являются «атомарность», «согласованность», «изоляция» и «долговечность», отсюда и аббревиатура «ACID». Эти атрибуты объясняются далее.

Атомарность — представляет две или более порции информации, участвующие в транзакции. Либо все части связаны с транзакцией, либо ни одна из них не задействована.

Непротиворечивость. Успешная транзакция данных создает новое и действительное состояние данных. Если во время такой транзакции/изменения данных произошел сбой, все действия откатываются, а данные восстанавливаются в прежнее состояние, до которого произошла транзакция. Это называется «последовательность».

Изоляция. Изменение данных или транзакция, которые еще не зафиксированы/не проверены, должны оставаться отсоединенными или «изолированными» от любой другой транзакции. Это известно как изоляция. Изоляция обеспечивает неприкосновенность подтвержденной транзакции.

Долговечность. После проверки транзакции данных она будет доступна в этом новом и правильном состоянии, даже если система выйдет из строя или перезагрузится. Таким образом, проверенные транзакции/данные сохраняются системой. Это называется долговечностью данных.

Агрегация

Проще говоря, поиск, сбор и представление данных в организованном порядке называется агрегацией.

Алгоритм

Алгоритм представляет собой закодированную инструкцию, используемую в программном обеспечении, состоящую из математической формулы, для выполнения анализа данных. Некоторыми часто используемыми алгоритмами обработки данных являются алгоритмы регрессии, кластеризации, рекомендаций и классификации.

Аналитика

Обработка необработанных данных для извлечения полезной информации, шаблонов и идей состоит из анализа данных. Аналитика ориентирована на получение выводов и выводов из массивов данных. Ниже приведены три основных типа анализа данных;

описательная аналитика; Это начальный этап обработки данных, который создает сводку полезной информации из необработанных данных. Думайте об описательной аналитике как о «сводке» «истории, которую должны рассказать данные». Она подготавливает массив данных для дальнейшего анализа.

Предиктивная аналитика; Прогнозирование «наиболее вероятного» будущего события на основе исторических и недавних данных состоит из прогнозной аналитики. Такие прогнозы не обязательно произойдут на 100%, но наиболее «вероятны» те, которые произойдут следующими в последовательности событий.

предписывающая аналитика; Короче говоря, предписывающая аналитика используется для принятия решений или определения курса действий после того, как сделан прогноз вероятного будущего события. Предписывающая аналитика в основном используется в бизнес-аналитике для принятия решений.

Обнаружение аномалий

«Обнаружение выбросов» или «обнаружение аномалий» — это идентификация наблюдений, элементов или событий, которые не соответствуют или не соответствуют прогнозируемому образцу или другим элементам в базе данных. Такие аномалии или выбросы могут предоставить важную информацию о редком событии или просто быть загрязнителем.

Анонимизация

Анонимизация — это уничтожение ссылок и точек в базе данных для сохранения личности людей. Он обеспечивает конфиденциальность отдельных лиц и защищает информацию, которая может привести к их идентификации.

Приложение

Приложение — это программное обеспечение, основанное на алгоритмах, для выполнения определенных задач и процессов, связанных с данными.

Flink Apache

Apache Flink — это фреймворк с открытым исходным кодом, написанный на Java и Scala. Он используется для масштабируемой потоковой передачи и пакетной обработки данных. Он разработан фондом программного обеспечения Apache.

Apache Hadoop

Apache Hadoop упрощает обработку и хранение массивных наборов данных в распределенной вычислительной сети. Это фреймворк с открытым исходным кодом, написанный на Java.

Апач Кафка

Это платформа обработки потоков с открытым исходным кодом, написанная на Java и Scala. Он обеспечивает высокую пропускную способность на единой платформе с низкой задержкой. Apache Kafka используется для надежной и надежной обработки потоков данных в режиме реального времени.

Апач НиФай

Apache NiFi — это платформа «логистики данных» с открытым исходным кодом для облегчения потока данных между системами. Он написан на Java и использует «потоковое» программирование для управления потоками данных в реальном времени.

Apache Spark

Apache Spark позволяет получать доступ к данным из Hadoop, Cassandra и т. д. Это механизм с открытым исходным кодом, работающий поверх Apache Hadoop или облачной сети. Apache Spark разработан специально для обработки «больших данных» и их аналитики.

Искусственный интеллект

Искусственный интеллект или ИИ — это «машины», действующие с видимым интеллектом. Современный ИИ использует статистический и прогностический анализ больших объемов данных, чтобы «обучить» компьютерные системы принимать решения, которые выглядят как интеллект.

Автоматическая идентификация и сбор данных или AIDC

AIDC относится к многочисленным технологиям, с помощью которых идентификация и сбор данных о различных объектах, лицах, аудио или изображениях выполняются автоматически без необходимости внесения записей в базу данных вручную. Системы AIDC имеют широкое применение, включая, помимо прочего, управление запасами, безопасность, логистику и розничную торговлю.

Авро

Разработанный в рамках проекта Apache Hadoop, Avro позволяет выполнять сериализацию данных, анализ данных и удаленный вызов процедур. Это также облегчает кодирование схемы файлов Hadoop. Avro сериализует данные в двоичном формате, используя протоколы, разработанные на основе нотации объектов JavaScript или JSON.

B

Поведенческая аналитика

Поведенческая аналитика — это выявление закономерностей и выводов, соответствующих «человеческому поведению» из данных. В центре внимания поведенческой аналитики — понимание намерений пользователей с использованием «следов данных» и информации, которую они генерируют в Интернете. Это позволяет отображать тенденции и возможные действия с их стороны в будущем.

Большие данные

Большие данные представляют собой массивные наборы данных, которые можно проанализировать с помощью вычислений, чтобы выявить идеи, закономерности и тенденции. Он анализируется с помощью статистического анализа и прогнозной аналитики. Анализ больших данных может раскрыть информацию, скрытую от общего человеческого интеллекта, и предсказать возможные будущие события на основе анализа.

Ученый по большим данным

Специалист по большим данным — это профессионал, который анализирует большие данные с помощью математических алгоритмов и извлекает из них полезную информацию.

Биометрия

Биометрия — это статистический анализ «физических и поведенческих характеристик» людей. Например, физические характеристики могут включать сканирование отпечатков пальцев, сканирование сетчатки и т. д. В то время как поведенческие характеристики могут включать тон, характер, жесты и т. д.

Хранилище BLOB-объектов

Двоичный большой объект или «BLOB» — это служба, которая хранит неструктурированные данные «в виде набора двоичных данных» в облачной системе управления базами данных. «Блобы» обычно представляют собой мультимедийные объектные файлы.

Бронтобайты

Бронтобайт — это единица управления размером данных, используемая для выражения очень больших объемов данных. 1 бронтобайт равен 1 000 000 000 000 000 000 000 000 000 или 1027 байт. Это примерно равно 1000 йоттабайт.

Бизнес-аналитика или бизнес-аналитика

Бизнес-аналитика состоит из анализа и визуализации бизнес-данных с помощью различных технологий и приложений, что позволяет принимать более эффективные бизнес-решения.

C

Каскадирование

Cascading — это уровень программной абстракции для Apache Hadoop и Apache Flink. Используя любой язык на основе JVM (Java, JRuby, Clojure и т. д.), можно создавать и выполнять сложные рабочие процессы обработки данных в кластере Hadoop. Каскадирование уменьшило барьер навыков в создании сложных приложений, скрыв сложность базовых «заданий MapReduce».

Анализ записей вызовов или CDRA

Подробная информация о звонке структурируется в записи телекоммуникационными компаниями и становится «записями о звонках». Информационные данные о звонке, такие как время, продолжительность, местоположение и т. д., включаются в детали. Следовательно, CDR оказались полезными в различных аналитических приложениях.

Кассандра

Cassandra — это система управления распределенной базой данных NoSQL с открытым исходным кодом, предназначенная для облегчения обработки больших распределенных данных на обычных серверах. Кассандра, построенная по принципу «ключ-значение», представляет собой высокопроизводительную систему без единой точки отказа.

Чуква

Chukwa — это подпроект Hadoop, разработанный для крупномасштабного сбора журналов и их анализа. Он разработан на основе распределенной файловой системы Hadoop и инфраструктуры MapReduce. Chukwa позволяет отображать, контролировать и анализировать результаты.

Анализ классификации

Классификационный анализ можно рассматривать как процесс сбора «суммы» заданных данных. Он собирает и анализирует соответствующую информацию о данных с помощью «метаданных», которые представляют собой не что иное, как описание данных.

Аналитика посещений

Аналитика потока кликов — это процесс анализа и составления сводных данных о веб-активности пользователя. Он может показать, какую страницу посещает пользователь на веб-сайте, в каком порядке, его/ее интересы и т. д.

Кложур

Clojure — это язык программирования общего назначения, разработанный как диалект LISP. Он работает на виртуальной машине Java (JVM). Clojure делает упор на рекурсивное повторение и лучше всего подходит для параллельных операций с данными.

Облачные вычисления

Облачные вычисления включают «использование сети удаленных серверов» для хранения, управления и обработки данных. Проще говоря, это практика управления данными в распределенной сети, а не с использованием локальных или персональных серверов.

Кластер

Кластеры представляют собой подмножества данных со схожими характеристиками. Кластер также может относиться к группе машин, работающих вместе в сети для интеллектуального анализа данных, обработки и т. д.

Кластерный анализ

Идентификация информации или элементов в данных, которые имеют общие атрибуты или характеристики, и группировка или «кластеризация» их вместе называется кластерным анализом.

Холодное хранение данных

Неактивные данные, которые редко используются или к которым обращаются, хранятся на серверах с низким энергопотреблением. Имеется в виду холодное хранение данных. Получение холодных данных занимает много времени. Как правило, холодные данные важны для целей долгосрочного соответствия.

Столбчатая база данных

Столбчатая база данных или база данных, ориентированная на столбцы, содержит данные, структурированные в виде столбцов, а не строк. Столбчатая база данных обеспечивает более быстрый доступ к данным. Например, все даты будут перечислены в столбце «даты», имена — в столбце «имена» и так далее.

Сравнительный анализ

Это систематическая процедура сравнения и анализа обширных наборов данных для выявления закономерностей и идей.

Компараторы

Функция компараторов заключается в сравнении ключей. Это достигается любым из двух способов. Во-первых, ключ можно сравнить, сравнив десериализованные объекты и реализовав интерфейс. Во-вторых, можно реализовать интерфейс RawComparator, и ключи можно сравнивать, используя их соответствующие необработанные байты.

Комплексная обработка событий (CEP)

CEP включает в себя объединение данных из нескольких источников и вывод шаблонов или событий, предполагающих сложные обстоятельства. CEP отслеживает все события в сети системы и предоставляет необходимую информацию для действий в режиме реального времени.

Конфабуляция

Решение, которое «кажется» принятым на основе данных, но которое на самом деле было принято на основе интуиции или неправильного их истолкования, называется конфабуляцией.

Ограниченный протокол приложений или CoAP

CoAP — это специализированный протокол интернет-приложений, разработанный для «ограниченных устройств», позволяющий им взаимодействовать с более широким Интернетом. Здесь ограничения означают ограничения устройств и ограничения ресурсов сети. CoAP обеспечивает связь между устройствами в «одной и той же» ограниченной сети, устройствами и общими интернет-сетями и внутренними ограниченными сетями.

Сложные структурированные данные

Данные, состоящие из двух или более сложных и взаимосвязанных подмножеств, которые не могут быть интерпретированы стандартными машинными языками и инструментами, являются сложными структурированными данными.

Параллелизм

Выполнение процессов и задач параллельно в одно и то же время называется параллелизмом.

Корреляционный анализ

Корреляционный анализ — это определение того, «насколько тесно связаны два набора данных». Возьмем, к примеру, два набора данных, «подписки» и «объявления в журналах». Когда отображается больше рекламы. Добавляется больше подписок на журнал, т. е. эти наборы данных коррелируют. Коэффициент корреляции «1» — это идеальная корреляция, 0,8 — сильная корреляция, а значение 0,12 — слабая корреляция.

Коэффициент корреляции также может быть отрицательным. В случаях, когда наборы данных находятся в обратной зависимости друг от друга, может возникнуть отрицательная корреляция. Например, когда «пробег» увеличивается, «расходы на топливо» снижаются. Коэффициент корреляции, равный -1, является идеальной отрицательной корреляцией.

Многоканальная аналитика

Межканальная аналитика — это процесс в рамках бизнес-аналитики, в котором полезные наборы данных из различных источников или «каналов» связаны друг с другом. Анализ таких данных позволит выявить маркетинговые идеи и тенденции поведения клиентов, которые могут быть полезны для предприятия.

D

Панель управления

Панель инструментов содержит визуальное или графическое представление анализа, выполненного алгоритмами.

Доступ к данным

Доступ к данным относится к извлечению сохраненных данных.

Администратор базы данных

Лицо, имеющее право доступа к базе данных для поддержания ее структуры, безопасности, целостности и содержимого, является администратором базы данных или администратором баз данных.

Агрегация данных

Сбор данных из различных каналов или источников для анализа называется агрегацией данных.

Архитектура данных

Хранение, организация и интеграция данных в заданную модель в соответствии с установленными политиками, правилами и стандартами предприятия относится к архитектуре данных.

База данных

Цифровая структура, вокруг которой организуются и легко доступны данные, называется базой данных. База данных управляется «системой управления базой данных» или СУБД.

База данных как услуга или DaaS

Облачная база данных, которая продается как коммерческая услуга, называется DaaS. Пользователи могут подписаться на содержимое базы данных для использования в обмен на ежемесячные или годовые счета. Например, веб-сервис Amazon — это DaaS.

ЦОД

Центр обработки данных — это физическое место, которое содержит серверные системы и системы хранения данных. Операции центра обработки данных могут выполняться одной организацией или сдаваться в аренду другим пользователям в зависимости от целесообразности.

Очистка данных

Очистка данных или очистка данных — это удаление неправильных или неправильно отформатированных записей базы данных. Это также включает в себя исправление повторяющихся и неполных фрагментов информации. Очистка данных достигается с помощью инструментов очистки данных, которые упрощают управление базой данных.

Хранитель данных

Профессионал, отвечающий за структуру базы данных и управление хранилищем, известен как хранитель данных.

Принятие решений на основе данных

Решения, принимаемые на основе описательного или прогнозного анализа данных, называются решениями, ориентированными на данные. Этот тип принятия решений обычно наблюдается в бизнес-аналитике.

Исчерпание данных

«Следы» или «побочные продукты» информации, созданной в результате онлайн- или цифровых действий, известны как «исчерпание данных». Например, веб-куки, история просмотров, журналы вызовов и временные файлы классифицируются как исчерпание данных.

Этические принципы использования данных

Чтобы обеспечить прозрачность, конфиденциальность и безопасность данных, организации придерживаются набора рекомендаций, известных как рекомендации по этическим данным.

Фид данных

Непрерывный поток структурированных данных из различных источников или каналов, который предоставляет пользователям обновленную информацию, называется каналом данных. Человек здесь «получает данные в« потоках »в соответствии со своими интересами по предмету или теме. Каналы данных обычно известны по способу доставки. Например, поток данных RSS или поток данных Twitter являются популярными потоками подачи данных.

Управление потоком данных

Управление потоком данных — это управление притоком и оттоком огромных объемов данных от устройств «потребитель» и «производитель». Затем собранные необработанные данные подготавливаются для бизнес-аналитики. Управление потоком данных достигается за счет агрегации, анализа потока данных, перевода схемы, разделения, преобразования формата и т. д.

Управление данными

Общее управление доступностью, удобством использования, целостностью и безопасностью данных, используемых в организации, входит в сферу управления данными. Программа управления данными включает администратора/руководящий орган, процедуры и систему выполнения этих процедур. Основное внимание здесь уделяется поддержанию целостности данных с использованием наилучших возможных методов управления данными.

Интеграция данных

Интеграция данных включает в себя сбор или объединение информационных данных из различных каналов и их унификацию для пользователя. Единое представление данных из нескольких источников позволяет легко интерпретировать и выполнять предварительный анализ пользователями.

Целостность данных

Общая мера полноты, непротиворечивости и точности данных компенсирует их «целостность». Целостность данных можно рассматривать как «меру» доверия организации к содержанию своих данных.

Озеро данных

Озеро данных представляет собой систему хранения, в которой данные хранятся в необработанном или исходном формате. Необработанные данные легко доступны из озера данных для дальнейшего использования.

Система управления базами данных или СУБД

«СУБД» позволяет управлять базой данных. К содержанию данных можно получить систематический доступ через систему управления базой данных.

Витрина данных или рынок данных

Уровень доступа подмножества хранилища данных, ориентированный на предоставление данных отдельным пользователям или предприятиям, называется киоском данных. Витрины данных предоставляют пользователям конкретные данные, тогда как хранилища данных содержат широкий и подробный контент данных.

Перенос данных

Процесс переноса данных между компьютерными системами, системами хранения или другими форматами называется переносом данных. Миграция данных становится решающей при внедрении или обновлении системы.

Интеллектуальный анализ данных

Генерация новой информации путем анализа больших ранее существовавших баз данных называется интеллектуальным анализом данных.

Моделирование данных

Модель данных определяет структуру данных, способы их хранения и доступа, а также способы передачи для функциональных и технических целей. Моделирование данных — это первый шаг при проектировании базы данных и объектно-ориентированном программировании.

Операционализация данных

Операционализация данных означает процесс, который определяет переменные как измеримые факторы для построения функциональной системы, основанной на данных.

Точка данных

Точка данных представляет собой дискретную единицу информации, размещенную на графике или гистограмме.

Подготовка данных

Подготовка данных для анализа путем их агрегирования, очистки или очистки и консолидации называется подготовкой данных.

Обработка данных

Поиск, анализ, классификация или преобразование фрагментов информации с помощью компьютерных систем называется обработкой данных.

Профилирование данных

Изучение данных из существующей базы данных и сбор из нее описательных сводок и статистики называется профилированием данных. Профилирование данных выполняется, чтобы узнать, можно ли использовать существующие данные для других целей.

Качество данных

Качество данных — это количественное и качественное измерение «пригодности» или «пригодности» имеющегося набора данных для операций, принятия решений и планирования.

Репликация данных

Репликация данных — это копирование данных из хранилища компьютера или сервера в другую базу данных для обеспечения согласованных уровней доступной информации для всех пользователей без вмешательства в отдельные операции. Распределенная система данных является результатом репликации данных.

Безопасность данных

Операции по управлению базой данных, обеспечивающие защиту и целостность базы данных и препятствующие несанкционированному доступу к ней, состоят из безопасности данных.

Набор данных

Структурное представление данных в табличном, столбцовом или строковом формате представляет собой набор данных.

Болот данных

Отсутствие надлежащего руководства и управления озером данных может создать беспорядок информации, известный как болото данных. Информационные подмножества теряются среди огромного пула файлов, и поиск данных в таком случае становится очень утомительным.

Проверка данных

Проверка наборов данных на предмет их качества, т. е. их расположения, точности и целостности, известна как проверка данных. Проверка данных является важным шагом, который необходимо выполнить, прежде чем человек/организация сможет проанализировать их для принятия решений.

Визуализация данных

Графическое представление данных для их интерпретации и анализа людьми в виде гистограмм, диаграмм и т. д. состоит из визуализации данных. Это делается для достижения более эффективного уровня передачи информации.

Хранилище данных

Система хранения, в которой собираются огромные объемы структурированных данных. Эти данные обычно извлекаются из озера данных, обрабатываются и затем передаются в хранилище данных.

Деидентификация

Деидентификация — это разрыв всех звеньев, которые могут привести к идентификации человека. Это то же самое, что и «анонимизация».

Демографические данные

Набор демографических данных определяет атрибуты или характеристики населения. Он может включать такую информацию, как пол, возраст, средний доход, географическое положение и т. д. для этой группы населения.

Уровень устройства

«Уровень» или «поверхностный» кластер всех устройств, таких как смартфоны, датчики, шлюзы, электронное оборудование и т. д., которые передают данные в соответствии с их функциями и взаимодействием с окружающей средой, образует «уровень устройств».

Дискриминантный анализ

Это статистический анализ для сортировки данных по различным группам или категориям с использованием «дискриминантной функции». В дискриминантном анализе уже существующая информация о нескольких группах или «кластерах» используется для формирования алгоритма классификации для этого набора данных.

Распределенный кеш

Подобно распределенному хранилищу данных, распределенный кэш охватывает несколько серверов, что позволяет повысить производительность обработки транзакций и постоянно увеличивать размер, а не размещаться в одной системе.

Распределенный объект

Распределенные объекты в объектно-ориентированном программировании — это объекты, распределенные по сети, с несколькими распределенными процессами, работающими в сети компьютеров. Эти объекты функционируют вместе, обмениваясь данными через распределенную сеть.

Распределенная обработка

Любое приложение, запускаемое более чем одним процессором или компьютером через распределенную сеть, относится к распределенной обработке. «Параллельная обработка» — это пример распределенной обработки, при которой компьютер использует более одного процессора для выполнения программных операций.

Распределенная файловая система

Проще говоря, распределенная файловая система или DFS — это система хранения данных, в которой файлы хранятся в сети серверов. Система DFS обеспечивает более простой и быстрый доступ к хранимым данным и их обработку.

Базы данных хранилища документов

База данных хранилища документов представляет собой специализированную базу данных для быстрого хранения, поиска и управления файлами данных.

Подробнее

Drill — это программная среда с открытым исходным кодом, разработанная Apache Software Foundation для интерактивного анализа больших наборов данных.

E

Эластичный поиск

Elasticsearch — это поисковая система с открытым исходным кодом на основе Java, разработанная на базе Apache Lucene. Она может искать и сохранять файлы в различных форматах.

Экзабайт

Один эксабайт представляет собой один миллиард гигабайт или один миллион терабайт данных.

Исследовательский анализ

Исследовательский анализ — это метод определения основных характеристик набора данных путем выявления закономерностей без следования стандартным процедурам аналитики. Выполняется как предварительная операция для оценки характера заданных данных.

Внешние данные

Внешние данные — это те, которые находятся вне системы. Например, данные, хранящиеся на флэш-накопителе или портативном жестком диске, являются внешними данными.

Извлечение, преобразование и загрузка или ETL

ETL — это процедура хранения данных, которая не требует пояснений. Данные сначала «извлекаются» из различных источников или каналов, затем «преобразуются» путем очистки и структурирования, чтобы соответствовать операционным требованиям, и, наконец, «загружаются» в базу данных, соответствующую этому хранилищу.

F

Отказ

В случае выхода из строя компьютера или узла система автоматически переключалась на другой. Это известно как отказоустойчивость.

Отказоустойчивый дизайн

Отказоустойчивая конструкция состоит из «резервных узлов» в системе, которая обеспечивает ее функционирование даже при отказе определенных точек/узлов. Система становится высокоотказоустойчивой, если она не имеет единой точки отказа и автоматически переключается при аварийном переключении.

Флум

Apache Flume — это распределенная служба для перемещения больших объемов потоковых данных в систему распространения файлов Hadoop (HDFS). Он собирает, сортирует и передает «журналы» потоковых данных для заполнения ими Hadoop.

G

Геймификация

Применение типичных игровых элементов, таких как подсчет очков, правила и соревнование, в «неигровом» контексте, таком как большие данные, относится к геймификации. Геймификация используется для поощрения участия пользователей в Интернете, управления аналитикой электронной коммерции и анализа потоков данных.

База данных с ускорением на графическом процессоре

Графический процессор или база данных с ускорением на графическом процессоре — это система управления данными, использующая обработку графики. Данные в таком случае могут быть «графически» визуализированы в интерактивном режиме. Популярными примерами базы данных GPU являются Kinetica и MapD.

Аналитика графиков

Аналитика графов состоит из методов организации и визуализации отношений между различными точками данных на графике.

График базы данных

Графовая база данных просто использует «графовые структуры» для хранения данных и доступа к ним. Здесь «графы» представляют объекты с ребрами и свойствами для хранения данных в «узлах». В базе данных графа каждый элемент связан с соседним элементом.

Грид-вычисления

Грид-вычисления «объединяют» вычислительные ресурсы, как правило, через облачную сеть, для выполнения общей цели или задачи. Другими словами, грид-вычисления объединяют вычислительную мощность различных машин, подключенных к сети. «Майнинговые пулы» для криптовалют — отличный пример грид-вычислений.

H

Hadoop

Hadoop упрощает обработку и хранение массивных наборов данных в распределенной вычислительной сети. См. «Apache Hadoop».

Хама

Hama — это проект, разработанный фондом программного обеспечения Apache. Hama — это распределенная вычислительная среда, предназначенная для выполнения тяжелых научных вычислений с использованием операций «массовых синхронных параллельных вычислений». Тяжелые научные вычисления включают в себя сетевые алгоритмы, графики, матрицы и т. д.

ХАНА

Разработанная SAP, HANA представляет собой платформу базы данных в оперативной памяти для разработки приложений и обработки больших объемов транзакций данных в режиме реального времени и аналитики.

HBase

Это распределенная база данных с открытым исходным кодом, которая работает параллельно с системой Hadoop. HBase предоставляет пользователям возможность регулярно «обновлять» базу данных Hadoop. Это также позволяет пользователям выполнять быстрый «поиск» в базе данных Hadoop.

HКаталог

HCatalog — еще одна распределенная система, дополняющая сеть Hadoop. HCatalog позволяет получить доступ к «метаданным» для всех данных, присутствующих в кластерах Hadoop. Это также позволяет пользователям анализировать и обрабатывать данные, не зная их фактического местоположения в кластере Hadoop.

Распределенная файловая система Hadoop или HDFS

HDFS — это файловая система на основе Java, которая представляет собой уровень хранения распределенной сети Hadoop. Он хранит большие объемы неструктурированных данных и работает на обычном оборудовании.

Улей

Hive, разработанный Facebook, представляет собой службу хранения данных, основанную на Hadoop. Он был разработан для SQL-программистов, чтобы легко конвертировать свои программы в «MapReduce». Hive использует машинный язык, называемый HiveQL, похожий на SQL. Программы Hive можно легко интегрировать с бизнес-аналитикой и визуальной аналитикой.

Высокопроизводительные вычисления или HPC

HPC включает в себя суперкомпьютеры для обработки сложных и сложных задач.

Пользовательский интерфейс Hadoop или HUE

HUE — это веб-интерфейс с открытым исходным кодом, разработанный для того, чтобы пользователи могли легко получать доступ к Hadoop и работать с ним. Он содержит различные инструменты, интегрированные в панель инструментов, такие как браузер HDFS, приложение Oozie для управления задачами, MapReduce, пользовательский интерфейс Hive и Impala, API Hadoop и т. д.

I

Импала

Пользовательский интерфейс Impala — это инструмент, разработанный Cloudera. Он обеспечивает быстрые и интерактивные SQL-запросы непосредственно к данным, хранящимся в HDFS или HBase, используя те же метаданные, драйвер ODBC, HiveQL и интерфейсы, что и Apache Hive. Impala предоставляет единую платформу для «пакетных запросов в реальном времени».

Аналитика в базе данных

Аналитика запускается путем интеграции аналитики данных в хранилище данных.

База данных в памяти

База данных в памяти — это система управления данными, которая хранит данные в основной памяти, а не во вторичной памяти. Это позволяет ускорить работу ELT и обработку данных.

Сетка данных в памяти или IMDG

Подобно распределенной сети, IMDG хранит данные в памяти серверов в сети. Это обеспечивает более высокую масштабируемость и более быстрый доступ к данным.

Проникновение

Приток или прием «загрузок потоковых данных из нескольких каналов или источников» системой управления базами данных называется «приемом».

Интернет вещей или IoT

IoT — это взаимосвязь различных устройств в любой момент времени с Интернетом, где они постоянно отправляют и получают данные. Он включает в себя «уровень устройств» сети, который содержит смартфоны, автомобили, бытовую технику, электронику и т. д.

J

Соответствие юридическим данным или JDC

Соответствие юридическим данным — это термин, который вступает в игру при использовании распределенных систем управления данными и хранения, таких как облачная сеть. JDC относится к соблюдению законов и правил в отношении данных, которых необходимо придерживаться в случае, если данные хранятся в другой стране или регионе.

K

Хранилища ключевых значений

Хранилища ключевых значений устраняют необходимость в фиксированной модели данных, позволяя хранить данные без схемы. В хранилищах ключ-значение данные могут храниться как объект типа данных языка программирования.

Базы данных "ключ-значение"

Базы данных «ключ-значение» хранят данные с «уникальным первичным ключом» для идентификации информации. Это упрощает и ускоряет поиск и доступ к данным.

L

Задержка

Задержка определяется как «задержка доставки или ответа данных из одной точки в другую». Другими словами, задержка означает «задержку во времени» системы.

Устаревшая система

Любая компьютерная система или технология, которая устарела и больше не поддерживается современными техническими платформами, является устаревшей системой.

Связанные данные

Атрибуты или языки, используемые для определения отношений между несопоставимыми источниками данных, относятся к «связанным данным».

Балансировка нагрузки

Балансировка нагрузки — это метод оптимизации производительности, при котором рабочая нагрузка равномерно распределяется между машинами в сети.

Анализ местоположения

Аналитика местоположения позволяет упорядочивать геопространственную информацию, такую как регион, широта и долгота, в наборы данных. Данные собираются через GPS на устройствах.

Файл журнала

Файл журнала — это файл записи, созданный системой для справки. Он записывает «события», которые произошли во время любой операции компьютера.

M

Машинно сгенерированные данные

Любые данные, сгенерированные из любого нечеловеческого источника, такие как процессы приложений, временные файлы и т. д., являются данными, сгенерированными машиной.

Машина-2-компьютерные данные

Данные, передаваемые между двумя машинами, когда они общаются друг с другом через сеть, представляют собой данные типа «машина-2-машины».

Машинное обучение

Машинное обучение или ML включает в себя разработку алгоритмов для извлечения информации из обширных и обширных данных. «Обучение» относится к «доработке» моделей путем предоставления дополнительных данных, чтобы они работали лучше с каждой итерацией.

Сокращение карты

Программная среда, разработанная Apache, которая служит вычислительным уровнем Hadoop. MapReduce обрабатывает данные на уровне узла, разделяя «запрос» на несколько частей или «карту», а затем «уменьшает» результат для вывода «ответа» на запрос. MapReduce также следит за планированием и повторным выполнением любых неудачных операций.

Мэшап

Объединение двух или более «уточненных» наборов данных в единое приложение для определенной цели называется mashup. Например, сочетание набора данных геолокации с набором демографических данных для создания приложения для заказа такси.

Мааут

Это библиотека интеллектуального анализа данных, которая использует алгоритмы интеллектуального анализа данных для кластеризации, выполнения регрессионного тестирования и статистического моделирования данных. Затем данные реализуются с помощью функции MapReduce.

Метаданные

Метаданные — это информационная сводка данных. Метаданные говорят нам, «о чем данные данные».

МонгоБД

MongoDB — это документно-ориентированная база данных NoSQL с открытым исходным кодом. Здесь структуры данных сохраняются в документах JSON в виде динамических схем в формате BSON. MongoDB позволяет упростить и ускорить интеграцию данных в приложения.

Многомерная база данных

Многомерная база данных предназначена для хранения данных и онлайн-аналитических приложений (OLAP).

База данных с несколькими значениями

База данных с несколькими значениями — это строка, которая может напрямую манипулировать строками HTML и XML. Это база данных NoSQL, которая может напрямую интерпретировать трехмерные данные.

N

Обработка естественного языка или НЛП

Обработка естественного языка — это набор методов для структурирования и обработки необработанного текста из разговорных языков человека для извлечения информации.

Анализ сети

Сетевой анализ включает в себя анализ узлов и их взаимосвязи друг с другом в сети.

Нейронная сеть

Нейронная сеть использует алгоритмические процессы, имитирующие человеческий мозг. Он пытается найти идеи и скрытые закономерности в обширных наборах данных. Нейронная сеть работает на обучающихся архитектурах и «обучается» на больших наборах данных, чтобы делать такие прогнозы.

Новый SQL

NewSQL — это новейшая развитая система данных, которая четко определена и лучше, чем SQL. NewSQL также превосходит базу данных NoSQL по производительности.

NoSQL

«Не только SQL» или NoSQL — это набор многочисленных систем управления базами данных, которые также можно хранить и извлекать, даже если они смоделированы в любом другом формате, кроме табличного. Табличные базы данных используются для классификации реляционных баз данных. NoSQL не зависит от «табличной» архитектуры базы данных и не обязательно использует SQL для манипулирования данными.

O

База данных объектов

Объектные базы данных используют «язык запросов» для извлечения данных, хранящихся в нем как «объекты». Такие базы данных отличаются от графовых или реляционных баз данных просто тем, что они хранят информацию в виде «кластеров объектов».

Объектный анализ изображений

Отдельные пиксели можно использовать для анализа цифровых изображений. Тот же факт используется в объектном анализе изображений. С помощью этого метода можно проанализировать выбранный набор связанных пикселей или «объектов изображения». Он составляет основу алгоритмов распознавания и классификации визуальных образов или изображений.

Онлайн-аналитическая обработка или OLAP

OLAP использует три операции для анализа многомерных данных. Эти три операции;

Консолидация: объединение имеющихся данных в структурированную форму.

Детализация: операция, с помощью которой пользователи могут получить доступ к сведениям о данных.

Нарезка и нарезка: предоставляет пользователям возможность выбирать подмножества и анализировать их с разных точек зрения.

Онлайн-обработка транзакций или OLTP

OLTP позволяет пользователям анализировать и распознавать закономерности из больших «транзакционных» наборов данных.

Узи

Oozie позволяет пользователям создавать систему обработки и управления рабочими процессами и создает «определяемые пользователем» серии для выполнения задач в интеллектуальной последовательности. Например, пользователь может определять задачи, составленные на различных языках, таких как Hive и MapReduce, и связывать их друг с другом. Oozie позволяет пользователям определять запуск «запроса» при выполнении определенных условий в отношении данных.

ОткрытьDremel

OpenDremel — это версия Big-Query Java code с открытым исходным кодом от Google. Он находится в процессе интеграции с Apache Drill.

Альянс открытых центров обработки данных или ODCA

ODCA — это альянс ИТ-организаций на глобальном уровне, цель которого — ускорить миграцию облачных вычислений.

Хранилище операционных данных или ODS

ODS хранит данные из нескольких источников и позволяет выполнять транзакционную обработку данных в режиме онлайн. Таким образом, с данными можно выполнить больше операций, прежде чем они будут отправлены в хранилище для составления отчетов.

Анализ оптимизации

Оптимизационный анализ — это «этап оптимизации» при кодировании алгоритма и продуктов на его основе. Это позволяет разработчикам создавать различные варианты продукта на основе алгоритма и тестировать его на конкретных переменных.

Обнаружение выбросов

Наблюдения, которые сильно расходятся с общей закономерностью выборки, называются выбросами. Обнаружение таких аномалий системой называется «обнаружением выбросов». Выброс может указывать на ошибку или редкое событие.

P

Параллельный анализ данных

Параллельный анализ данных включает в себя разбиение аналитической задачи на более мелкие части с последующей обработкой каждой из них с помощью алгоритмов. Параллельный анализ данных может происходить и в облачной сети.

Вызов параллельного метода или PMI

PMI позволяет программному коду вызывать или «вызывать» несколько функций и запускать их параллельно для выполнения задачи.

Параллельный запрос

Параллельные запросы обрабатываются несколькими системными потоками для более быстрого результата, часто по сети.

Распознавание образов

Распознавание образов — это классификация или маркировка системой уже распознанных образов. Распознавание образов подпадает под машинное обучение.

Пентахо

Pentaho — это программное обеспечение для бизнес-аналитики (BI) с открытым исходным кодом, которое предоставляет пользователям OLAP, интеграцию данных, возможности ELT, панель управления, интеллектуальный анализ данных и услуги отчетности.

Петабайт

Один петабайт равен одному миллиону гигабайт или приблизительно одной тысяче терабайт.

Свинья

Yahoo разработала «Pig» как язык на основе Hadoop, чтобы преодолеть ограничения «сложных глубоких и длинных конвейеров данных» SQL. С ним легче учиться и работать.

Прогнозная аналитика

Прогнозная аналитика включает в себя извлечение информации из существующих наборов данных для определения закономерностей и выводов. Эти шаблоны и идеи используются для прогнозирования будущих результатов или событий.

Прогнозное моделирование

В прогнозном моделировании используются алгоритмы прогнозного анализа для выявления тенденций, закономерностей и выводов из больших и структурированных наборов данных, а также прогнозирования «следующего наиболее вероятного события».

Общедоступные данные

Обширные наборы данных и общедоступная информация, которые могут быть агрегированы за счет государственного финансирования или инициированы, называются общедоступными данными.

Q

Количественная самооценка

Количественное самоопределение или «Лайфлоггинг» — это концепция, целью которой является получение данных о образе жизни человека в течение дня. Это технологическое движение, целью которого является глубокое понимание жизни человека путем отслеживания количественных входных данных (таких как потребление пищи, финансы, качество окружающей среды и т. д.), биологических параметров и психических состояний (таких как настроение, уровень кислорода в крови и т. д.) и параметры производительности с помощью интеллектуальных приложений.

Запрос

Запрос представляет собой вопрос, целью которого является выражение сомнения или извлечение информации. Здесь запрос используется в контексте баз данных.

Анализ запроса

Это анализ, проводимый пользователем или системой по «входному запросу» для получения наиболее релевантного и оптимального результата.

R

Программирование R

R — это язык программирования с открытым исходным кодом для статистического анализа и построения графиков, доступный для различных операционных систем.

Радиочастотная идентификация или RFID

Устройство, которое использует определенную радиочастоту для беспроводной передачи данных, является устройством с поддержкой RFID.

Повторная идентификация

Проще говоря, повторная идентификация является противоположностью «анонимизации». Здесь несколько наборов данных объединяются для отслеживания личности человека в кластере анонимных данных.

Данные в реальном времени

Биты данных, которые мгновенно создаются, сохраняются и анализируются СУБД в течение доли секунды, относятся к данным в реальном времени.

Система рекомендаций

Механизм рекомендаций отслеживает и учится на онлайн-привычках пользователя, как правило, покупательских предпочтениях и предметах, представляющих интерес. Затем он использует эти данные, чтобы «рекомендовать» интересующие пользователей элементы. Этот движок является общей чертой веб-сайтов электронной коммерции.

Справочные данные

Справочные данные обобщают или описывают точку данных или объект для пользователя.

Регрессионный анализ

Регрессионный анализ направлен на измерение зависимости одной зависимой переменной от других изменяющихся переменных. Он предполагает линейную причинно-следственную связь между одной переменной и другой переменной. Примерами функций регрессионного анализа являются линейная регрессия, логистическая регрессия, лассо-регрессия и т. д.

Система управления реляционными базами данных (RDBMS)

СУРБД хранит и анализирует «сгруппированные наборы данных», которые имеют общие черты или «отношения».

Надежный распределенный набор данных

Устойчивый распределенный набор данных представляет собой данные, хранящиеся в нескольких системах, которые не имеют «единой точки отказа». Другими словами, эти данные являются отказоустойчивыми. Apache spark в первую очередь интерпретирует устойчивые распределенные наборы данных.

Анализ маршрутизации

Определение самого быстрого, кратчайшего и наиболее эффективного пути к транспортным объектам. Целью здесь является снижение затрат и максимизация выходного результата.

S

Масштабируемость

Масштабируемость — это неотъемлемое свойство любой системы, которое представляет ее способность справляться с увеличением рабочей нагрузки. По мере «масштабирования» системы, чтобы справляться с возросшими требованиями к рабочей нагрузке, она не должна выходить из строя и снижать производительность.

Схема

Схема определяет структурную организацию данных в базе данных.

Данные поиска

Данные поиска — это сбор и анализ «терминов» и ключевых слов, которые люди ищут в поисковой системе за определенный период времени. Например, аналитика Google основана на поисковых данных и их анализе.

Полуструктурированные данные

Полуструктурированные данные не имеют формальной структуры для сортировки данных, а состоят из тегов для идентификации записей кластера данных.

Анализ настроений

Анализ настроений — это опрос или анализ, проводимый с целью выяснить отношение людей к определенным товарам, продуктам, услугам и т. д. Подобные виды аналитических опросов регулярно проводятся на платформах социальных сетей и почтовых сервисах. Например, Google и Facebook регулярно проводят анализ настроений.

Сервер

Сервер — это выделенный узел или компьютерная система для сети, которая выполняет транзакции данных и доставляет запросы пользователей по этой сети.

Осколок

Осколок относится к дискретному разделу базы данных.

Анализ сигналов

Анализ сигналов состоит из интерпретации, обработки и сообщения о «поведении или характеристиках явления» с помощью сенсорных устройств. Сигнал может представлять изображения, звуки, излучение, онлайн-данные, биологические параметры и т. д.

Анализ моделирования

Моделирование представляет собой реальные процессы или систему для изучения ее поведения под воздействием различных переменных. Анализ, проводимый на таком моделировании, называется просто анализом моделирования.

Умная сеть

Интеллектуальная сеть использует датчики в «энергетической сети» для оптимизации процессов передачи энергии путем анализа данных в реальном времени.

Пространственный анализ

Анализ географических и топологических данных для распознавания закономерностей, распределенных в географическом пространстве, называется пространственным анализом.

Язык структурированных запросов или SQL

Широко используемый язык программирования для сопоставления и извлечения данных из реляционных баз данных.

Скуп

Sqoop — это программное обеспечение для «транспортировки» или подключения для передачи информации из хранилищ данных, отличных от Hadoop, в базу данных Hadoop. Пользователь может указать целевое расположение в Hadoop, а затем переместить данные, скажем, из Oracle, в это целевое расположение.

Шторм

Storm — это бесплатная система с открытым исходным кодом от Twitter, которая используется для распределенных вычислений в реальном времени. Storm эффективно обрабатывает потоки неструктурированных данных в режиме реального времени.

T

Таксономия

Таксономия — это процесс классификации (или маркировки) данных в соответствии с заранее определенной системой. С помощью таксономии можно формировать каталоги структурированных данных для удобного отображения и поиска.

Телеметрия

Телеметрия — это получение информации в реальном времени (или с запаздыванием или с задержкой) об объекте или ситуации с помощью удаленных сенсорных устройств. Например, под телеметрию подпадает живая видеотрансляция с дрона, звонок по скайпу со смартфона и т.д.

Терабайты

Один терабайт равен примерно одной тысяче гигабайт данных.

Текстовая аналитика

Лингвистический и статистический анализ текстовых данных (обычно генерируемых людьми), который используется в машинном обучении, называется текстовой аналитикой.

Экономия

Thrift — это программная среда, используемая для простого и эффективного создания «многоязычных» сервисов. Пользователь может создать сервис с помощью встроенного механизма генерации кода в «Thrift». Пользователь может легко работать между C++, Ruby, Java и т. д. для создания межъязыкового сервисного продукта.

Анализ временных рядов

Анализ временных рядов данных включает изучение данных через фиксированные интервалы времени. Такие данные должны быть четко определены и анализироваться через одинаковые промежутки времени.

Транзакционные данные

Это просто форма данных, которая является динамической по своей природе и изменяется со временем. Например, транзакция онлайн-банка, данные о доставке продукта и т. д. представляют собой транзакционные данные.

Прозрачность

Открытая декларация или «представление» о процессах и операциях, выполняемых с данными людей. Это подпадает под этические нормы управления данными, и организации должны быть прозрачными в этом отношении. Прозрачность является обязательной для общедоступных данных и сервисов потребительских данных.

U

Неструктурированные данные

Любой набор данных, в котором отсутствует определенная структура, называется неструктурированным набором данных. Обычно в эту категорию попадают «текстовые» данные.

V

Значение

Обширное изучение «больших данных» и извлечение из них полезной информации полезно как для организаций, так и для людей. Это пособие, в свою очередь, «добавляет ценность» жизни бенефициаров. По мере роста бизнеса растут и отрасли, и люди. Потребители получают именно то, что хотят, поскольку компании хорошо их понимают.

Вариабельность

Изменчивость определяет характер данных, значение которых может быстро меняться. Изменчивость в конечном итоге изменит и интерпретацию данных.

Скорость

Термин скорость описывает «скорость, с которой данные генерируются, хранятся, обрабатываются и визуализируются» системой.

Достоверность

Достоверность определяет точность и правильность анализируемых данных. Организации должны быть уверены, что обрабатываемые данные надежны, а правдивость указывает на их достоверность.

Объем

Объем представляет собой размер данных, выраженный в формальных единицах. Единицы объема данных могут варьироваться от мегабайтов до петабайтов. Бронтобайты — это новая единица измерения больших объемов данных.

W

WebHDFS Apache Hadoop

WebHDFS — это служба Apache Hadoop для предоставления доступа HDFS к собственным библиотекам. Он предоставляет функциональный HTTP REST API для доступа к HDFS.

Данные о погоде

Служба с открытым исходным кодом, открытая для общественного и организационного использования, которая предоставляет им «данные о погоде в режиме реального времени». Обновления погоды в режиме реального времени можно использовать для различных целей, таких как логистика, операции с энергосистемой, управление событиями и т. д.

X

Базы данных XML

Базы данных XML напрямую связаны с документно-ориентированными базами данных и позволяют хранить данные в формате XML. Данные, хранящиеся в формате XML, могут быть преобразованы в любой требуемый формат.

Y

Йоттабайты

Один йоттабайт равен одной тысяче зеттабайт. Один зеттабайт равен одной тысяче эксабайт. Один эксабайт равен одному миллиарду терабайт. Нынешний объем нашего цифрового мира составляет примерно один йоттабайт и будет удваиваться каждые 18 месяцев.

Z

Зеттабайты

Один зеттабайт равен тысяче эксабайт или одному миллиарду терабайт. С 2016 года в глобальных сетях ежедневно происходит обмен одним зеттабайтом данных.

Зоны

Зоны — это четко определенные области в озере данных, помеченные для определенной цели.

Ну вот! Вы только что просмотрели обновленный глоссарий терминов Big Data. Думаете, вам есть что добавить к этому списку? Идите вперед и поделитесь своими знаниями с нами в поле для комментариев ниже.

208 терминов больших данных от А до Я: обновленный глоссарий определений больших данных

208 терминов больших данных от А до Я: обновленный глоссарий определений больших данных

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

Вопросы по теме