Что такое бизнес-аналитика?

Бизнес-аналитика – это управляемый технологиями процесс анализа данных и представления полезной информации, которая помогает руководителям и менеджерам принимать бизнес-решения. Проще говоря, анализ, отчетность, составление бюджета и представление ваших бизнес-данных. Цель использования бизнес-аналитики для вашего бизнеса — улучшить ваши организационные процессы и финансовое положение, чтобы лучше управлять своим бизнесом.

Программное обеспечение для бизнес-аналитики — это инструмент, который позволяет создавать ценность из больших данных. Некоторые примеры бизнес-аналитики включают хранилище данных, инструменты восстановления данных и инструменты облачных служб данных.

Хранилище данных:

Хранилище данных — это интеграция данных из нескольких разнородных источников, которые поддерживают аналитическую отчетность и структурированные или специальные запросы и принятие решений.

Процесс построения и использования хранилища данных называется хранилищем данных.

Что такое ЭТЛ?

ETL — это сокращение от Extract, Transform и Load. В этом процессе инструмент ETL извлекает данные из различных исходных систем системы управления реляционными базами данных, а затем преобразует данные, например, применяя вычисления, конкатенации и т. д., а затем загружает данные в систему хранилища данных.

Что такое OLAP и OLTP?

OLAP-серверы онлайн-аналитической обработки основаны на многомерной модели данных. Это позволяет менеджерам получить представление об информации посредством быстрого, последовательного и интерактивного доступа к информации.

OLAP-операции:

  • Свернуть
  • Детализация
  • Нарезка и кости
  • Вращаться

OLTP-онлайн-обработка транзакций — это онлайн-система изменения базы данных, которая используется для ввода заказов, розничных продаж и финансовых транзакций.

OLTP-операции:

  • Вставлять
  • Удалить
  • Обновлять

Факты и измерение:

Таблица фактов в основном состоит из бизнес-фактов и внешних ключей, которые ссылаются на первичные ключи в таблицах измерений. Таблица измерений — это таблица в звездообразной схеме хранилища данных. Таблицы размеров используются для описания размеров. Они содержат ключи измерений, значения и атрибуты.

Уровни архитектуры хранилища данных:

  • Нижний уровень —сервер базы данных хранилища данных, также называемый сервером реляционной базы данных, который использует внутренние инструменты и утилиты для извлечения данных на нижний уровень. Эти внутренние инструменты и утилиты выполняют функции извлечения, очистки, загрузки и обновления.
  • Средний уровень — содержит сервер OLAP, который может быть реализован либо с помощью ROLAP, который представляет собой расширенную систему управления реляционными базами данных. Он сопоставляет операции над многомерными данными со стандартными реляционными операциями или с помощью многомерной модели OLAP, которая непосредственно реализует многомерные данные и операции.
  • Верхний уровень — клиентский уровень переднего плана, содержащий инструменты запросов и отчетов, инструменты анализа и инструменты интеллектуального анализа данных.

Инструменты больших данных и их использование:

Hadoop — позволяет распределенную обработку больших наборов данных в кластерах компьютеров. Он предназначен для масштабирования от отдельных серверов до тысяч машин.

Использование:

  1. Гибкость в обработке данных
  2. Позволяет ускорить обработку данных

HPCC — обеспечивает единую платформу, единую архитектуру и единый язык программирования для обработки данных.

Использование:

  1. Высокая избыточность и доступность
  2. Обеспечьте повышенную масштабируемость и производительность
  3. Автоматически оптимизирует код для параллельной обработки

Cassandra — обеспечивает эффективное управление большими объемами данных.

Использование:

  1. Отличная масштабируемость лайнера
  2. Высокая отказоустойчивость
  3. Встроенная высокая доступность

Storm — Фреймворк реального времени для обработки потоков данных, поддерживающий любой язык программирования.

Использование:

  1. Отличная горизонтальная масштабируемость.
  2. Встроенная отказоустойчивость.
  3. Автоматический перезапуск при сбоях.

MangoDB — база данных NoSQL с открытым исходным кодом и широкими возможностями, кроссплатформенная, совместимая со многими языками программирования.

Использование:

  1. Хранит любые типы данных.
  2. Разделение данных между несколькими узлами и центрами обработки данных.

Понимание структурированных текстовых данных:

Термин структурированные данные относится к данным, которые имеют определенные длину и формат для больших данных. Например, структурированные данные включают числа, даты и группы слов и чисел, называемые строками. Структурированные данные обычно находятся в реляционной базе данных. Этот формат отлично подходит для поиска как с помощью запросов, созданных человеком, так и с помощью алгоритмов, использующих тип данных и имена полей, такие как алфавитные или числовые, денежная единица или дата.

Понимание неструктурированных текстовых данных:

Неструктурированные данные имеют внутреннюю структуру, но не структурированы с помощью предопределенных моделей данных или схемы. Он может быть текстовым или нетекстовым, созданным человеком или машиной. Они также могут храниться в нереляционной базе данных, такой как NoSQL. Например, социальные сети, веб-сайты, мобильные данные — типичные неструктурированные данные, созданные человеком.

Чтобы изучить больше концепций науки о данных, используйте бесплатное руководство по науке о данных и вопросы для собеседования по науке о данных.