Что такое бизнес-аналитика?
Бизнес-аналитика – это управляемый технологиями процесс анализа данных и представления полезной информации, которая помогает руководителям и менеджерам принимать бизнес-решения. Проще говоря, анализ, отчетность, составление бюджета и представление ваших бизнес-данных. Цель использования бизнес-аналитики для вашего бизнеса — улучшить ваши организационные процессы и финансовое положение, чтобы лучше управлять своим бизнесом.
Программное обеспечение для бизнес-аналитики — это инструмент, который позволяет создавать ценность из больших данных. Некоторые примеры бизнес-аналитики включают хранилище данных, инструменты восстановления данных и инструменты облачных служб данных.
Хранилище данных:
Хранилище данных — это интеграция данных из нескольких разнородных источников, которые поддерживают аналитическую отчетность и структурированные или специальные запросы и принятие решений.
Процесс построения и использования хранилища данных называется хранилищем данных.
Что такое ЭТЛ?
ETL — это сокращение от Extract, Transform и Load. В этом процессе инструмент ETL извлекает данные из различных исходных систем системы управления реляционными базами данных, а затем преобразует данные, например, применяя вычисления, конкатенации и т. д., а затем загружает данные в систему хранилища данных.
Что такое OLAP и OLTP?
OLAP-серверы онлайн-аналитической обработки основаны на многомерной модели данных. Это позволяет менеджерам получить представление об информации посредством быстрого, последовательного и интерактивного доступа к информации.
OLAP-операции:
- Свернуть
- Детализация
- Нарезка и кости
- Вращаться
OLTP-онлайн-обработка транзакций — это онлайн-система изменения базы данных, которая используется для ввода заказов, розничных продаж и финансовых транзакций.
OLTP-операции:
- Вставлять
- Удалить
- Обновлять
Факты и измерение:
Таблица фактов в основном состоит из бизнес-фактов и внешних ключей, которые ссылаются на первичные ключи в таблицах измерений. Таблица измерений — это таблица в звездообразной схеме хранилища данных. Таблицы размеров используются для описания размеров. Они содержат ключи измерений, значения и атрибуты.
Уровни архитектуры хранилища данных:
- Нижний уровень —сервер базы данных хранилища данных, также называемый сервером реляционной базы данных, который использует внутренние инструменты и утилиты для извлечения данных на нижний уровень. Эти внутренние инструменты и утилиты выполняют функции извлечения, очистки, загрузки и обновления.
- Средний уровень — содержит сервер OLAP, который может быть реализован либо с помощью ROLAP, который представляет собой расширенную систему управления реляционными базами данных. Он сопоставляет операции над многомерными данными со стандартными реляционными операциями или с помощью многомерной модели OLAP, которая непосредственно реализует многомерные данные и операции.
- Верхний уровень — клиентский уровень переднего плана, содержащий инструменты запросов и отчетов, инструменты анализа и инструменты интеллектуального анализа данных.
Инструменты больших данных и их использование:
Hadoop — позволяет распределенную обработку больших наборов данных в кластерах компьютеров. Он предназначен для масштабирования от отдельных серверов до тысяч машин.
Использование:
- Гибкость в обработке данных
- Позволяет ускорить обработку данных
HPCC — обеспечивает единую платформу, единую архитектуру и единый язык программирования для обработки данных.
Использование:
- Высокая избыточность и доступность
- Обеспечьте повышенную масштабируемость и производительность
- Автоматически оптимизирует код для параллельной обработки
Cassandra — обеспечивает эффективное управление большими объемами данных.
Использование:
- Отличная масштабируемость лайнера
- Высокая отказоустойчивость
- Встроенная высокая доступность
Storm — Фреймворк реального времени для обработки потоков данных, поддерживающий любой язык программирования.
Использование:
- Отличная горизонтальная масштабируемость.
- Встроенная отказоустойчивость.
- Автоматический перезапуск при сбоях.
MangoDB — база данных NoSQL с открытым исходным кодом и широкими возможностями, кроссплатформенная, совместимая со многими языками программирования.
Использование:
- Хранит любые типы данных.
- Разделение данных между несколькими узлами и центрами обработки данных.
Понимание структурированных текстовых данных:
Термин структурированные данные относится к данным, которые имеют определенные длину и формат для больших данных. Например, структурированные данные включают числа, даты и группы слов и чисел, называемые строками. Структурированные данные обычно находятся в реляционной базе данных. Этот формат отлично подходит для поиска как с помощью запросов, созданных человеком, так и с помощью алгоритмов, использующих тип данных и имена полей, такие как алфавитные или числовые, денежная единица или дата.
Понимание неструктурированных текстовых данных:
Неструктурированные данные имеют внутреннюю структуру, но не структурированы с помощью предопределенных моделей данных или схемы. Он может быть текстовым или нетекстовым, созданным человеком или машиной. Они также могут храниться в нереляционной базе данных, такой как NoSQL. Например, социальные сети, веб-сайты, мобильные данные — типичные неструктурированные данные, созданные человеком.
Чтобы изучить больше концепций науки о данных, используйте бесплатное руководство по науке о данных и вопросы для собеседования по науке о данных.