От хранилищ данных и озер к сетке данных: руководство по корпоративной архитектуре данных

Понять, как работают данные в крупных компаниях

Существует разрыв между курсами по науке о данных и реальностью работы с данными в реальном мире.

Когда полдесятилетия назад я получил свою первую работу аналитика в одном из австралийских банков «Большой четверки», я столкнулся со сложным ландшафтом данных, характеризующимся…

Проблемы с поиском, доступом и использованием данных;
Конкурирующиеприоритеты бизнеса, тянущие людей в разные стороны;
Устаревшие системы, которые сложно поддерживать и обновлять;
Устаревшая культура не поддается анализу данных;
Разрозненные команды, которые не разговаривали друг с другом.

Какое-то время я медлил и смирился с мыслью, что, возможно, именно так обстоят дела в мире корпоративных данных. Я верил, что, хотя наш технологический стек развивался очень быстро, UX в конечном итоге догонит…

Я обучался науке о данных, но на самом деле заниматься наукой о данных было совсем непросто. Онлайн-курсы не готовят вас к этому.

Но вот кикер.

Немного покопавшись, я понял, что не только моя организация столкнулась с этими проблемами с данными — они были распространены во всей отрасли.

Мы находимся в плавильном котле технологических инноваций, где все движется с головокружительной скоростью. Данные стремительно растут, вычислительная мощность растет, ИИ прорывается вперед и ожидания потребителей постоянно меняются.

Все, кто вовлечен в индустрию аналитики, просто пытаются найти свою опору. Мы все вместе спотыкаемся. Потерпите неудачу быстро и потерпите неудачу вперед.

Вот почему я написал эту статью.

Я хочу поделиться своими мыслями и помочь профессионалам, таким как выпускники, новые бизнес-аналитики и специалисты по данным-самоучкам, быстро понять ландшафт данных на уровне предприятия и сформировать ожидания.

Новичок в Medium? Присоединяйтесь здесь и получите неограниченный доступ к лучшим статьям в Интернете.

1. Данные — это жизненная сила цифровых технологий

Давайте сначала остановимся на решающей роли, которую данные играют в современной конкурентной быстро меняющейся бизнес-среде.

Компании во всех отраслях переходят к принятию решений на основе данных.

В то же время потребители все чаще ожидают гипер-персонализированных цифровых продуктов и услуг, которые используют мощную аналитику, такую как искусственный интеллект и машинное обучение, обученную на всех качественных данных, которые может собрать компания.

Это то, что позволяет вам смотреть персонализированные телешоу по запросу (развлечения), заказывать еду и получать ее в течение часа (продукты и покупки), а также получать предварительно одобренные ипотека в минутах (жилье).

Это означает, что дальновидный стек данных необходим для выживания и процветания, поскольку данные — это жизненная сила цифровых технологий.

Или, как выразился британский математик Клайв Хамби в 2006:

«Данные — это новая нефть».

ИТ-отделы и платформы данных больше не живут в подвалах — теперь они являются основной частью корпоративной стратегии.

Данные теперь являются гражданином первого класса.

Потому что данные управляют всем.

Итак, без лишних слов, давайте теперь углубимся в то, как данные организуются, обрабатываются и хранятся в крупных компаниях.

Глядя вниз с нашего вертолета, вы увидите, что ландшафт разделен на оперативные данные и аналитические данные.

2. Операционные (и транзакционные) данные

Операционные данные часто поступают в виде отдельных записей, которые представляют определенные события, такие как продажа, покупка или взаимодействие с клиентом, и представляют собой информацию, на которую полагается бизнес для выполнения своих повседневных операций. .

Операционные данные хранятся в базах данных, и к ним обращаются микросервисы, представляющие собой небольшие программы, помогающие управлять данными. Данные постоянно обновляются и отражают текущее состояние бизнеса.

Транзакционные данные — это важный тип операционных данных. Примеры транзакций в банковской сфере включают:

перемещение денег между банковскими счетами;
платежи за товары и услуги;
взаимодействие клиента с одним из наших каналов, например. филиал или онлайн.

Транзакционные данные, получаемые непосредственно из приложения, называются исходными данными или System-of-Record (SOR). Исходные данные свободны от преобразований и являются…

предпочтительный формат данных для специалистов по данным;
формат данных, поступающих в озера данных;
начало любого наследия данных.

Подробнее об этих идеях позже.

Системы обработки транзакционных данных, называемые системами онлайн-обработки транзакций (OLTP), должны обрабатывать множество транзакций довольно быстро. Они полагаются на базы данных, которые могут быстро хранить и извлекать данные, а также обеспечивают точность данных, применяя правила, называемые семантика ACID:

Атомарность —каждая транзакция рассматривается как отдельная единица. Мы не хотим смешивать два банковских перевода или покупки!
Последовательность —транзакции должны пройти или не пройти. Моя покупка жареной свинины либо прошла, либо нет!
Изоляция.несколько транзакций могут выполняться одновременно, не мешая друг другу. Основной принцип масштабируемости.
Надежность —изменения данных сохраняются даже при выключении системы. Потеря операционных данных поставит ваш бизнес в тупик.

Системы OLTP используются для важных бизнес-приложений, которые должны работать точно, быстро и в масштабе.

В банковском деле системы OLTP обрабатывают депозиты, снятие средств, переводы и запросы баланса, которые включают приложения онлайн-банкинга, системы авторизации кредита и дебета, обработчики чеков и системы банковских переводов, которые отправляют деньги между банками.

Как видите, OLTP-системы обычно являются основным интерфейсом между предприятиями и их клиентами.

3. Аналитические данные

Аналитические данные – это временное (временное) и агрегированное (консолидированное) представление операционных или транзакционных данных компании. Это обеспечивает сводное представление фактов об организации с течением времени, предназначенное для:

получить представление о прошлой эффективности бизнеса (описательнаяидиагностическаяаналитика);
принимать решения на основе данных на будущее (прогностическая и предписывающая аналитика).

Аналитические данные часто используются для создания информационных панелей и отчетов (часто создаются аналитиками данных) и обучения моделей машинного обучения (специалистами по данным).

Ознакомьтесь с моими пошаговыми руководствами о том, как обучать регрессионные и классификационные модели с помощью Python — основные навыки современной науки о данных.

Предприятия переходят на все более мощные инструменты бизнес-аналитики (BI) и платформы машинного обучения без кода, стремясь демократизироватьвозможности обработки данных и аналитики.

Идея заключается в том, что сегодня многие компании обладают лишь небольшими или хранилищами передовых аналитических навыков. Принцип, меняющий правила игры, заключается в предоставлении 10 000 нетехническим специалистам во всей организации нужного набора навыков и инструментов, обеспечивающих повышение общей производительности, которое превосходит предельные преимущества полировки специалиста по обработке данных, состоящего из 20 человек. команда. (Извините, мои друзья по науке о данных!)

Так что следите за демократизацией данных — сейчас это очень важно.

В целом, аналитическая обработка отличается от обработки транзакций, поскольку первая направлена на анализ данных, а вторая — на регистрацию определенных событий.

Системы аналитической обработки обычно используют системы только для чтения, в которых хранятся огромные объемы исторических данных или бизнес-показателей. Аналитика может выполняться на моментальном снимке данных в определенный момент времени.

Теперь давайте соединим точки между оперативными и аналитическими данными.

Операционные данные преобразуются в аналитические с помощью конвейеров данных, обычно создаваемых инженерами данных.

Эти «конвейеры» обычно представляют собой конвейеры ETL, что влечет за собой извлечение данных из операционных систем, преобразование для своих бизнес-потребностей и загрузить в хранилище данных или озеро данных, готовых для анализа.

4. Хранилища данных и озера данных

Вся плоскость аналитических данных, в которой предприятие хранит свои аналитические данные, разделилась на две основные архитектуры и технологические стеки:

хранилища данных;
Озера данных.

Разные пользователи могут выполнять работу с данными на разных этапах архитектуры предприятия.

Аналитики данных часто запрашивают таблицы и агрегируют данные в хранилище данных для создания эффективных информационных панелей, отчетов и визуализаций, которые потребляют бизнес-пользователи и лица, принимающие решения в дальнейшем.
Исследователи данных часто работают в озере данных, чтобы исследовать данные в теневой производственной среде. Это означает прототипирование их обработки данных и моделирования в среде разработчика (т. е. непроизводственной) на основе действующих (т. е. производственных) данных, которые были тщательно подготовлены инженерами данных. Как только бизнес признает ценность моделей, инженеры машинного обучения внедряют их в производство, чтобы модель могла обслуживать как внутренних, так и внешних клиентов в масштабе под наблюдением круглосуточной операционной группы (MLOps). .

Для тех, кто плохо знаком с корпоративными ИТ, есть два основных типа сред, которые необходимо освоить:

Непроизводственный, где вы создаете и пробуете что-то новое. Изменения дешевы, и поломка вещей не разрушит ваш бизнес. Также известна как среда разработчика. Проекты финансируются за счет капитальных затрат организации (CapEx).
Производство, где вы развертываете и предоставляете свои окончательные и утвержденные приложения, данные, конвейеры и системы реальным клиентам. Теперь ваша работа опубликована. Убедитесь, что это хорошо, потому что изменение стоит дорого. Prod — как его называют в просторечии — это высокозащищенные закрытые среды, о которых заботится операционная или группа управления, финансируемая организацией. операционные расходы (OpEx). Подробнее о CapEx и OpEx я писал здесь.

Короче говоря, создавайте материал в не-продукте, развертывайте его в продукте. Попался!

Хорошо, давайте теперь углубимся в некоторые детали обеих архитектур данных.

4.1 Хранилища данных

Хранилища данных — это устоявшийся способ хранения структурированных данных в реляционной схеме, оптимизированной для операций чтения — в первую очередь SQL-запросов для поддержки BI, отчетность и визуализация.

Некоторые особенности складов:

Исторический анализ. Хранилища данных десятилетиями были основой описательной аналитики, предлагая возможность быстро запрашивать и объединять большие объемы исторических данных.
Схема при записи. Хранилища данных традиционно используют подход Схема при записи, при котором структура или схема ваших таблиц определяется заранее.

Моделирование данных. Хотя аналитики данных и специалисты по обработке и анализу данных могут работать с данными непосредственно в хранилище аналитических данных, обычно создают модели данных, которые предварительно агрегируют данные для создания легче создавать отчеты, информационные панели и интерактивные визуализации. Общая модель данных, называемая схемой звезды, основана на таблицах фактов, содержащих числовые значения, которые вы хотите проанализировать (например, некоторая сумма, относящаяся к Продажи), которые связаны с — следовательно, называемой реляционной базой данных — таблицами измерений, представляющими сущности ( например, Клиент или Продукт), которые вы хотите измерить.
Быстрые запросы: данные в хранилищах могут быть агрегированы и загружены в модель онлайн-аналитической обработки (OLAP), также известную как куб. Числовые значения (показатели) из таблиц фактов предварительно агрегируются по одному или нескольким параметрам, например общий доход (из таблицы фактов Продажи). ) по параметрам Клиент, Продукт и Время . Визуально это выглядит как пересечение трех измерений в трехмерном кубе. С точки зрения преимуществ, модель OLAP/куб фиксирует отношения, поддерживающие анализ «детализация вверх/вниз», а запросы выполняются быстро, поскольку данные предварительно агрегированы.

Типы файлов. Файлы структурированных данных включают читаемые форматы, такие как CSV и XLSX (Excel), а также оптимизированные форматы, такие как Avro. , ORC и Паркет. Реляционные базы данных также могут хранить частично структурированные данные, такие как файлы JSON.

Прочтите мое Объяснение 101 по теме Хранилища данных и моделирование данных.

4.2 Озера данных

Озера данных — это де-факто отраслевой подход к хранению больших объемов файловых данных для поддержки обработки данных и крупномасштабных сценариев аналитической обработки данных.

Распределенные вычисления и хранилище. Озера данных используют распределенные вычисления и хранилище для обработки и хранения огромных объемов потенциально неструктурированных данных. Это означает, что данные хранятся и обрабатываются потенциально на тысячах компьютеров, известных как кластер больших данных. Эта технология получила распространение в 2010-х благодаря Apache Hadoop, набору программного обеспечения для работы с большими данными с открытым исходным кодом, которое позволило организациям распределять огромные объемы данных по множеству компьютеров (HDFS). распределенное хранилище) и выполнять SQL-подобные запросы к хранящимся в них таблицам (Hive и Sparkраспределенные вычисления). Такие компании, как Cloudera и Hortonworks, позже коммерциализировали программное обеспечение Apache в виде пакетов, упрощающих адаптацию и обслуживание для организаций по всему миру.
Схема при чтении. Озера данных используют парадигму Схема при чтении, при которой схема создается только при чтении данных. Это означает, что данные можно сбрасывать в озеро в большом количестве без дорогостоящей необходимости немедленного определения схем, при этом позволяя создавать схемы для конкретных случаев использования в будущем — именно та гибкость, которая требуется специалистам по данным для моделирования.
Типы файлов. В озерах данных хранятся неструктурированные данные, включая текстовые файлы, такие как txt и doc, аудио файлы, такие как MP3 и WAV, изображения, такие как JPEG и PNG, видео, такие как MP4 и даже целые PDF-файлы, сообщения в социальных сетях, электронные письма, веб-страницы и данные датчиков. Озера данных (и базы данных NoSQL) также позволяют хранить ваши полуструктурированные данные, такие как файлы JSON и XML, как есть.
Облачные вычисления. Озера данных все чаще размещаются в общедоступных облачных сервисах, таких как Amazon Web Services, Microsoft Azure и Google Cloud. Эта эластичная и масштабируемая инфраструктура позволяет организации автоматически и быстро приспосабливаться к меняющимся потребностям в ресурсах как в вычислительных ресурсах, так и в хранилище, сохраняя при этом производительность и платя только за то, что вы используете. Существует три распространенных типа облачных вычислений с различным разделением ответственности между поставщиком облачных услуг и клиентом. Наиболее гибкая инфраструктура как услуга (IaaS) позволяет вам фактически арендовать свободное место в центре обработки данных. Облачный провайдер поддерживает физическую инфраструктуру и доступ к Интернету. Напротив, в модели Программное обеспечение как услуга (SaaS) клиент арендует полностью разработанное программное решение, работающее через Интернет (например, Microsoft Office). Для корпоративных данных наиболее популярной облачной моделью является промежуточная платформа как услуга (PaaS), когда поставщик выбирает ОС, а клиент может построить свою архитектуру данных и корпоративные приложения. .

Потоковая передача. Такие технологии, как Apache Kafka, позволяют обрабатывать данные практически в режиме реального времени в виде непрерывного потока данных, позволяя создавать системы, которые выявляйте мгновенные идеи и тенденции или немедленно реагируйте на события по мере их возникновения. Например, эта технология использует возможность отправки мгновенного мобильного уведомления клиентам, которые могут переводить деньги мошенникам.

Прочитайте мой Explainer 101 об индустрии облачных вычислений.

5. Сетка данных и продукты данных

Архитектор Жамек Дехгани сконцентрировал эволюцию — проблемы, прогресс и неудачи — ландшафта корпоративных данных на протяжении трех поколений:

Первое поколение: собственные корпоративные хранилища данных и платформы бизнес-аналитики; решения с большими ценниками, которые оставили компании с таким же большим объемом технического долга [в виде] тысяч неподдерживаемых заданий ETL, а также таблицы и отчеты, которые понимает только небольшая группа специалистов, в результате чего в недооцененном положительном влиянии на бизнес.

Второе поколение: экосистема больших данных с озером данных в качестве серебряной пули; сложная экосистема больших данных и длительные пакетные задания, управляемые центральной командой гиперспециализированных инженеров по данным, создали монстров озера данных, которые в лучшем случае позволили провести аналитику НИОКР; сверх обещанного и недореализованного.

Платформы данных третьего (и текущего поколения): более или менее похожи на предыдущее поколение, с современным уклоном в сторону потоковой передачи для доступности данных в режиме реального времени с архитектурой, объединяющей пакетную и поточную обработку для преобразования данных, а также полный охват облачных управляемых сервисов для хранения, механизмов выполнения конвейеров данных и платформ машинного обучения.

Нынешнюю архитектуру озера данных можно резюмировать следующим образом:

Централизованно. Все аналитические данные хранятся в одном месте под управлением центральной группы инженеров данных, которые не обладают знаниями предметной области данных, что затрудняет раскрытие всего их потенциала или устранение проблем с качеством данных, возникающих из источника. Противоположность децентрализованной архитектуре, которая объединяет прием данных командами по всему бизнесу.
Не зависит от домена. Архитектура, которая стремится служить всем, не заботясь ни о ком. Универсальная платформа. В отличие от управляемой доменом архитектуры, в которой данные принадлежат разным доменам бизнеса.
Монолитный. Платформа данных построена как одна большая часть, которую трудно изменить и обновить. В отличие от модульной архитектуры, позволяющей настраивать и изменять отдельные части или микросервисы.

Проблемы ясны и поэтому, кажется, некоторые из решений.

Введите сетку данных.

Сетка данных — это архитектура данных следующего поколения, которая переходит от единой централизованной группы данных к децентрализованному дизайну, в котором данные принадлежат и управляются командами в организации, которые лучше всего в них разбираются. известное как владение доменом.

Важно отметить, что каждое бизнес-подразделение или домен стремится использовать мышление о продукте для создания качественных и многоразовых продуктов данных — автономный и доступный набор данных, который производители, которые затем могут публиковаться и совместно использоваться в сети для потребителей в других доменах и бизнес-подразделениях, называемых узлами в сети.

Сетка данных позволяет командам работать независимо с большей автономией и гибкостью, обеспечивая при этом согласованность, надежность и управляемость данных.

Вот пример из моей работы.

Прямо сейчас данные наших клиентов вместе с их транзакциями, продуктами, доходами и обязательствами находятся в нашем централизованном озере данных. (И в наших хранилищах данных тоже.)

В будущем, когда мы объединим наши возможности и права собственности в банке, собственные инженеры данных в области кредитный риск смогут самостоятельно создавать и управлять своими конвейерами данных, не полагаясь на централизованный группа по приему данных, далекая от бизнеса и не имеющая кредитного опыта.

Эта кредитная команда будет гордиться созданием и усовершенствованием высококачественных, стратегических и многоразовых продуктов данных, которые можно использовать в различных узлах (бизнес-доменах) в сети, предоставляя ипотеки с надежной кредитной информацией, чтобы принимать более взвешенные решения об утверждении ипотечных кредитов.

Эти же данные можно использовать в домене consumer credit для разработки моделей машинного обучения, чтобы лучше понять поведение наших клиентов, использующих кредитные карты, чтобы мы могли предлагать им более качественные услуги. и выявить тех, кто находится в группе риска.

Это примеры использования стратегической ценности продуктов данных в сетке.

Сетка данных способствует культуре владения данными и совместной работы, при которой данные рассматриваются как первоклассные граждане, которые, кроме того, производятся и беспрепятственно распределяются между командами и отделами, а не томятся в запутанная паутина часто дублирующихся конвейеров ETL, созданных разрозненными командами для конкретных специальных задач.

Сетка данных подталкивает организации от дорогостоящего и неэффективного мышления, основанного на проектах, к масштабируемому и дальновидному мышлению, основанному на продукте.

6. Управление данными

Управление данными похоже на большую игру Кто в доме хозяин, только для данных. Как и в сериале, здесь есть много сложных отношений, в которых нужно ориентироваться.

Речь идет о выяснении того, кто отвечает за какие данные, кто имеет к ним доступ, кто должен их защищать и какие средства контроля и мониторинга существуют, чтобы гарантировать, что что-то пойдет не так.

На моем рабочем месте 40 000 сотрудников, множество процессов и конкурирующие приоритеты, поэтому поддержание порядка и обеспечение того, чтобы все были на одной странице, может показаться настоящей проблемой.

Аналитикам данных, специалистам по данным и разработчикам управление данными может показаться раздражающим другом, который всегда хочет знать, чем вы занимаетесь. Но они абсолютно необходимы для организаций, особенно хорошо регулируемых. В противном случае это будет похоже на цирк без манежа — хаотичный, неуправляемый и очень рискованный.

Вот некоторые основные соображения по управлению данными:

Конфиденциальность данных. Это все равно, что пытаться скрыть свои неловкие детские фотографии от мира. Но для бизнеса это гораздо серьезнее, чем просто хитрые стрижки. Допустим, банк случайно раскрывает всю финансовую информацию своего клиента. Это будет стоить им кучу денег и, что еще более важно, доверия.

Безопасность данных. Вы хотите убедиться, что данные вашего клиента защищены как от внешних угроз (например, хакеров), так и от внутренних угроз (например, мошеннических сотрудников). Это означает надежные системы аутентификации, отказоустойчивые брандмауэры, железные технологии шифрования и бдительную круглосуточную кибербезопасность. Никто не хочет, чтобы их данные оказались в даркнете и проданы с аукциона преступникам.

Качество данных. Подумайте о том, чтобы сделать сэндвич — положите в него испорченные ингредиенты, и вы получите отвратительную еду. Если качество ваших данных оставляет желать лучшего, вы получите ненадежную информацию, которую никто не захочет использовать. И если вы работаете в регулируемой отрасли, вам лучше убедиться, что ваш сэндвич сделан из свежих ингредиентов, иначе ваши данные могут не соответствовать вашим обязательствам по соответствию.

Хранение надежной информации о том, как данные проходят через предприятие — так называемая происхождение данных, — имеет решающее значение для обеспечения качества данных и устранения неполадок, когда что-то идет не так.

Низкий уровень конфиденциальности, безопасности и/или качества данных означает более высокий риск данных.

Здесь вступает в игру владение данными. Кто должен командовать и принимать решения относительно данных? Кто ответит за риск того, что что-то пойдет не так?

На практике это немного похоже на игру в горячую картошку, где никто не хочет держать картошку слишком долго. Но кто-то должен взять на себя ответственность за это, чтобы мы могли избежать сбоев данных и сохранить нашу картошку горячей, свежей и надежной.

Движение к сетке данных направлено на:

улучшить качество данных по всем направлениям (с помощью повторно используемых продуктов данных);
оптимизировать владение данными (иметь соответствующие домены, владеющие своими данными);
упростить передачу данных (прощайте удаленные ETL в централизованное озеро данных).

7. Заключительные слова

Область данных на уровне предприятия часто может вызывать недоумение, отмеченную накоплением технического долга в результате цикла экспериментов, за которым следует чрезмерная коррекция, мало чем отличающаяся от колебаний фондового рынка.

Хотя истории крупных компаний уникальны, у них есть несколько общих тем. Одной из таких ветвей является органичное расширение в сторону громоздкого и сложного корпоративного хранилища данных, за которым следует активное внедрение централизованного озера данных, направленного на сокращение затрат, концентрацию опыта и повышение ценности данных.

Такой подход породил совершенно новый набор проблем. Итак, мы все возвращаемся назад — на этот раз резкий поворот в сторону децентрализации стеков данных и передачи управления данными командам, которые лучше всего разбираются в своих собственных данных.

Фу! Словно колония пингвинов, шаркающая по постоянно меняющемуся ледяному полю.

Чтобы рассказать о себе, скажу, что банк, в котором я работаю, прошел через все эпохи архитектуры данных, которые я описал в этой статье.

Мы потратили десятилетия на хранилища данных. Затем мы приступили к 7-летнему путешествию по поддержке стратегического озера данных, которое должно было стать краеугольным камнем нашей инфраструктуры данных.

Короче говоря, наши хранилища данных и озеро данных все еще существуют сегодня, сосуществуя в своего рода неловком браке. (Это работа в процессе...)

Мы начали свой собственный путь по децентрализации этого озера данных в пользу ячеистой сети. Мы разрушаем подобную спагетти сложность нашего ландшафта данных, используя возможности повторно используемых продуктов данных.

И я с гордостью могу сказать, что среди Большой четверки банков Австралии мы, по-видимому, лидируем. Это совершенно восхитительно, потому что крупные организации с «голубыми фишками» обычно не находятся в авангарде технологических инноваций.

Как и у многих компаний, у нас большие проблемы, так как весь этот технический долг является побочным продуктом сотен проектов, которыми на протяжении многих лет руководили тысячи коллег, которые приходили и уходили.

Мои онлайн-курсы по науке о данных, любезно спонсируемые моей компанией, научили меня обрабатывать данные и обучать модели логистической регрессии и деревья с градиентным усилением, но плохо подготовили меня к реалиям работы с данными в крупных организациях.

В свой первый день я думал, что мне вручат несколько хороших сочных данных на блюдечке, и я сразу же окунусь в обучающие модели.

Как обнаружил Форрест Гамп, жизнь не так проста.

Путем проб и неудач я узнал из первых рук, что существует так много навыков, которые определяют ваше влияние как специалиста по данным, помимо того, что предлагают вам курсы — от участия в бизнесе до рассказывания историй на основе данных до навигации по политике и всех нюансов ошибочного, но постоянно - развивающийся ландшафт корпоративных данных.

Написав эту статью, я надеюсь, что смогу избавить вас от некоторых моих собственных ошибок.

Дайте мне знать, если вы относитесь к этому опыту в своем собственном путешествии!

Найдите меня в Twitter и YouTube.

Мои популярные статьи об искусственном интеллекте и науке о данных

AI Revolution: стремительное введение в машинное обучение — здесь
ChatGPT и GPT-4: как OpenAI выиграл войну NLU — здесь
Искусство генеративного искусственного интеллекта: объяснение промежуточного пути и стабильного распространения — здесь
Сила сторителлинга на основе данных — продавайте истории, а не данные — здесь
Хранилища данных, озера данных и сетка данных — здесь
Power BI — от моделирования данных до потрясающих отчетов — здесь
Хранилища данных и моделирование данных — краткий курс — здесь
Машинное обучение против механического моделирования — здесь
Объяснение популярных показателей производительности машинного обучения — здесь
Будущее работы: безопасна ли ваша карьера в эпоху ИИ — здесь
Помимо ChatGPT: поиск настоящей интеллектуальной машины — здесь
Регрессия: прогнозирование цен на жилье с помощью Python — здесь
Классификация: прогнозирование оттока сотрудников с помощью Python — здесь
Блокноты Python Jupyter против Dataiku DSS — здесь
Как использовать облачные вычисления для вашего бизнеса — здесь

Неограниченный доступ к среде

Присоединяйтесь к Medium здесь и наслаждайтесь неограниченным доступом к лучшим статьям в Интернете.

Вы будете напрямую поддерживать меня и других ведущих писателей. Ваше здоровье!

От хранилищ данных и озер к сетке данных: руководство по корпоративной архитектуре данных

Понять, как работают данные в крупных компаниях

1. Данные — это жизненная сила цифровых технологий

2. Операционные (и транзакционные) данные

3. Аналитические данные

4. Хранилища данных и озера данных

4.1 Хранилища данных

4.2 Озера данных

5. Сетка данных и продукты данных

6. Управление данными

7. Заключительные слова

Мои популярные статьи об искусственном интеллекте и науке о данных

Неограниченный доступ к среде

Вопросы по теме