1. Влияние расстояния на производительность и масштабируемость систем распределенных баз данных в гибридных облаках (arXiv)

Автор: Ясер Мансури, М. Али Бабар

Вывод. Объем неструктурированных данных, таких как изображения и видео, значительно вырос. Взаимосвязанные неструктурированные данные можно рассматривать как свойства узлов в графах. Конечные пользователи обычно запрашивают графические данные и неструктурированные данные вместе в разных реальных приложениях. Для удовлетворения таких требований предлагаются некоторые системы и методы. Однако большинство предыдущих работ выполняют разные задачи в разных системах и теряют возможность оптимизировать такие запросы в одном движке. В этой работе мы создаем собственную базу данных графа, а именно PandaDB, для поддержки запросов к неструктурированным данным в графе. Сначала мы представляем CypherPlus, язык запросов, позволяющий пользователям выражать сложные графовые запросы для понимания семантики неструктурированных данных. Затем мы разрабатываем модель затрат и соответствующие методы оптимизации запросов, чтобы ускорить обработку неструктурированных данных, а также обработку графовых запросов. Кроме того, мы оптимизируем хранение и индексацию данных, чтобы ускорить обработку запросов в распределенной среде. PandaDB расширяет реализацию графовой базы данных Neo4j и предоставляет версию с открытым исходным кодом для коммерческого использования в облаке. Результаты показывают, что PandaDB может поддерживать крупномасштабную обработку запросов к неструктурированным данным в графе, например, более миллиарда элементов неструктурированных данных. PandaDB имеет открытый исходный код и широко используется в различных промышленных приложениях от FinTech, Knowledge Graph и управления социальными сетями для управления крупномасштабными графами с огромным объемом неструктурированных данных.

2. PANDADB: система баз данных с распределенными графами для запроса неструктурированных данных в больших графах (arXiv)

Автор:Цзыхао Чжао, Чжихун Шэнь, Минцзе Тан, Чуань Ху, Юаньчунь Чжоу

Вывод. Объем неструктурированных данных, таких как изображения и видео, значительно вырос. Взаимосвязанные неструктурированные данные можно рассматривать как свойства узлов в графах. Конечные пользователи обычно запрашивают графические данные и неструктурированные данные вместе в разных реальных приложениях. Для удовлетворения таких требований предлагаются некоторые системы и методы. Однако большинство предыдущих работ выполняют разные задачи в разных системах и теряют возможность оптимизировать такие запросы в одном движке. В этой работе мы создаем собственную базу данных графа, а именно PandaDB, для поддержки запросов к неструктурированным данным в графе. Сначала мы представляем CypherPlus, язык запросов, позволяющий пользователям выражать сложные графовые запросы для понимания семантики неструктурированных данных. Затем мы разрабатываем модель затрат и соответствующие методы оптимизации запросов, чтобы ускорить обработку неструктурированных данных, а также обработку графовых запросов. Кроме того, мы оптимизируем хранение и индексацию данных, чтобы ускорить обработку запросов в распределенной среде. PandaDB расширяет реализацию графовой базы данных Neo4j и предоставляет версию с открытым исходным кодом для коммерческого использования в облаке. Результаты показывают, что PandaDB может поддерживать крупномасштабную обработку запросов к неструктурированным данным в графе, например, более миллиарда элементов неструктурированных данных. PandaDB имеет открытый исходный код и широко используется в различных промышленных приложениях от FinTech, Knowledge Graph и управления социальными сетями для управления крупномасштабными графами с огромным объемом неструктурированных данных.

3. Конфигурация распределения фрагментов в распределенных системах баз данных (arXiv)

Автор:Мохаммад Реза Аббасифард, Омид Исфахани Аламдари

Вывод: в системах управления распределенными базами данных (DDB) выделение фрагментов является одним из наиболее важных компонентов, которые могут напрямую влиять на производительность DDB. В этой исследовательской работе мы покажем, что декларативные языки программирования, т.е. языки логического программирования, могут использоваться для представления различных методов размещения фрагментов данных. Результаты показывают, что использование декларативного языка программирования значительно упрощает представление алгоритма выделения фрагментов, тем самым открывая возможности для любых дальнейших разработок и оптимизаций. Рассматриваемый пример также показывает, что наш подход может быть расширен для использования в различных областях распределенных систем.

4. Интеллектуальный дизайн процессора реализации для системы распределенных баз данных Oracle (arXiv)

Автор:Фадуа Хассен, Амель Грисса Тузи

Аннотация: Несмотря на растущую потребность в моделировании и реализации распределенных баз данных (DDB), системы управления распределенными базами данных все еще далеки от того, чтобы помочь разработчику напрямую реализовать BDD. Действительно, фундаментальный принцип реализации DDB заключается в том, чтобы база данных выглядела как централизованная база данных, обеспечивающая ряд прозрачностей, чего непосредственно не обеспечивает текущая DDBMS. В этой работе мы сосредоточимся на СУБД Oracle, которая, несмотря на свое доминирующее положение на рынке, предлагает лишь несколько логических механизмов для реализации распределения. Для решения этой проблемы мы предлагаем новую архитектуру СУБД Oracle. Идея основана на расширении его интеллектуальным уровнем, который обеспечивает: 1) создание различных типов фрагментации через графический интерфейс для определения различных географически рассредоточенных сайтов 2) выделение и репликацию БД. Система должна автоматически генерировать SQL-скрипты для каждого сайта исходной конфигурации.

5.Архитектура автономной, ресурсозависимой распределенной системы баз данных на базе рабочих станций (arXiv)

Автор:Ангус Макдональд

Выдержка:Распределенные программные системы, предназначенные для работы на рабочих станциях в организациях, называются рабочими станциями. Системы на основе рабочих станций характеризуются динамически изменяющимися наборами машин, которые используются в основном для других задач, ориентированных на пользователя. Они должны быть в состоянии адаптироваться и использовать резервные мощности, когда и где они доступны, и гарантировать, что недоступность отдельной машины не повлияет на доступность системы. В этой диссертации основное внимание уделяется требованиям и конструкции системы баз данных на базе рабочих станций, что мотивировано анализом существующих архитектур баз данных, которые обычно работают на статических, специально подготовленных наборах машин. Типичная система кластерной базы данных — та, которая работает на нескольких специально подготовленных машинах — выполняет запросы в интерактивном режиме, возвращая синхронный ответ приложениям, а ее данные становятся надежными и устойчивыми к сбоям машин. Нет существующих баз данных на основе рабочих станций. Кроме того, другие системы на основе рабочих станций не пытаются обеспечить требования интерактивности и надежности, поскольку они обычно используются для выполнения асинхронных заданий пакетной обработки, допускающих потерю данных — результаты могут быть вычислены повторно. Эти системы используют внешние серверы для хранения окончательных результатов вычислений, а не рабочие станции. В этой диссертации описывается проектирование и реализация системы баз данных на базе рабочих станций и исследуется ее жизнеспособность путем оценки ее производительности по сравнению с существующими кластерными системами баз данных и проверки ее доступности при сбоях машины.