О преимуществах AWS Data Exchange для обмена большими наборами данных.

Аналитическая платформа Vortexa предоставляет красивый и удобный способ изучения огромных объемов данных о нефти и газе, которые Vortexa генерирует практически в режиме реального времени. В то же время некоторые из наших клиентов предпочитают передавать все наши необработанные наборы данных в свои конвейеры для автономной обработки. Одним из вариантов использования для импорта всего набора данных является необходимость запуска внутренних моделей расширенного анализа рынка для выявления потенциальных торговых возможностей на энергетических рынках. По мере того, как наш набор данных меняется, включая новые прогнозы и пересматривая предыдущие по мере поступления последней информации, этим клиентам нужен простой способ регулярно и автоматически повторно получать и повторно импортировать данные Vortexa. По сути, до недавнего времени существовало три основных способа сделать это:

  • Вручную экспортируйте файлы CSV с платформы.
  • Используйте плагин Vortexa Excel для экспорта данных.
  • Станьте ближе с Vortexa API.

Каждый из этих подходов имеет свои сильные и слабые стороны как для Vortexa, так и для наших клиентов. Например, для ручного экспорта файлов CSV время от времени потребуется, чтобы это делал человек. Любой подключаемый модуль Excel ограничен ограничениями модели надстройки, разработанной Microsoft для своего продукта Excel. И, наконец, использование Vortexa API требует определенного обучения со стороны клиента, не говоря уже о том, чтобы использовать прекрасный инструмент, предназначенный для поиска иголки в стоге сена, для решения проблемы экспорта многих терабайт данных Vortexa, это все равно, что забивать гвозди микроскопом.

С тех пор Vortexa представила два новых способа доступа к своим данным: с помощью Python SDK Vortexa и с помощью Обмена данными AWS.

Python SDK значительно сокращает время обучения. Его можно использовать для экспорта необработанных данных Vortexa. Тем не менее, его сила в том, что он позволяет отраслевым аналитикам и специалистам по обработке и анализу данных исследовать и преобразовывать данные, а также динамически проводить быстрые эксперименты. Это заслуживает отдельного поста, так что следите за этим пространством. Здесь мы сосредоточимся на обмене данными AWS. Давайте сначала сделаем шаг в сторону, чтобы понять, почему.

В ноябре 2019 года Amazon запустил Обмен данными AWS. Это новая услуга, которая не обязательно попала бы в поле зрения трейдеров, аналитиков и специалистов по данным. Без сомнения, потребуется некоторое время, чтобы набрать обороты. И все же его значение не следует недооценивать. Чтобы понять, почему, давайте посмотрим, где подходит AWS Data Exchange.

Amazon упорно трудился, чтобы стать ведущим онлайн-ритейлером. Еще два года назад, в 2017 году, ее второй по величине поток доходов был от сторонних продавцов, предлагающих свои продукты на розничной платформе Amazon. Каждый раз, когда вы покупаете товар, который не продает сам Amazon, вы становитесь покупателем на этом рынке.

Менее известный факт заключается в том, что в 2019 году более 50% продаж на Amazon приходится на сторонних продавцов. Естественно, Amazon больше всего известен своими розничными услугами. Тем не менее, нетрудно понять, что очень похожие правила и принципы Marketplace применимы к новому типу товаров 21 века — данным. Хотя возможность покупать данные существует уже некоторое время, у Amazon есть масштаб и стремление сдвинуть иглу. Например, AWS Marketplace, тщательно подобранный цифровой каталог, включающий AWS Data Exchange, доступен в 20 регионах AWS, у него уже более 260 000 активных клиентов и более 1 000 000 текущих подписок.

AWS Data Exchange был создан как централизованный и простой в использовании способ, с помощью которого продавцы могут предлагать свои наборы данных для продажи, а покупатели могут легко просматривать доступные наборы данных и использовать один и тот же метод для доступа к любым наборам данных. Упрощенно говоря, это способ публикации одного или нескольких наборов данных с одной или несколькими редакциями данных таким образом, который обеспечивает множество преимуществ для продавцов и покупателей:

  • Продавцы:упрощенное выставление счетов, дополнительные маркетинговые возможности, доступ к более широкой клиентской базе, которую иначе было бы трудно охватить, масштабируемый способ программно экспортировать терабайты данных один раз и загружать их несколько раз без каких-либо дополнительных действий. затраты или накладные расходы на инфраструктуру.
  • Покупатели:унифицированный интерфейс для доступа к данным, обязательства Amazon по разработке и расширению этого интерфейса, высокая доступность данных и детерминированная задержка, вероятная близость данных к вычислительной среде в случае, если клиент использует AWS для их моделирование, а также надежный и знакомый партнер по выставлению счетов, Amazon.

Оба преимущества могут снизить затраты продавца и значительно улучшить взаимодействие с пользователем по сравнению с собственной системой, предназначенной для обмена необработанными данными.

Вот как выглядит один из продуктов Vortexa на AWS Marketplace:

Есть несколько полезных статей, описывающих программный доступ к данным. По сути, получить доступ к данным так же просто, как (из статьи в Блоге AWS Big Data):

  1. Настройка предварительных условий: корзина S3 для ваших данных и разрешения IAM для использования AWS Data Exchange.
  2. Подписка на новый продукт данных Vortexa в AWS Data Exchange.
  3. Настройка автоматизации с использованием событий Amazon CloudWatch для автоматического получения новых версий подписанных продуктов данных в AWS Data Exchange.

Как только это будет сделано, данные в формате CSV, в случае Vortexa, будут автоматически появляться и обновляться каждый раз, когда Vortexa публикует новую версию. Затем вы можете импортировать и обрабатывать его так, как вам нравится! Более новые версии Boto, популярного AWS SDK для Python, также поддерживают AWS Data Exchange.

Итак, в заключение, AWS Data Exchange предоставляет покупателям простой в использовании унифицированный способ доступа к нескольким источникам данных, а также создает эффективный и действенный способ масштабного распространения данных для продавцов. Это настоящий беспроигрышный вариант!

Чтобы узнать больше о Vortexa, посетите www.vortexa.com.