В мире с экспоненциальным ростом данных объектное хранилище может быть единственным вариантом, масштабируемость которого практически бесконечна. AWS S3 — один из лучших вариантов для разработчиков, когда речь идет о хранилище объектов. Это почти как бесконечно большой «iCloud Drive», который находится где-то в облаке для вашего программного доступа, за исключением того, что его гораздо проще использовать, конечно, с меньшим количеством ошибок. Сегодня мы хотим кратко представить AWS S3 и то, как он может помочь вам в проектах, управляемых данными.

Основные характеристики:

Корзина AWS S3 имеет несколько ключевых функций, которые помогут вам более эффективно управлять хранилищем объектов. Мы перечислили четыре из них ниже.

Уровни хранения:

Существуют разные уровни хранилища с разными возможностями доступа, соответствующими разным структурам ценообразования. Мы перечислили несколько из них ниже для краткого обзора:

S3 Standard:хранилище общего назначения для часто используемых данных.

S3 Intelligent Tiering: для хранения данных с неизвестными или меняющимися схемами доступа.

S3 Glacier Instant Retrieval: для хранения архивных данных, доступ к которым осуществляется один раз в квартал с мгновенным поиском.

S3 Glacier Deep Archive:для хранения архивных данных, доступ к которым осуществляется один или два раза в год с 12-часовым периодом извлечения.

Конфигурация жизненного цикла:

Вы можете истечь срок действия объектов с помощью набора правил, основанных на ваших потребностях в конфигурации жизненного цикла. Таким образом, вам не нужно настраивать задание cron или писать какой-либо скрипт для удаления объектов в корзине.

Мониторинг событий:

Вы также можете отправить уведомление, когда в корзине S3 происходят определенные события, т. е. поступление данных. Один из вариантов использования для этого может включать в себя запуск какой-либо функции обработки данных для обработки вновь поступивших данных.

Расширенные возможности с Athena (SQL):

Расширенные возможности Athena позволяют выполнять запросы SQL непосредственно к файловым объектам, хранящимся в корзинах S3. Это позволяет разработчикам использовать практически универсальный язык операций с данными для файловых объектов с масштабированием. Конечно, прежде чем вы сможете писать запросы, требуется конфигурация схемы.

Цены:

Одним из ключевых преимуществ объектного хранилища является его цена. Это намного дешевле, чем база данных или хранилище данных.

Стандартный S3 — Восток США:

Стоимость первых 50 ТБ хранилища S3 Standard составляет 0,023 доллара США за ГБ в месяц. И за 1000 запросов запросов PUT, COPY, POST, LIST это стоит 0,005 доллара США, а за 1000 запросов GET, SELECT и всех других запросов это стоит 0,0004 доллара США. Обратите внимание, что это структура ценообразования в регионе Восток США.

Если у нас есть 5 ТБ данных, хранящихся в S3 в течение месяца, и у нас есть 500 тысяч запросов операций PUT, COPY, POST, LIST и 500 тысяч запросов GET, SELECT и всех других операций, это будет стоить нам 117,70 долларов США в месяц. это очень дешево

S3 Glacier и S3 Glacier Deep Archive — Восток США:

А когда мы смотрим на другие уровни более долгосрочных вариантов хранения, включая S3 Glacier и S3 Glacier Deep Archive, они еще дешевле. Хранилище S3 Glacier стоит 1/6 хранилища S3 Standard, а S3 Glacier Deep Archive — 1/23 хранилища S3 Standard. Другими словами, вы можете «архивировать» данные, к которым вам не нужно часто обращаться, с гораздо меньшими затратами, чем стандартное хранилище S3, которое вы бы использовали для частого доступа к данным.

Архитектурный выбор хранилища данных и озера данных:

Термин «озеро данных» был популярен в последние несколько лет и относится к хранилищу данных в необработанном формате или формате файла. Поэтому AWS S3 считается формой озера данных. Однако многих может сбить с толку выбор озера данных в качестве варианта хранения при разработке архитектуры данных.

Многие типы данных на предприятиях имеют размеры, которые просто не подходят для хранения в хранилищах данных или базах данных. Кроме того, часто они бывают в файловых форматах, и их нужно где-то хранить в течение короткого периода времени. Это когда выбор между озером данных более предпочтителен, чем хранилище данных, и оно может служить первой остановкой, прежде чем размер данных станет намного меньше для приема хранилища данных.

Вариант почти бесконечной масштабируемости:

В S3 или хранилище объектов есть что-то уникальное, чего нет в других типах хранилищ. То есть он почти бесконечно масштабируем. Максимальный размер хранилища корзины S3 составляет 5 терабайт, но вы всегда можете программно создать дополнительные корзины и пометить их временными метками. Без ограничения типа файла и без необходимости очистки данных в структурированной таблице вы можете практически хранить все, что «можно загрузить и сохранить», как объект в корзине S3. С учетом вышеупомянутых структур ценообразования это, безусловно, недооцененная возможность в постоянно растущем мире данных. База данных может помочь вам только в определенной степени, когда речь идет о хранении и цене.

Хранилище объектов + бессерверная распределенная обработка:

Когда вы размещаете бессерверную распределенную обработку (AWS Elastic Map Reduce) поверх хранилища объектов (AWS S3), вы можете значительно масштабировать свои операции с данными и конвейеры ETL. Затем пределом становится количество искровых кластеров, которые вы можете развернуть, и насколько глубок ваш карман. Благодаря такому дизайну архитектуры, расположенному в начале вашего конвейера данных, вы можете не только масштабировать свои операции с данными, но и значительно уменьшить размер своих данных, сохраняя важные функции вместо того, чтобы помещать все в базу данных. /хранилище данных.

Надеюсь, вы найдете это полезным! Спасибо, что прочитали совет этой недели!

Ознакомьтесь с другими советами по работе с данными на Dataproducts.io.