AWS re: Invent 2019 - три самых интересных и инновационных темы

Что происходит в Вегасе остается в Вегасе! Если только это не мега-облачная конференция AWS! Я очень рад поделиться своим опытом с AWS re: Invent в этом году и хотел бы сосредоточиться на трех основных темах, которые в этом году действительно вызвали у меня интерес к технологическим инновациям. Я сосредотачиваюсь не на продуктах AWS, а на технологиях / продуктах, которые используют AWS.

Что такое AWS re: Invent 2019?

Amazon Web Services (AWS) снова провела еще одну техническую конференцию в этом году в Лас-Вегасе. С 1 по 6 декабря 2019 года они приняли около 65 000 участников, 3900 сессий (включая семинары и хакатоны) в 6 отелях в районе Лас-Вегаса. Это не только последняя и величайшая выставка облачных технологий для AWS, эта конференция также предлагает выпуски новых продуктов от AWS, демонстрации компаний и стартапов, добившихся успеха в облаке, выставочный зал (большая выставка технологических компаний, раздающих потрясающие товары), тонны сетевых мероприятий, полуночного безумия и re: Play (вечеринки до и после конференции).

Кто я?

Я инженер по обработке данных и серверный разработчик с более чем 4-летним опытом различного опыта. Я начал свою карьеру в Agoda.com, где я работал разработчиком программного обеспечения в группе контента и машинного обучения, работая над действительно интересными сценариями использования больших данных. Два года спустя я стал полноценным консультантом по инженерам данных в глобальной управленческой консалтинговой компании, работая еще в трех отраслях и четырех новых городах.

Мой технический стек как инженера данных состоит в основном из PySpark, Scala, Spark, Kedro и Apache NiFi. В мой стек технологий бэкэнд-разработки входят Python, Scala и NodeJS. Я увлечен применением машинного обучения и искусственного интеллекта и постоянно наслаждаюсь свежезаваренным кофе по утрам!

Тема 1 - Metaflow (Netflix)

Повышение продуктивности специалистов по данным и сокращение взаимозависимостей в инфраструктуре - одна из самых сложных задач даже для ведущих технологических компаний, таких как Netflix. Специалисты по обработке данных увлечены работой над разработкой моделей, но обычно не озабочены управлением вычислительными ресурсами, хранилищами данных и другими проблемами инфраструктуры. Вот где приходит Metaflow!

Metaflow - это ориентированная на человека библиотека науки о данных с первоклассной поддержкой AWS, недавно выпущенная Netflix 3 декабря 2019 года. Библиотека с открытым исходным кодом ориентирована на оптимизацию производительности науки о данных за счет уменьшения их зависимости от инфраструктуры. Это обычный день специалиста по данным, когда он начинает работать над проектом:

В конце конвейера (# 8) может быть два маршрута от заинтересованного лица:

Мне это нравится, но можем ли мы отрегулировать некоторые вещи - ›в этом случае он повторяет №1 - №8, но настраивает некоторые вещи
Не продвигаясь вперед, давайте откажемся от этого и займемся другой проблемой - ›в этом случае он повторяет с №1 по №8, но по другой бизнес-проблеме.

В любом случае, специалисту по анализу данных придется снова пройти весь цикл! Также обратите внимание, что многие задачи в значительной степени зависят от инженеров по обработке данных и DevOps, которые не должны входить в обязанности специалистов по данным. MetaFlow предлагает решение для специалистов по данным с такими функциями, как структурированные рабочие процессы, такие как DAG, передача состояния и контрольных точек, версия и отслеживание экспериментов, вертикальная и горизонтальная масштабируемость с помощью AWS и оптимизированное обучение с помощью AWS SageMaker.

На мой взгляд, эта библиотека предлагает интересные функции для специалистов по данным, такие как передача состояний, контрольные точки и отслеживание экспериментов - функции, которые позволяют ученым легко разрабатывать и развивать свою модель. Более того, их масштабируемость с помощью AWS позволяет специалистам по обработке данных использовать инфраструктуру как черный ящик, а не как тайный ящик. Я внимательно слежу за тем, как сообщество специалистов по науке о данных внедряет эту технологию!

Попробуйте здесь.

Тема 2 - ИИ в океане (Saildrone и AquaByte)

В центре внимания были два тематических исследования использования AWS в океане с Saildrone и AquaByte.

Saildrone

Saildrone разрабатывает, производит и управляет глобальным флотом океанских дронов на ветряных и солнечных батареях, отслеживающих состояние планеты в режиме реального времени.

Эта компания развертывает полностью беспилотные надводные аппараты (USV) по всему океану в качестве MaaS (миссия как услуга), отправляя обратно данные с высоким разрешением в реальном времени с дрона, такие как данные изображений, атмосферные измерения и измерения океана. Самая захватывающая миссия, которую они недавно выполнили, - это 196-дневное кругосветное плавание вокруг Антарктиды (которое никогда раньше не исследовалось)! Они собрали данные об этом и сделали их общедоступными. Как описано здесь, они используют звук вместо света для отображения ландшафта под водой и с помощью машинного обучения формируют трехмерное изображение.

Как бы захватывающе ни звучало это начинание, инфраструктура, необходимая для сбора, обработки, анализа и хранения всех данных в этой миссии на 23000 км, безупречно велика и сложна. Вот где Saildrone использовал инфраструктуру AWS. Saildrone хотела сосредоточиться на своем оборудовании, программном обеспечении и выполнении этих задач вместо того, чтобы сосредоточиться на инфраструктуре, необходимой для его поддержки.

AquaByte

Спрос на рыбу неуклонно растет, мы кормим 3 миллиона человек в день, причем большая часть рыбы, которую мы потребляем, поступает с рыбоводческих хозяйств. Однако есть огромные возможности для инноваций в рыбоводстве - вот где вам пригодится AquaByte!

AquaByte - это компания-разработчик программного обеспечения, которая пытается использовать передовую аналитику для решения проблем рыбоводства. AquaByte использует машинное обучение (особенно в области компьютерного зрения) для предоставления решений для мониторинга и аналитики рыбоводства.

Самая захватывающая часть проекта - это огромный размер данных, которые нужно принимать, обрабатывать, хранить и выполнять машинное обучение. В настоящее время у них есть 10 рыбных ферм, 1 миллион изображений в день в режиме реального времени, 1,5 петабайта изображений в месяц. Вот где AquaByte использует вычислительную мощность AWS для поддержки хранения, вычисления и обработки данных.

Тема 3 - Apache Hudi (Uber)

Uber заметил пробел в способах хранения и управления данными в HDFS; возникла потребность в масштабируемости, более быстрой доставке данных и простой поддержке обновления и удаления.

Hudi (Hadoop Upsert Deletes and Incrementals) - это платформа инкрементной обработки для абстракции хранилища данных, оптимизированного для сканирования, до данных в HDFS, созданная Uber. Мотивация создания Hudi была связана с фундаментальным компромиссом между задержкой приема данных, производительностью сканирования и вычислительными ресурсами. Hudi предлагает решение для рабочих нагрузок, которое может выдерживать задержку ~ 10 минут на HDFS со следующими предварительными условиями (из их блога):

Возможность быстро применять мутации к большим наборам данных HDFS.
Варианты хранения данных, оптимизированные для аналитического сканирования
Возможность эффективно связывать и распространять обновления на смоделированные наборы данных.

Hudi предоставляет три логических представления для доступа по запросу:

Оптимизированное представление для чтения - высокая производительность запросов в хранилище по столбцам (например, паркетные таблицы)
Добавочный просмотр - обеспечивает поток изменений из набора данных для подачи последующих заданий / ETL. На мой взгляд, этот встроенный и готовый к работе доступ запросов к инкрементному потоку данных - самая привлекательная функция Apache Hudi, отличающая его от других библиотек абстракции данных.
Таблица почти в реальном времени - запрос данных в реальном времени как для столбчатого, так и для строкового хранилища (например, Parquet + Avro).

Apache Hudi также разрабатывает свою библиотеку для совместимости с Amazon S3, что еще больше их выделит. Больше информации здесь.

Спасибо!

Metaflow, AI in the Ocean и Hudi - для меня одни из наиболее инновационных и интересных проектов от AWS re: Invent 2019. Если вы присутствовали конференция тоже, они были для вас самыми интересными? Если вы еще не присутствовали, я хотел бы услышать ваше мнение о них! Не стесняйтесь делиться своими отзывами в поле для комментариев ниже :)

AWS re: Invent 2019 - три самых интересных и инновационных темы