Вступление

Одно полезное определение термина машинное обучение описывает использование и развитие компьютерных систем, которые способны обучаться и адаптироваться без следования явным инструкциям, с использованием алгоритмов и статистических моделей для анализа и вывода выводов из закономерностей в данных. Модели машинного обучения предназначены для анализа больших объемов данных и более быстрого предоставления точной / ценной информации заинтересованным сторонам, что делает их важным компонентом многих современных предприятий. Существует ряд платформ, помогающих специалистам по обработке данных разрабатывать модели машинного обучения, но в целях краткого обзора в этом блоге основное внимание будет уделено тому, что может предложить Amazon Web Services (AWS).

Как футбольный фанат, я впервые узнал об AWS из NFL’s Next Gen Stats. Если вы не знакомы, NFL Next Gen Stats - это программа, разработанная НФЛ для предоставления командам и болельщикам широкого спектра статистических данных в реальном времени для отдельных игроков и команд (подробнее о технических способах, которыми это достигается, читайте здесь. ). Помимо отслеживания этих данных в реальном времени, Next Gen Stats использует машинное обучение, чтобы получить более глубокое понимание данных для игроков, тренеров и болельщиков. Одним из примеров уникального стата, разработанного этой командой, является Ожидаемое количество ярдов, которое описывается следующим образом:

«Ожидаемое количество ярдов при ударе» предназначено для того, чтобы показать, сколько ярдов игрока с мячом получит от данного керри в зависимости от относительного местоположения, скорости и направления блокирующих и защитников ».

Для НФЛ (или любого другого соревновательного вида спорта в этом отношении) эффективный анализ данных может помочь командам получить конкурентное преимущество над своими противниками, что потенциально может помочь им выиграть больше игр. Таким образом, такие инструменты, как Next Gen Stats, являются ценными ресурсами для команд, которые еженедельно пытаются разрабатывать успешные игровые планы. Просмотр некоторых аналитических данных, полученных с помощью Next Gen Stats, вдохновил меня на то, чтобы узнать больше об инструментах, которые делают эту информацию возможной. Это побудило меня взглянуть на AWS более подробно - ниже вы найдете мое резюме некоторых ключевых функций их платформы машинного обучения SageMaker.

Что такое AWS SageMaker и зачем он нужен?

SageMaker - это облачная платформа машинного обучения AWS, выпущенная 29 ноября 2017 года. По словам генерального директора AWS Энди Ясси, SageMaker - простой способ создания, обучения и развертывания моделей для обычных разработчиков. Другими словами, одна из основных целей этой программы заключалась в упрощении процесса создания моделей машинного обучения.

Это полезный инструмент, учитывая, что процесс создания, обучения и развертывания моделей машинного обучения требует много времени и опыта. Я все еще знаком с машинным обучением, но я постараюсь как можно лучше резюмировать эти три шага. «Построение» относится к процессу сбора данных с последующим преобразованием их в необходимый формат. «Обучение» определяется использованием алгоритмов, помогающих модели анализировать набор данных и извлекать уроки из содержащихся в них шаблонов. «Развертывание» модели - это последний шаг, на котором модель вводится в действие, вводятся новые данные и выводятся прогнозы на основе этих данных.

Как говорит Джоджо Джон Мулаил, одна из потенциальных трудностей этого процесса заключается в том, что все три этапа требуют людей с разными наборами навыков. В частности, этап сборки включает в себя навыки инженерии данных и аналитики, подходящие для специалиста по данным, этап обучения лучше всего подходит для специалиста по данным со знанием программ машинного обучения, а на этапе развертывание часто требуется кто-то, кто занимается разработкой программного обеспечения. экспертиза. Как выразился Мулаил:

«Специалисты по анализу данных не являются инженерами-программистами, и точно так же инженеры-программисты не являются специалистами по данным. Для специалиста по данным действительно гигантская задача - развернуть решение машинного обучения (которое он исследовал и прототипировал) в полномасштабную веб-службу (API, который можно интегрировать в экосистему программного обеспечения). Специалистам по данным не хватает необходимых навыков программного обеспечения, чтобы превратить исследовательский прототип и автономную модель машинного обучения в большую сложную модель (услугу), которая может выводить тысячи вызовов API в режиме реального времени ».

Таким образом, такая платформа, как AWS SageMaker, может быть чрезвычайно полезной для упрощения процесса построения модели машинного обучения для специалистов по данным, которые могут не обладать навыками разработки программного обеспечения, необходимыми для эффективного развертывания модели.

Для кого AWS SageMaker наиболее эффективен? Как он соотносится с конкурентами?

Согласно различным источникам (например, CIOL, Trust Radius и G2), AWS SageMaker является одной из лучших платформ машинного обучения, доступных в настоящее время на рынке, наряду с такими конкурентами, как Google Cloud AutoML, IBM Watson Studio. , Apache PredictionIO и Microsoft Azure. Несмотря на то, что доступно несколько платформ машинного обучения, каждая из них была разработана с учетом конкретной аудитории. На мой взгляд, это делает эти платформы не лучше или хуже друг друга, а, скорее, лучше подходят для различных ситуаций, в зависимости от того, кто пытается использовать платформу. Стив Дилле приводит аналогичный аргумент в своей статье, сравнивающей AWS SageMaker и Microsoft Azure:

«Итак, хотя оба продукта упрощают анализ данных, на самом деле это пример сравнения яблок и апельсинов, потому что они работают по-разному. SageMaker не подходит для целевых пользователей Studio, которые не разбираются в кодировании и инженерии данных, а Studio будет казаться ограничивающей для опытных программистов и разработчиков, которые привыкли кодировать все, что захотят ».

По крайней мере, часть оценки SageMaker, сделанной Дилле, может иметь какое-то отношение к тому факту, что он использует формат записной книжки Jupyter, что предполагает, что он ориентирован на людей с опытом работы в области науки о данных. Другими словами, хотя одним из аспектов SageMaker, который может показаться некоторым привлекательным, является использование встроенных алгоритмов машинного обучения, которые могут быть развернуты кем угодно, формат записной книжки Jupyter позволяет специалистам по обработке данных создавать свои собственные алгоритмы с нуля. Учитывая, что SageMaker разработан для простого подключения к другим сервисам AWS, я пришел к выводу, что это была бы идеальная платформа для тех, кто имеет опыт работы с данными, но также использует другие сервисы AWS.

Есть несколько отличных ресурсов для тех, кто начинает работать с SageMaker, включая учебник, объясняющий методы использования платформы:

Шаг 1. Создайте экземпляр записной книжки Amazon SageMaker для подготовки данных.

Шаг 2. Подготовьте данные

Шаг 3. Обучите модель машинного обучения.

Шаг 4. Разверните модель.

Шаг 5. Оцените производительность модели.

Шаг 6. Очистить

Есть также ряд видеороликов на YouTube, которые предоставляют много информации о SageMaker для людей с различными наборами навыков - например, вот вводное видео, содержащее информацию для начинающих:

Существует также обширная документация для тех, кто хочет больше узнать о том, что может предложить эта платформа.

SageMaker в действии

Теперь, когда мы обсудили некоторую исходную информацию, касающуюся SageMaker, давайте вернемся к примеру Ожидаемые спешки, представленному выше, чтобы увидеть один из способов использования этой платформы машинного обучения в контексте статистики NFL Next Gen Stats. Этот показатель используется для идентификации отдельных пьес, помеченных как Замечательные рывки, которые определены как таковые:

«Когда дело доходит до количественной оценки текущей игры, изолировать результативность отдельного игрока с мячом от влияния линии атаки, схемы и ситуации является сложной задачей. Новая модель NGS Expected Rushing Yards позволит по-новому взглянуть на ту область игры, в которой отсутствовал контекстный анализ. Модель NGS Expected Rush Yards, созданная с использованием машинного обучения, использует данные отслеживания для каждого игрока, чтобы предсказать, сколько ярдов он должен набрать в момент передачи. «Remarkable Rushes» демонстрирует «Rush Yards Over Expected» (RYOE), в то время как «Rusher» сильно не оправдывает ожиданий ».

Используя статистику Ожидаемый бросок ярдов, команда, определяющая замечательные рывки, - это те игры, в которых игрок с мячом бросается на большее расстояние, чем ожидалось. Эти показатели могут быть полезны как для фанатов игры, так и для игроков и тренеров, как описано в этом обзоре статистики:

«На уровне индивидуальной игры мы можем использовать ожидаемые ярды, чтобы добавить контекст к уровню сложности забега и извлечь вероятность конкретных результатов. На агрегированном уровне мы можем лучше измерить успех игрока, команды или типа игры с помощью новых расширенных показателей ».

Согласно этой статистике, НФЛ собрала на YouTube видео с 10 лучшими рашерами за 2019 год - НФЛ не разрешает отображать свой контент на Medium, поэтому для справки я добавил сюда ссылку: https: // www. youtube.com/watch?v=pC1A9Wuh3uQ . В этом видео особенно эффективно используются видеозаписи каждого игрока с мячом в сочетании с соответствующей статистикой, которая делала их исключительными в течение сезона. Учитывая, что эта статистика отслеживается каждый сезон, мы можем увидеть, что самый выдающийся рывок в текущем сезоне 2021 года был нанесен Мелвином Гордоном из Денвер Бронкос против New York Giants из недели 1: https://www.youtube.com/watch ? v = O6CPrdUcoaQ . Это было 70 ярдов приземления, что на 64 ярда больше, чем ожидалось, когда игра началась.

Для болельщиков наблюдение за этими играми, выделенными с помощью этой статистики, может помочь понять, что делает рывки особенно сложными и что делает некоторых игроков с мячом уникальными и эффективными. Для игроков и тренеров использование этой статистики может помочь им определить обстоятельства, связанные с определенными играми, которые приводят к большему количеству атакующих действий, что, как мы надеемся, может привести к более успешным результатам в будущих соревнованиях. В любом случае мы можем увидеть, как эти модели машинного обучения могут генерировать ценную информацию, которая помогает обеспечить уникальное понимание игры.

Машинное обучение - важный аспект многих современных предприятий, и, похоже, так будет и в обозримом будущем. AWS SageMaker - отличный ресурс для специалистов по обработке данных, позволяющий создавать модели машинного обучения, которые могут помочь заинтересованным сторонам получить уникальную и ценную информацию. Этот блог лишь поверхностно коснулся того, как работает SageMaker, но, надеюсь, продемонстрировал, насколько ценны этот и другие аналогичные ресурсы по машинному обучению для всех специалистов по обработке данных.