Как вы создаете прототипы быстрого машинного обучения (с примерами использования)

Компании, лица, принимающие решения, и специалисты по машинному обучению разделяют общую проблему: как определить бизнес-проблемы, которые стоит превратить в проблемы с данными, чтобы мы могли создавать решения на основе данных, которые приносят пользу для бизнеса? Читайте дальше, чтобы получить ответ на этот вопрос!

В этом сообщении блога рассказывается о так называемом «5-дневном спринте данных», который вы можете использовать для решения этой проблемы. В нем объясняется, как запускать такие спринты данных для создания успешных прототипов машинного обучения. В конце этого поста вы найдете вдохновение в виде интересных примеров использования, которые могут быть реализованы с помощью методов науки о данных и машинного обучения.

Пятидневный спринт данных

Пятидневный спринт данных показывает следующие ключевые результаты:

разбить бизнес-проблемы на проблемы с данными
определить варианты использования и возможности, которые стоит решить
собирать и исследовать наборы данных
разработка функций
итерация с алгоритмами и моделями машинного обучения

все в рамках подготовки к завершению спринта с целью разработки первого функционального прототипа всего за 5 дней.

Как работает спринт данных?

В спринте данных обычно участвует до восьми участников, в идеале - четыре специалиста по малым или средним предприятиям (МСП) с опытом работы в конкретной области и четыре специалиста по данным. Во время спринта нельзя отвлекаться, но поощряется полное сосредоточение на бизнес-проблеме, возможности и решении. Без лишних слов, давайте посмотрим на процесс.

Примечание. Опыт показывает, что фаза исследования для создания общего понимания бизнес-контекста, согласования целей и начала подготовки наборов данных значительно увеличивает успех спринта данных.

Фаза исследования

Как и в случае с успешными усилиями, прежде чем вы начнете двигаться к желаемой цели, вам необходимо понять, подготовиться, согласовать и спланировать миссию.

Другими словами, вам рекомендуется провести вместе серию семинаров, чтобы

… Создать общее понимание бизнес-контекста и проблемы,
… Изучить и собрать возможные варианты использования для решения этих проблем,
… Собирать ресурсы и материалы, необходимые для спринта,
… Согласовывать четкие цели на спринт и далее,
… Доработайте план перед тем, как отправиться в бой.

Завершите подготовку одностраничным описанием задачи с описанием, согласованием и сообщением ожиданий и желаемых результатов для всех участников.

Описание задачи на одной странице

Результат подготовительного этапа - одностраничное описание задачи - обычно отвечает на следующие вопросы:

Какую бизнес-проблему вы хотите решить?
Как можно решить эту проблему, используя методы науки о данных и машинного обучения?
Какие данные вам нужно собрать для успешного прототипа спринта и машинного обучения?
Как могут выглядеть желаемые результаты?
Какие алгоритмы вы хотите протестировать?
Как вы интерпретируете результаты модели?

Теперь, когда у вас есть общее понимание проблем, которые вы хотите решить, краткий набор желаемых результатов, а также четкие измерения того, как оценивать результаты, вы готовы начать фактический спринт.

День 1 - Представьте задачу

Вы начинаете спринт с ознакомления всех участников с одностраничным описанием задачи. Вы представляете основную бизнес-проблему, желаемые результаты, а также многообещающие варианты использования, которые могут решить эту проблему.

Во время введения задачи участникам предлагается поделиться идеями, мнениями и потенциальными клиентами, которые могут извлечь выгоду из желаемых решений.

В конце сеанса совместной работы вы начинаете настраивать проект, библиотеки и онлайн-рабочее пространство , чтобы начать начальную фазу исследования данных.

День 2 - Используйте знания предметной области для разработки функций

С первого дня все участники имеют общее понимание проблем и имеющихся данных. Вы встраиваете свои обширные знания в предметную область, чтобы начать процесс разработки функций наборов данных. Выберите важные переменные, уменьшите размеры и начните проектировать набор данных соответствующих функций.

Общее понимание проблемного пространства, обширные знания предметной области в сочетании с опытными методами исследования данных ваших специалистов по данным позволяют вам обычно завершить второй день с набором многофункциональных данных, готовым расширить возможности вашего компьютера. обучающие модели.

День 3. Тестируйте различные алгоритмы и модели машинного обучения.

Основываясь на результатах, вы продолжаете проектировать свои наборы данных и пытаетесь еще больше уменьшить сложность и размерность. Несмотря на то, что поговорка «чем больше данных, тем лучше» верна, наличие большего количества релевантных данных в наборе данных является ключом к успешным результатам. Нередко наборы данных содержат до 1.000 функций в начале спринта. После третьего дня вы могли бы сократить набор данных до 100 оставшихся мощных функций.

День 4 - Доработка модели машинного обучения и обобщение результатов.

На четвертый день вы завершаете корректировку модели машинного обучения и начинаете обобщать все результаты, полученные на этапе исследования данных и тестирования модели. Это сводное описание включает в себя анализ производительности модели, используемых методов, а также оценку результатов в одном документе.

Затем вы исследуете дальше и увидите, как прототип машинного обучения можно улучшить и в дальнейшем интегрировать в сценарий сквозного использования.

День 5 - Пользовательское тестирование, презентация и передача результатов

Пришло время окончательного теста прототипа машинного обучения: назначьте 5 нейтральным пользователям / потенциальным клиентам для тестирования созданного вами прототипа. Эти сеансы пользовательского тестирования довольно просты. Пусть каждый пользователь увидит прототип на реальном устройстве с целью использования приложения.

Лучше всего записать сеанс, чтобы вы могли внимательно наблюдать за словесными и эмоциональными реакциями, потенциальными болевыми точками и восхищениями, чтобы глубже понять, как пользователь взаимодействует с вашим прототипом. Это создает бесценные артефакты для дальнейшего развития вашего успешного приложения для машинного обучения.

Для получения дополнительной информации, пожалуйста, найдите видео о пользовательском тестировании от команды дизайнерских спринтов Google здесь.

Пришло время для легкого обеда - отлично, чтобы раскопать результаты спринта данных. Почти готово!

Вы закончите неделю, представив и обсудив результаты спринта с заинтересованными сторонами вашей компании. Это прекрасная возможность поделиться шаблонами, которые вы нашли в данных, получить ценные бизнес-идеи из сеанса пользовательского тестирования с потенциальными клиентами, а также обсудить дальнейшее исследование приложения с заинтересованными сторонами и членами команды.

Обычно этот день полон энтузиазма и идей о том, как улучшить и превратить прототип в полностью развертываемое решение для машинного обучения.

В качестве следующего шага вы планируете, как выполнить итерацию, интегрировать и развернуть прототип машинного обучения в полностью зрелое решение, обеспечивающее ощутимую ценность для бизнеса.

Звучит захватывающе, правда? Это!

Свяжитесь с нами сегодня и получите бесплатную консультацию, чтобы узнать, может ли спринт данных помочь вашему бизнесу ускориться.

Мы создали для вас четкую инфографику, с помощью которой вы всегда можете следить за отдельными этапами и днями 5-дневного спринта данных.

Все еще не знаете, что делать с машинным обучением?

Изучите эти три прототипа машинного обучения, чтобы узнать о потенциальных решениях для машинного обучения.

1. Раскрасьте старые серые изображения своей семьи с помощью DeOldify.

Первое приложение называется DeOldify - приложение, которое позволяет раскрашивать старые изображения в оттенках серого, чтобы оживить и раскрасить старые семейные воспоминания. Используйте его для развлечения, чтобы сделать свои следующие рождественские подарки или просто ощутить всю мощь глубокого обучения и генеративных враждебных сетей.

Полная заслуга jantic за открытый исходный код своей работы над DeOldify.

2. Используйте модель обнаружения объектов за 5 простых шагов.

Второе приложение - это алгоритм обнаружения объектов, предоставляемый Tensorflow API. Область компьютерного зрения и обнаружения объектов имеет широкий спектр потенциальных вариантов использования. Он продемонстрировал потенциальное использование для корпораций в области обеспечения качества на производственной линии, для целей безопасности и наблюдения, для автономных транспортных средств, а также для приложений в медицинской визуализации.

Полная заслуга принадлежит Николасу Бортолотти и Google.

3. Очистите данные Twitter и проанализируйте популярные темы.

Третье приложение проведет вас через извлечение данных из Twitter API, анализ его содержимого, чтобы понять, насколько люди резонируют с выбранной темой.

Чтобы использовать это, вам понадобится учетная запись разработчика Twitter, которую вы можете создать здесь.

Полная заслуга Билала Тахира за то, что он открыл исходный код своей работы на todatascience.com.

Если вам понравился этот пост, обязательно поделитесь им с коллегами.

Обзор

Это сообщение в блоге дало вам практическое понимание методологии, которую мы называем Data Sprint, которую мы извлекли из опыта знаменитых дизайнерских спринтов Google Ventures и применили ее вместе с нашими партнерами для создания быстрых прототипов в области науки о данных.

Затем мы узнали о трех примерах использования, которые включают GAN для раскрашивания изображений в оттенках серого, модель обнаружения объектов для идентификации людей, животных и других объектов на изображениях (это возможно и для видео). Последний, более сложный пример включает интеллектуальный анализ данных из твиттера, предварительную обработку данных на уровне новичков, а также методы обработки естественного языка, такие как распознавание именованных сущностей и анализ настроений, а также категоризацию мнений и эмоций в твитах по выбранной вами теме.

Пришло время проявить творческий подход.

Какие революционные идеи вы можете генерировать? Какие варианты использования вы можете увидеть в своем бизнесе и за его пределами? - или, может быть, вы уже делаете прототип? В любом случае не забудьте вывести свой бизнес на передний план, используя методы науки о данных и машинного обучения.

Вы нашли ценность в этом посте?

Обязательно поделитесь этим с другом, которому необходимо знать о Data Sprints, чтобы создать прототипы быстрого машинного обучения.

Первоначально опубликовано на https://blogs.itemis.com.