Идеи аэрокосмического инженера, ставшего специалистом по данным

Это вторая часть серии из двух статей, посвященных продуктам машинного обучения (ML). В Части I: Что может рассказать нам традиционное производство о продуктах с данными я провожу параллели между физическими продуктами и продуктами ML. Во второй части я расскажу, как эти сходства могут помочь специалистам по данным и организациям, занимающимся данными, подойти к разработке продуктов и снизить риски, связанные с зависимостями данных, за счет использования концепций бережливого производства и цепочки поставок.

Подводя итог предыдущей статье: производительность и постоянная надежность моделей машинного обучения сильно зависят от качества данных. В этом смысле продукты данных в определенном смысле аналогичны физическим продуктам. Оба:

  • требуется непрерывная поставка высококачественных исходных данных (наборы данных вместо физических частей) для последовательного производства/поставки;
  • находятся в милости цепочки поставок, особенно если продукт основан на данных, которые не генерируются внутри компании (например, данные из открытых источников по сравнению с купленными промышленными деталями);
  • требуют изменения конструкции с течением времени по мере необходимости для обеспечения устойчивости и/или требований к производительности. Это часто сильно зависит от цепочки поставок (например, если определенные наборы данных больше не поддерживаются и данные необходимо заменить/удалить, а детали устарели и больше не представлены на рынке, продукту требуется альтернативное решение).

Подобно сырью или деталям, наборы данных — это материальные, критически важные компоненты, которыми необходимо хорошо управлять, чтобы обеспечить постоянное качество, надежность и доступность продукта машинного обучения. Это ответственность, которая в конечном итоге распределяется между различными ролями в вашей организации данных, и для каждого набора данных необходимо принимать разные решения и соображения.

Цепочка поставки данных

Определение: процесс жизненного цикла данных; выбор, закупка, передача, обеспечение качества, складирование/хранение, управление данными, преобразование, мониторинг и распространение — наполнение конвейеров данных для использования в информационных продуктах.

Одна из самых полезных и интуитивных концепций, которые я усвоил из бережливого производства, заключается в том, чтобы пересмотреть свои стандартные процессы. Стратегия на более детальном уровне (то есть на уровне сырья или деталей) помогает организациям лучше управлять товарными запасами при одновременном снижении накладных расходов. Когда ваш продукт создается на основе данных, основной идеей является наличие отдельного плана для каждого набора данных.

Планируйте каждый набор данных

Принцип бережливого производства: Планирование каждой детали (PREP)

Речь идет о понимании того, насколько всесторонне необходимо управлять набором данных, какие ресурсы для этого требуются, связанных с ним затрат и рисков, и учета этих элементов, создания плана для каждого набора данных, который снижает нагрузку на техническое обслуживание и управление (более счастливые инженеры данных) при обеспечении качества. .

Как убедились все ученые, аналитики и инженеры данных, не все наборы данных одинаковы. У некоторых есть хорошо разработанные схемы, в то время как другие были побочными продуктами процесса, некоторые из них более надежны, некоторые имеют неадекватное покрытие, некоторые запутаны и требуют тщательной очистки, а другие не обновляются регулярно. Некоторые из них могут даже стать недоступными в будущем. В дополнение к этому разнообразию, правда в том, что некоторые наборы данных более важны для успеха модели ML, чем другие. Больше планирования должно быть посвящено наиболее важным и трудным для обработки. Идея здесь состоит в том, чтобы определить наборы данных, необходимые для построения производительной модели машинного обучения, и убедиться, что эти наборы данных оценены и признаны пригодными для использования в производстве на этапе прототипирования модели. Это избавит вас от головной боли в будущем. После того, как они прошли тщательную проверку, убедитесь, что наиболее важные из них запланированы и решены в первую очередь. Для каждого из них, вероятно, потребуются разные подходы к обеспечению безопасности поставок, контролю качества, управлению данными и обслуживанию трубопроводов.

Итак, вы согласовали потребности бизнеса и построили модель-прототип. Теперь вы хотите развернуть его в рабочей среде. Чтобы сделать это эффективно, вам нужно будет рассмотреть множество вещей, но в зависимости от ответа на следующий вопрос вы можете извлечь выгоду из включения концепций управления цепочками поставок в свой план для каждого набора данных:

Ваша модель машинного обучения или продукт данных полностью зависят от наборов данных, созданных внутри организации?

Если ответ «да», вы, вероятно, не выиграете от некоторых из следующих концепций цепочки поставок, поскольку (надеюсь) вы можете координировать свои действия с отделами для разработки конвейеров данных, которые соответствуют потребностям вашего продукта ML. Однако если вам необходимо получить данные из открытых источников/сторонних источников или у вас возникли трудности с надежной внутренней защитой данных, следующие концепции могут помочь минимизировать риск производительности продукта машинного обучения.

Стратегия поиска набора данных

Закупочный жаргон: один источник или несколько поставщиков, единственный источник и покупка или изготовление.

Эта концепция в основном применима для защиты необработанных или производных наборов данных, основанных на открытом исходном коде, общедоступных источниках, сторонних поставщиках или полученных в результате деловых партнерских отношений. План не нужно полностью конкретизировать на этапе прототипирования, но важно начать процесс на ранней стадии. Однако после тщательного изучения различных наборов данных на предмет качества, достоверности, полноты и т. д. и создания минимально жизнеспособного продукта (MVP) создание плана поиска источников данных поможет сделать переход к производству более плавным. .

Наиболее консервативной стратегией было бы получение данных из нескольких источников. Наличие альтернативного источника — отличный способ защитить ваш продукт от внешних проблем, находящихся вне вашего контроля, но требование немедленного наличия резервного источника для всех внешних наборов данных иногда нереалистично, дорого и часто не нужно. Точно так же, даже если набор данных является важным, но широко доступным, вы можете решить полагаться на один источник, осознавая, что вам нужно будет переключиться на другого поставщика, если вы потеряете первый (и, конечно, переобучить свою модель). если такой период простоя приемлем для ваших пользователей. В обрабатывающей промышленности эта стратегия называется «единый источник», когда преимущества работы с одним поставщиком — снижение накладных расходов/обслуживания, экономия затрат и т. д. — перевешивают затраты на работу с несколькими поставщиками.

Однако если сопоставимого альтернативного набора данных не существует, вам, возможно, придется заключить партнерство с вашим источником и создать партнерство с поставщиком. Хотя, как правило, следует избегать использования уникальных наборов данных, этот набор данных может дать вам конкурентное преимущество, которое перевешивает риски. В этих сценариях вы можете защититься от неожиданной потери этих наборов данных, наладив прочные партнерские отношения с организацией-источником.

Если данные считаются критически важными, но не существует готовых наборов данных, у вас может не быть выбора, кроме как сгенерировать данные самостоятельно (или нанять субподрядчика). Обычно это далеко не идеально, но могут быть случаи, когда создание собственного набора данных решает критически важные потребности в данных и оправдывает вложение ресурсов. Это то, что я закончил с проектом личной классификации. Я понял, что не могу полагаться на краудсорсинговые усилия из-за специфических знаний предметной области, необходимых для маркировки меток.

Проверка качества данных

Комментарий инженера по качеству: Входной контроль и испытания узлов

После того, как вы приняли источник данных и, возможно, альтернативный источник, вы захотите продолжать оценивать качество данных по мере поступления новых данных, а также по мере их агрегирования и преобразования по всему конвейеру. Как и в случае с физическими продуктами, достаточно одной дефектной точки данных или неправильного пакетного обновления, чтобы ваш продукт вышел из строя. Чтобы избежать этого сценария, определите приемлемый уровень качества и отслеживайте каждый набор данных, создавая тесты конвейера данных. Они будут определять, когда данные не соответствуют ожидаемой схеме, типу данных или диапазонам значений. Ценности можно проверить различными творческими способами. Например, применяя простые проверки в диапазоне, тесты статистического распределения и проверки тенденций или другие более сложные бизнес-правила. Эта логика должна быть разработана и проверена учеными и аналитиками данных — теми, кто хорошо понимает наборы данных и зависимости модели ML. Проверка и хранение журналов результатов качества данных поможет точно определить наличие ложных данных. Это особенно полезно при изучении причин неожиданной неэффективности модели машинного обучения.

Важно понимать, что автоматические проверки качества не могут уловить все, и вы можете не знать, что сразу внедрять. Это процесс проб и ошибок — что нужно проверять, а что нет? Что делать, если набор данных помечен? Эту логику необходимо со временем пересматривать по мере изменения данных и развития продукта.

Текущая оценка источника

Справочник по управлению цепочками поставок: Ежегодный обзор поставщиков

После того, как вы создали свои конвейеры производственных данных, вы можете периодически проверять производительность каждого набора данных (просматривайте эти журналы качества данных). Поставщик данных постоянно меняет формат/схему? Существуют ли какие-либо проблемы согласованности значений и сохраняются ли они? Вы также должны следить за использованием и периодически проводить оценку, чтобы убедиться, что их наборы данных по-прежнему ценны для вашего продукта или организации. Является ли снабжение по-прежнему надежным и устойчивым? Есть ли изменения в ценах или в накладных расходах на обработку, обработку и хранение? Появились ли альтернативные источники данных, которые лучше соответствовали бы вашим потребностям или расширяли возможности? Если это так, вам нужно определить, стоят ли данные того.

На самом деле текущие оценки источников будут различаться по глубине и частоте в зависимости от источника и того, насколько важны его наборы данных для ваших продуктов машинного обучения. Если ваш бизнес тесно сотрудничает, вы регулярно сталкиваетесь с проблемами качества данных в источнике или если вы хотите еще больше расширить функциональность набора данных за пределы того, что он поддерживает в настоящее время, вы можете чаще просматривать эти источники.

Чтобы в полной мере воспользоваться этими концепциями, как специалисту по обработке и анализу данных вам необходимо постоянно сотрудничать во всей организации, начиная с этапа создания прототипа и заканчивая этапами разработки, выпуска и обслуживания ваших продуктов, а также активно участвовать в стратегия данных о продукте. Цепочка поставок данных не может быть построена для продукта и просто запущена. Он будет постоянно развиваться вместе с данными и продуктом — работа никогда не завершается полностью. Всегда будут аварийные сценарии, которые необходимо решить, и со временем будут внесены коррективы. Если ваш продукт машинного обучения зависит от чего-то, что находится вне вашего контроля, дальновидное управление и планирование имеют решающее значение.

Таким образом, каждый набор данных, используемый в производственных моделях машинного обучения, является основным компонентом продукта. Ценность, использование, доступность и надежность каждого набора данных должны определять, как ваша организация управляет им. Чтобы заблаговременно управлять рисками, связанными с поставками данных, вам необходимо оценивать свои источники, оценивать, как вы обеспечиваете свои поставки, контролировать качество данных и периодически пересматривать план каждого набора данных. В конечном счете, вся организация несет ответственность за создание и поддержку надежной, надежной и высококачественной цепочки поставок данных, чтобы обеспечить непрерывный успех продуктов машинного обучения.

Привет, я Кэти Лазелл-Фейрман. Я старший специалист по данным и технический руководитель компании GeoPhy в Нью-Йорке. Есть вопросы по этому посту или просто интересно узнать об этой теме? Прокомментируйте ниже или не стесняйтесь связаться со мной!