Обучение процессу науки о данных

Учебные планы для обучения машинному обучению существуют уже несколько десятилетий, и даже более новые технические предметы (глубокое обучение или архитектуры больших данных) имеют почти стандартные схемы курса и линеаризованные сюжетные линии. С другой стороны, обучающая поддержка процесса науки о данных была труднодостижимой, хотя общие черты процесса существуют с 90-х годов. Понимание этого процесса требует не только обширного технического опыта в области машинного обучения, но и базовых представлений об администрировании бизнеса. Я подробно остановился на организационных трудностях трансформации науки о данных, связанных с этими сложностями, в предыдущем эссе; здесь я поделюсь своим опытом преподавания процесса науки о данных.

Построение рабочего процесса

Недавно у меня была возможность опробовать некоторые экспериментальные педагогические методы примерно на сотне студентов инженерного факультета высшего звена из Политехнической школы. Центральной концепцией курса был рабочий процесс по науке о данных.

Разработка рабочего процесса, его элементов, баллов для оптимизации, подключение рабочего процесса к специалисту по бизнес-данным.
Оптимизация рабочего процесса, подключив его к специалистам по техническим данным.

Ни один из этих двух не может быть обучен, используя линеаризованные повествования в лекциях, основанных на слайдах. Я построил курс вокруг нашей концепции RAMP, используя нашу платформу. Чтобы научиться оптимизации рабочего процесса, студенты приняли участие в пяти RAMP, разработанных, чтобы испытать их на различных научных рабочих процессах и на различных проблемах науки о данных. Чтобы изучить дизайн рабочего процесса, я рассмотрел пару бизнес-кейсов, основанных на данных, дал студентам линейное руководство с конкретными вопросами, на которые нужно было ответить, и попросил их построить бизнес-кейсы и рабочие процессы по науке о данных в групповых проектах. Я использовал стартовые комплекты RAMP в качестве образцов: ограничение бесконечного пространства дизайна помогло студентам структурировать проекты.

Использование RAMP в качестве обучающей поддержки

RAMP изначально был разработан для инструмента совместного прототипирования, который позволяет эффективно использовать время специалистов по данным при решении сегмента анализа данных в предметной области или бизнес-проблем. Затем мы очень скоро поняли, что он одинаково полезен для обучения начинающих специалистов по данным. Главной особенностью дизайна, которую нам нужно было изменить, была полная открытость. Чтобы иметь возможность оценивать учащихся на основе индивидуальных достижений, нам нужно было закрыть таблицу лидеров. На закрытом этапе ученики видят оценки друг друга, но не коды друг друга. Мы оцениваем их, используя линейную функцию от их оценок. За этой закрытой фазой, которая обычно длится 1-2 недели, следует классический открытый RAMP, в котором мы оцениваем учащихся на основе их деятельности и их способности создавать разнообразие и улучшать свои собственные оценки закрытой фазы.

Коллективное выступление студентов было просто великолепным. Во всех пяти RAMP они превзошли не только базовый уровень, но и показатели хакатона за один день, которые мы организовали для тестирования рабочих процессов, с участием, как правило, 30–50 ведущих специалистов по данным и исследователей предметной области.

Я также был рад видеть, что на открытой фазе новички / средние студенты достигли вершины, изучая и повторно используя решения, поступающие на закрытой фазе от 10–20% лучших студентов. Еще одним приятным сюрпризом стало то, что прямое слепое копирование было очень редким явлением: студенты искренне пытались улучшить код друг друга.

Мы будем анализировать эти богатые результаты и писать статьи по предметным наукам (см. Этот документ для первого примера), науке о данных и науке об управлении . Этот технический отчет содержит еще несколько деталей, а вот мои слайды с недавнего семинара DALI по процессу анализа данных.

Обучение дизайну рабочего процесса с использованием бизнес-кейсов

Как я объяснял в своем предыдущем эссе, основным препятствием для компаний, не связанных с ИТ, запускающих проекты в области науки о данных, является не недостаток хорошо подготовленных данных, не инфраструктуры, даже не недостаток обученных специалистов по данным, а недостаток четко определенных бизнес-кейсов на основе данных. Хуже того: эта проблема обычно обнаруживается после первоначальных инвестиций в озеро данных, сервер Hadoop и группу специалистов по анализу данных. Хорошо подготовленный специалист по данным (процессам), который может начать этот переход на ранней стадии и перевернуть проект с ног на голову, может сэкономить миллионы даже для компании среднего размера.

Чтобы подготовить студентов к этой роли, я начал курс с подробного обсуждения сценария профилактического обслуживания макета. Стандартизированные вопросы, на которые каждый должен был ответить в своих проектах, помогли студентам перейти от широко описанного бизнес-кейса к четко определенному баллу прогноза, количеству ошибок и стратегии сбора данных.

Что мы хотим предсказать и как измерить качество прогноза?
Как более точный прогноз улучшит выбранный KPI?
Вы хотите иметь поддержку принятия решений, полностью автоматизированную систему или просто знать важные факторы? Как агент будет использовать систему?
Каким должен быть количественный прогноз?
Как (используя какой балл) мы измеряем успех? Как ошибка прогноза (возможно, асимметричная) преобразуется в стоимость или снижение KPI?
Какие данные нам нужны для разработки предсказателя?
Какие усилия нам нужны для сбора этих данных?
Каким будет рабочий процесс и элементы рабочего процесса с учетом источника (ов) данных и цели прогнозирования?
Как часто модель придется переучивать?

Я далее структурировал их проекты, попросив их создать стартовый комплект по образцу пяти RAMP, с которыми они столкнулись. Каждый стартовый комплект содержал

набор данных,
примеры элементов рабочего процесса, заполняющие спроектированный рабочий процесс,
модульный тест, реализующий рабочий процесс, который можно использовать для тестирования элементов рабочего процесса, и
записная книжка Jupyter, которая описывает научную или бизнес-проблему (отвечая на приведенные выше вопросы), читает, обрабатывает, исследует и визуализирует данные, объясняет рабочий процесс анализа данных, а также предоставляет и объясняет начальные рабочие решения для каждого элемента рабочего процесса.

Курс содержал много вопросов и ответов, обсуждения других бизнес-кейсов (как успешных, так и неудачных) и объяснения различных возможных рабочих процессов и элементов рабочего процесса.

Поскольку студенты могли выбирать любой доступный набор данных, сбор данных в большинстве случаев не представлял проблемы. Рабочие процессы были относительно простыми, поэтому почти все команды предоставили рабочие стартовые комплекты. С другой стороны, студенты много раз попадались в ловушку, пытаясь найти экономическое обоснование для «хорошего» набора данных. По крайней мере, около половины команд пытались разработать значимое экономическое обоснование. Три лучшие команды (из 22) представили продукты высочайшего качества:

Продукт управления производственным процессом, рассчитывающий асимметричную стоимость ложных срабатываний и ложных отрицаний с использованием хорошо откалиброванных затрат на техническое обслуживание, затрат на производство, затрат на удовлетворение и маржи. Команда показала улучшение по сравнению с несколькими базовыми показателями (отсутствие проверки, проверка всего, случайная проверка).
Товар, продаваемый в массовых многопользовательских онлайн-играх. Цель состояла в том, чтобы предсказать, будет ли игрок человеком или ботом. Эти игры теряют деньги, когда боты конкурируют со своим собственным офлайновым бизнесом, который продает персонажей и функции за реальные деньги, автоматически собирая их в игре и продавая их на черном рынке. Команда разработала экономическое обоснование, учитывая ошибку асимметричной классификации.
Продукт, который можно продавать таксомоторным компаниям или Uber, прогнозирующий спрос на поездки на такси в час и по району на Манхэттене. Команда преобразовала прогноз в ценность, оценив количество доступных поездок, умноженное на прибыль за поездку.

Обучение процессу науки о данных

Построение рабочего процесса

Использование RAMP в качестве обучающей поддержки

Обучение дизайну рабочего процесса с использованием бизнес-кейсов

Если вам нравится то, что вы читаете, подписывайтесь на меня в Medium, LinkedIn и Twitter.

Вопросы по теме