Эксклюзивное интервью TDS

Как избежать наихудшей ошибки, которую может сделать каждый специалист по данным - с помощью этих 2 важных шагов

Главный специалист по данным в Patreon делится ценными советами и ресурсами для достижения успеха в карьере + стратегиями решения реальных проблем с данными.

Интервьюер: Хэбичан Юнг, руководитель проекта на TowardsDataScience.com.

Собеседник: Маура Черч, глава отдела науки о данных в Patreon. Ранее работал в Google - B.A. Кандидат прикладной математики (Гарвардский университет).

Patreon.com - это платформа, которая позволяет создателям получать деньги напрямую от своих поклонников в рамках модели членства. Вы можете зайти на Patreon и платить любимым создателям определенную сумму в месяц, чтобы получать эксклюзивные преимущества, предварительные просмотры и т. Д. При достаточном покровительстве идея состоит в том, чтобы создатели зарабатывали на жизнь на Patreon, а не за счет рекламы или брендинга.

Не могли бы вы рассказать нам о своем профессиональном опыте?

До Patreon я работал в Google над данными в группе анализа данных. В частности, я работал со спамом и злоупотреблениями, данные применялись, чтобы попытаться уменьшить количество спама, злоупотреблений и мошенничества в коммуникационном продукте Google. До этого я изучал прикладную математику и музыку в Гарварде, в частности, мои интересы лежат на стыке технологий, искусства и информатики. Я присоединился к Patreon около 4 лет назад в качестве второго специалиста по данным, и с тех пор работаю в компании.

Каковы были ваши повседневные обязанности, когда вы только начали работать в Patreon? Как ваша роль в области обработки данных развивалась за эти годы?

Когда я только начинал, основная структура данных Patreon заключалась в записи всех наших ключевых показателей в таблицу Google, которая ежедневно обновлялась через API Google Sheet, который был эффективен в то время. Это была среда, в которую я входил, где у нас не было настроенной инфраструктуры данных, и мы начинали изучать фундаментальные вопросы данных, которые мы хотели задать, о том, как развиваются авторы, покровители и компании, такие как Patreon.

Большая часть нашего первого года была потрачена на 1) работу по проектированию данных, такую ​​как настройка нашего первого ETL, 2) выполнение большого перехода от MySQL к красному смещению, 3) определение наших основных показателей и того, что мы хотели измерить, и 4) создание наших первых ключевых дашбордов.

Теперь мой день выглядит совсем иначе. Сейчас я управляю 5 специалистами по анализу данных. У меня гораздо больше влияния на стратегию (где наши данные должны помочь нам в том, чтобы сообщить нам, куда идти), и я уделяю много внимания аналитике продукта (как работает продукт? Как вы хорошо проводите эксперименты?).

Все ли специалисты по данным в Patreon работают над вопросами, связанными с продуктами? Если нет, расскажите, как устроены группы обработки данных?

Мы - одна основная команда по обработке и анализу данных (в значительной степени мы - централизованная команда). Мы поддерживаем 4 основные функции в бизнесе:

  1. Аналитика продукта: измерение производительности продукта.
  2. Бизнес-аналитика: все данные и показатели, связанные с выходом на рынок бизнес-команд (продажи, маркетинг, успех создателей, финансы, юридические вопросы и т. Д.).
  3. Основное исследование: фундаментальные, глубокие вопросы о создателях и покровителях, которые будут управлять всем бизнесом.
  4. Бизнес-аналитика / Обучение данным / Доступность данных: усовершенствование системы ввода данных для новых сотрудников, создание ресурса, который делает данные более доступными и интерпретируемыми для компании.

70% того, что мы делаем ежеквартально, приходится на сегмент Product Analytics. Некоторые люди больше ориентированы на бакалавриат. сторона, некоторое обучение данным, это зависит от человека и от квартала и от того, что мы пытаемся сделать в этом месяце.

Не могли бы вы подробнее рассказать о своей основной миссии: «дать авторам, покровителям и товарищам по команде в Patreon данные, необходимые для принятия правильных решений»?

Я думаю об этом спектре фундаментальной инфраструктуры данных, с одной стороны, до продуктов данных, с другой, которые обеспечивают творческую экономику для нашей команды по анализу данных. Сегодня мы прошли примерно 60–70% пути к другому концу пути. Я надеюсь, что в будущем мы будем создавать продукты данных, API или модели, которые встроены в Patreon.com и позволят покровителям и создателям принимать более обоснованные решения.

Например, мы можем помочь авторам понять характеристики оттока клиентов и их членство [модель оттока и аналитика]. Это затем помогает создателям принимать более эффективные меры для удержания этих участников и увеличения их членства в Patreon. Или мы можем рассказать посетителям о самой популярной публикации или преимуществах, которые они еще не увидели, благодаря чему-то, что разработала группа специалистов по анализу данных [механизм рекомендаций по содержанию].

Сейчас у нас в производстве находится только одна модель - модель мошенничества, которая в основном помогает Patreon не взимать мошеннические залоги. Я надеюсь, что в долгосрочной перспективе мы создадим больше продуктов для обработки данных, которые будут поддерживать наш сайт.

Какие черты, качества или опыт вы ищете в потенциальных специалистах по анализу данных в Patreon?

Есть несколько вещей, которые действительно важны для меня, особенно потому, что Patreon - это стартап, и работа Data Scientist в стартапе может отличаться от работы Data Scientist в более крупной компании с сотней Data Scientists. Несколько ключевых моментов:

  1. Техническая панель: мы ежедневно работаем с SQL, особенно с Postgres, и ожидаем, что кандидаты будут знать Python / немного свободно владеть каким-то статистическим языком. Кроме того, кто-то, кто действительно умеет запрашивать действительно большие наборы данных.
  2. Коммуникация: мы находимся в ролях, где большая часть нашей повседневной работы тратится на получение важных идей или построение моделей и доведение их результатов до заинтересованных сторон, будь то менеджеры по продукту, маркетологи или специалисты по финансам. Очень важно, чтобы кандидаты в области науки о данных обладали хорошими коммуникативными навыками.
  3. Упорство, упорство и готовность решать сложные проблемы: Patreon - новый продукт на новом рынке. То, что мы пытаемся изучить, и проблемы, которые мы пытаемся решить, обычно являются сложными. Я надеюсь, что любой, кто присоединится к команде специалистов по анализу данных, увлечен трудными проблемами и столкнется с трудностями.
  4. Страсть к искусству и страсть к миссии: это не самое главное, но это здорово.

И наоборот, какие черты характера вы не ищете? Другими словами, какие подводные камни вы видели у соискателей по науке о данных?

Одна распространенная ошибка, которую я часто вижу, связана с идеей молотка Маслоу. Идея заключается в том, что для человека с молотком все выглядит как гвоздь. В науке о данных это желание применить методологию, с которой кандидат может чувствовать себя комфортно, к любой проблеме, независимо от реальной проблемы.

Пример: кандидат может войти в Tensorflow и изучить Keras и глубокое обучение, и при любой проблеме, с которой он столкнется, он скажет: «О, позвольте мне использовать Tensorflow! Позвольте мне применить к этому глубокое обучение ». Это очень важная ошибка, которую следует избегать. Для решения некоторых проблем, с которыми вы столкнетесь, может потребоваться простая таблица Excel. Или, может быть, на самом деле способ решения проблемы - это собрать людей в комнату и поговорить об этом. Поэтому не думать о правильной методологии решения проблемы - это очень важная ловушка, которую следует избегать.

Значит, это будет переход от вопросов, которые они пытаются решить, и вопросов «почему» к методам и моделям, которые они используют?

Точно. Спросить, почему мы пытаемся решить эту проблему, какую ценность мы собираемся добавить в бизнес, всегда является отличным местом для начала, вместо того, чтобы прибегать к известной вам методологии.

Что можно улучшить для тех, кто не знаком с мышлением о ценности бизнеса?

Я рекомендую два способа:

  1. Есть отличные книги по стратегическому мышлению. Если вы посмотрите книги по стратегическому мышлению в Google Harvard Business Review, это поможет. Специалистам по анализу данных полезно иметь навык стратегического мышления, задавая долгосрочные вопросы и формулируя причины, по которым они делаются.
  2. Кандидатам может быть очень полезно подумать о тематических исследованиях аналогичных продуктов. Например, придумайте 10 идей функций для Pinterest, Airbnb или Lyft, у которых есть эти очень распространенные программные продукты. Выполните практику, прежде чем анализировать функцию, сделайте шаг назад и спросите, зачем вам нужно создавать эту функцию с самого начала. Это может помочь нарастить мускулы, задавая вопросы, почему, и начинать с этого, а не сразу погружаться.

Если говорить конкретно о Patreon, с какими основными проблемами данных сталкивается компания?

Одна из проблем с данными, с которой мы сталкиваемся, заключается в том, что создатели управляют своим членством разными способами. Например: у вас есть музыканты, которые открывают страницу Patreon для поддержки своих поклонников. Они просто хотят пригласить своих поклонников в поездку за любой музыкой, которую они создают. Другой пример: подкастер, создающий членство, чтобы предлагать эксклюзивный контент.

Тот факт, что существует так много бизнес-моделей, объясняющих, почему люди используют Patreon и как они его используют, и как они структурируют свои цены и преимущества, делает это действительно сложным для стороны данных. У нас есть базовая кластеризация, чтобы показать, как выглядят эти разные модели, но они не являются каноническими. Эта проблема неструктурированной бизнес-модели в данных является для нас действительно сложной задачей. Потому что это означает, что мы должны полагаться на другие элементы и характеристики, которые мы видим в платежном поведении и поведении ценообразования, чтобы попытаться выяснить, что будет работать для данного автора.

Вторая серьезная проблема заключается в том, что Patreon существует уже 6 лет, и все это время у нас были разные послания, маркетинг и брендинг в соответствии со стратегией того времени. Сейчас мы сосредоточены на членстве. Patreon - это место, где вы можете создать членство и получать деньги от самого большого поклонника. Но эта модель сильно отличается от наших первых создателей. Так что наши исторические данные, возможно, не самое ценное для нас, когда мы пытаемся изучить этот новый рынок членства.

Это неотъемлемая проблема, связанная с тем, какие данные вы используете для решения какой проблемы и насколько мы полагаемся на более старые данные по сравнению с данными от создателей, которые, возможно, запустили в прошлом году.

Какие успешные стратегии вы применили для решения этой проблемы с холодным запуском?

Хороший вопрос. Одним из важных шагов, который является более деловым подходом, был выбор канонических и тематических примеров того, что мы ищем. Итак, найти автора, у которого действительно хорошо получается членство, и глубоко погрузиться в понимание того, что они делают? Как они настраивают свою страницу? Как они приносят пользу своим членам? И используя эти вопросы, чтобы попытаться найти других авторов.

Приведя конкретный пример, мы знаем, что создатели подкастов на Patreon имеют действительно хорошее удержание, потому что они выпускают сериализованный контент каждую неделю. Так что, если вы знаете, что на следующей неделе выйдут новые серии, вы, скорее всего, останетесь здесь. Мы взяли это как пример, чтобы сказать: «Хорошо. Как мы можем побудить других авторов создавать сериализованный контент? И как мы можем взять эту идею от конкретного создателя и применить ее в более широком смысле ко всем нашим создателям? Это то, что мы называем подходом канонического автора, который помог нам из-за отсутствия данных.

Чтобы получить полное оставшееся интервью, посмотрите видео на YouTube, где Маура более подробно рассказывает о проектах в области науки о данных, которые работали в Patreon, а также о других важных советах и ​​ресурсах для действующих и начинающих специалистов по данным.