Прошлое не может предсказывать будущее

Источник: Панель управления COVID Джонса Хокпинса

Десять лет назад я только начинал заниматься биоинформатикой, без устали изучать статистику и вычисления. Я начал изучать R и базы данных, построил кластер с использованными Pentium III для параллельных вычислений и прочитал вводную литературу по машинному обучению. Все кажется как вчера, но навсегда назад. Мне повезло, и я даже представить себе не мог, что буду делать с данными, наукой и вычислениями годы спустя. Последние несколько лет, возможно, были одними из лучших времен для участия в этой технологической и методологической эволюции; инструменты никогда не были лучше, данные никогда не были богаче, а перспективы карьерного роста никогда не были более многообещающими. Термин Data Science можно встретить повсюду, от престижного FLAG / FANG до растущего числа начинающих из пяти человек. UPS. Внезапно мне показалось, что у нас есть все знания и инструменты, чтобы исправить рак, бедность и всевозможные социальные и политические проблемы, сидя в автономных автомобилях и летая на Луну.

Оказалось, скоро может произойти только последнее стремление. Начало 2020 года было серией звонков для пробуждения. Пандемия опустошила мир всего за несколько недель, за ней последовали массовые карантины, отключения, социальные движения и беспорядки. Когда у двигателя экономики было отключено топливо, компании прибегли к любым средствам для выживания. Возможно, что противоречит традиционному мнению о том, что технические роли относительно более устойчивы к экономическому кризису, отделы обработки данных, к сожалению, довольно рано оказались подвержены сокращению. Виновата пандемия, но, вероятно, не все увольнения; перестройка и консолидация - это рефлекторные реакции. Частью этого процесса может быть ускорение запоздалой тенденции - когда компании думают о том, как справиться с ураганом и подготовиться к восстановлению, непропорционально большая команда специалистов по анализу данных может считаться менее важной.

Так почему же всего за несколько месяцев наука о данных из премии Самая сексуальная работа 21 века стала считаться менее важной в бизнесе? Давайте подробно обсудим. Также обратите внимание, что я буду использовать термин наука о данных для охвата дополнительных технических областей, таких как машинное обучение, статистическое обучение, причинно-следственный вывод, ИИ, для удобства . Это НЕ распространяется на базовый анализ, отчетность, обработку данных или бизнес-аналитику, поскольку такие функции обычно требуются повсюду. Отсутствие дифференциации может сделать мои два цента слишком широкими и не охватить всех нюансов, поэтому, пожалуйста, потерпите меня.

Разъяснение ценности науки о данных

Наука о данных - это не магия, и она не может создавать ценности из вакуума, хотя некоторые люди, возможно, считали иначе. Для того, чтобы наука о данных раскрыла весь свой потенциал, есть как минимум три предварительных условия:

  • Бизнес находится на восходящей траектории устойчивого роста с массивным исходным уровнем, при котором даже 1% прироста оправдал бы значительные вложения в науку о данных;
  • Руководство действительно осведомлено о данных и готово использовать голос данных при построении стратегии, а не данные о ловле рыбы для подкрепления заранее определенных решений;
  • Инженерная платформа и операционные группы являются зрелыми и масштабируемыми, поэтому продукты для обработки данных можно быстро итерировать и развернуть для реализации преимуществ.

Я подробно объясню эти три предварительных условия, но если предположить, что мои мнения не слишком далеки от истины, необходимо иметь много возможностей, чтобы сделать науку о данных сияющей. Вероятно, нереально ожидать, что наем одного известного исследователя станет главным специалистом по обработке данных и сразу же принесет прибыль. Более того, такая высококлассная команда может даже не быть необходимостью для бизнеса.

Итак, без лишних слов, давайте подробно обсудим три предварительных условия.

Большой, стабильно развивающийся бизнес

Вначале это может не быть самоочевидным, поскольку большая часть мировой экономики в течение последних пяти лет находилась в той или иной форме роста или сверхвысокого роста, поэтому мы не смогли наблюдать противоположный факт: как наука о данных будет? Мы работали, когда бизнес сокращался. Последние несколько месяцев показали, что очень немногие заинтересованы в замедлении кровотечения; использование данных для снижения недельного роста с -20% до -10%, вероятно, не заслуживает похвалы. Когда начинается спад, необходимо применять радикальные стратегии, такие как приостановка предложения определенных продуктов, распространение чрезмерных скидок, принятие строгих мер по удержанию и повторной активации, переход к новому потоку доходов и т. Д., Поскольку такие стратегии раньше практически не применялись (даже если они действительно, это можно было бы рассматривать как выбросы), прошлые знания вряд ли могут предсказать будущий результат, не говоря уже об эффекте второго порядка, возникающем в результате одновременных движений с другими игроками на рынке. В конечном итоге ценность науки о данных может быстро уменьшиться.

Компании также могут осознавать, что такая нестабильность в стратегии и на рынке может длиться достаточно долго на этапе восстановления, поэтому комплексная команда по науке о данных / машинному обучению может не понадобиться в ближайшие месяцы или годы. С другой стороны, если бизнес растет на 20% в месяц за месяц, вероятно, было бы лучше инвестировать в расширение функций продукта, укрепление инженерной инфраструктуры, даже в расширение логистики и обслуживания клиентов для дальнейшего ускорения роста, а не вкладывать значительные средства в современная наука о данных для улучшения статус-кво. Простой аналитики и моделирования может быть достаточно. Например, со стратегической точки зрения это может быть гораздо лучшим вариантом инвестировать следующий 1 млн для расширения обслуживания в новом городе в течение следующих 6 месяцев, а не расширять текущую команду по анализу данных, которая может приносить или не приносить такой же доход от оптимизации бизнеса. в существующих городах. Еще один момент, который следует отметить, заключается в том, что в связи с недавним бумом в науке о данных и избытком талантов компании могут быть уверены, что риск сокращения отдела науки о данных невелик. Несмотря на то, что лучшие таланты по-прежнему имеют огромную надбавку, возможно, будет не так уж сложно восстановить способную команду относительно быстро с нуля.

Теперь мы увидели, что бизнесу может не потребоваться большое присутствие в области науки о данных во время и сразу после кризиса. Тогда каков наилучший сценарий для работы науки о данных? Я считаю, что бизнесу может потребоваться:

  • Не сжиматься: снижение общих потерь при использовании данных - не то, чем стоит праздновать. Капитал и ресурсы можно было бы лучше направить на сильные опоры.
  • Не гиперрастущий: может быть более желательным инвестировать в новые возможности, а не в оптимизацию, к тому же прошлые знания могут не предсказывать будущее, поскольку бизнес может измениться очень быстро. Также может возникнуть много технических долгов, которые необходимо покрыть, прежде чем наука о данных сможет работать эффективно.
  • Не сглаживается: если бизнес переходит в фазу медленного роста и плато, то роста / вовлеченности может быть недостаточно, чтобы его можно было использовать. Фактически, недавние увольнения специалистов по обработке и анализу данных в технологиях можно частично отнести на счет вялого роста, а значит, меньшего количества шагов, которые необходимо исследовать.

Предложения для бизнеса и продуктов также должны быть достаточно сложными, чтобы возможности не были интуитивно понятны невооруженным глазом, а могли быть обнаружены только путем комплексного анализа данных и моделирования. Если продавец продает покупателям только один продукт в Интернете, тогда может быть не так уж много волшебства в области науки о данных. Трехсторонний онлайн-рынок с продавцами, товарами и покупателями - это то место, где алгоритм действительно может превзойти простые системы правил со значительной маржой, хотя и с уменьшающейся отдачей. Первый алгоритм может превзойти простое правило на двузначные числа, скажем, на 10–20%, но последующие улучшения, вероятно, будут намного меньше, обычно менее 5% по сравнению с существующим положением дел, за счет все большей сложности и проблем с масштабируемостью / обслуживанием. Если вы проверите какое-либо соревнование Kaggle, то в качестве базовой линии обычно используется модель случайного леса или xgboost, а выигрышное решение обычно представляет собой смесь сотен моделей, включающих внешние данные и множество этапов тщательной настройки. Однако разница в производительности может не иметь существенного значения для бизнеса. Серьезная приверженность функции науки о данных иногда является предварительным вложением в постоянно растущие масштабы и сложность бизнеса, поэтому компонент роста является частью предположения об инвестициях.

Возможно, единственная логическая причина для внедрения такой очень сложной методологии для реализации менее 5% дополнительной прибыли заключается в том, что 5% -ная дополнительная прибыль должна быть достаточно существенной для бизнеса с учетом всех связанных прямых и альтернативных затрат. Это означает, что базовый доход или любые другие прокси-показатели, такие как ежедневная активность пользователей, должны быть огромными. Даже с 100-миллионным годовым доходом 5-процентный прирост от 5-ти миллионов может быть только окупаемым для затрат на расширение команды специалистов по обработке и анализу данных, состоящей из 20 человек, и нет никакой гарантии, что такое увеличение может быть реализовано в последующие годы. Базовый показатель может составлять миллиарды, и в этом случае на арене останется только несколько крупных игроков (Facebook, Apple, Amazon, Google, Tencent, Alibaba и т. Д.). Для небольших компаний вложения в проектирование, продажи, маркетинг и аналитику, а не в науку о данных, могут принести гораздо лучшую отдачу в краткосрочной перспективе. В прошлом я разговаривал с довольно большим количеством компаний на очень ранних стадиях (

Как вы, возможно, уже почувствовали, наука о данных - довольно тонкий организм, которому для выживания требуются нюансированные питательные вещества для бизнеса. Для процветания требуется еще больше внутренних и внешних факторов; читать дальше.

Лидерство, разбирающееся в науке о данных

Одно заметное различие между академическим сообществом и промышленностью заключается в том, можно ли провести хорошее исследование на бумаге в производственной среде в разумные сроки и с четко измеримыми результатами. Чтобы это произошло, руководство должно: 1) понимать продукт для науки о данных от начала до конца, что он может и чего нельзя, а также все связанные с этим риски, предубеждения и подводные камни; 2) отстаивать основанное на данных мышление и принятие решений на всех уровнях, а также предлагать науке о данных весомый голос за столом переговоров; 3) уважать объективность данных; не использовать науку о данных в качестве оружия для аргументов, ловя благоприятные сигналы. Это может показаться простым, но на самом деле может быть сложно последовательно выполнять в реальности.

Первым ингредиентом успеха для руководителей является понимание науки о данных: как данные собираются, компилируются и обрабатываются; каковы смещения выборки; что было захвачено и, что более важно, что НЕ захвачено; как проводился анализ и моделирование, и каковы были предположения, компромиссы и т. д. Если специалист по анализу данных проанализировал эксперимент и сообщил, что новая функция может повысить вовлеченность пользователя на 1%, обычно возникает множество предположений. требовать. Такие предположения обычно теряются в обсуждениях, цепочках электронной почты и резюме, что приводит к снижению точности при большем радиусе вещания. Несколько позже люди могут интерпретировать оценку как факт, смешивая результаты регионального эксперимента с глобальным экспериментируйте, делайте ошибочные экстраполяции, приводите такие числа в неправильном контексте для подтверждения определенных аргументов и т.д. вмешивайтесь и управляйте повествованием. В противном случае может возникнуть недоразумение, которое подорвет доверие к организациям, занимающимся наукой о данных.

Второй ингредиент - предложить науке о данных правильный размер голоса. В прошлом я был свидетелем как случаев, когда специалисты по данным рассматривают открытия на основе данных как истину в последней инстанции, чтобы опровергнуть аргументы других, так и случаи, когда специалисты по данным сидели в конце стола для принятия решений, чтобы отдать номинальный голос. Ни один из этих сценариев не годится. В идеале наука о данных должна давать независимый, объективный (в максимально возможной степени) и ортогональный взгляд на обсуждаемые проблемы с равным голосом для других сторон, таких как инженеры, дизайнеры, мнения потребителей, финансы и т. Д. Слишком много полагаться на данные могут стать жертвой ошибочных данных, таких как систематическая ошибка выборки - то, что считалось объективным описанием мира, на самом деле может не быть репрезентативным. Номинальная зависимость от данных сделает группу по анализу данных бессильной. Баланс трудно достичь, но, безусловно, можно.

Третий ингредиент - поддерживать объективность науки о данных, не навязывая только благоприятные открытия. Часто бывает нетрудно выловить ожидаемый результат из сложных и богатых наборов данных, чтобы выделить определенные функции в процессе выбора функций или сфабриковать корреляции. У руководителей возникает соблазн найти дополнительную уверенность в принятии решения отделом анализа данных. Некоторые могут даже поверить, что сообщать только о благоприятных открытиях и скрывать результаты испытаний не обязательно лгут. Руководители должны знать и исправлять ошибки как можно скорее, поскольку это может нанести серьезный ущерб не только функции науки о данных как внутри, так и за ее пределами, но и для всех сотрудников. Лидеры должны ясно дать понять и показать пример того, что это красная линия, которую нельзя переходить.

Зрелая инженерная / операционная платформа

Даже при соблюдении всех этих предварительных условий зрелая инженерная платформа является обязательным условием для эффективного выполнения работы в области науки о данных. Нередко инженерные возможности, связанные с наукой о данных, такие как платформы данных, аудит, развертывание моделей, наборы инструментов для экспериментов и т. Д., Постоянно теряют приоритет, чтобы освободить место для разработки более важных функций продукта. В результате часто может существовать разрыв между исследованием и развертыванием в области науки о данных. Команда по анализу данных может собрать некоторые данные, провести исследования и разработки в автономном режиме и вернуться с моделью, которая потенциально может оказать существенное влияние на бизнес. К сожалению, из-за отсутствия инфраструктуры для развертывания может потребоваться 3–6 месяцев, чтобы даже сделать возможным развертывание. К тому времени, когда развертывание было готово, весь бизнес мог сместиться, что могло сделать предыдущие исследования неактуальными. Поскольку продукт для обработки данных зависит от множества движущихся частей, зрелая платформа, которая решает вопросы приема данных, компиляции, развертывания моделей, масштабируемости и интеграции продуктов, имеет решающее значение для самообслуживания групп специалистов по анализу данных. В противном случае у команды по анализу данных не будет иного выбора, кроме как ждать, пока многие другие команды проложат путь, прежде чем что-либо будет сделано. Для того, чтобы это произошло, потребуется не только сильное руководство, разбирающееся в данных, но и компания адекватного масштаба, чтобы можно было выделить ресурсы для инвестирования в развитие таких возможностей. У более мелких игроков обычно нет такой роскоши, поэтому им приходится по-прежнему полагаться на менее идеальные и более нестандартные решения.

Итак, теперь вы можете спросить - мы уже на месте? По-прежнему может отсутствовать компонент - сильная оперативная группа на нижнем уровне, которая может реализовать стратегию и обеспечить ее выполнение. Представьте себе инструмент оптимизации обслуживания клиентов, такой как Uber’s COTA, который вовлекает людей в цикл: агенты CS должны быть хорошо обучены, чтобы использовать этот инструмент и осознавать его ценность. Модели оптимизации складских помещений могут предполагать, что рабочие могут пополнять запасы и отправлять товары с определенной скоростью, что может быть, а может и не быть правдой в действительности (и это может добавить давления и стресса для людей на земле). Нередко возникают огромные расхождения между ожидаемой и реализованной дополнительной отдачей от продуктов для обработки данных, и отладка всего жизненного цикла может оказаться нетривиальной задачей. Каждая деталь должна функционировать безупречно, в этом смысле наука о данных действительно параллельна науке о ракетах.

Конец денежного медового месяца

Череда кризисов, неэффективность и всплеск недавних единорогов послужили холодной водой, чтобы подавить безумие погони за ростом любой ценой. Инвесторы, вероятно, будут более консервативными, и теперь рентабельность вместо выручки / базы активных пользователей может вернуться в качестве ключевого показателя. Накопление талантов в области науки о данных, вероятно, остынет - несколько лет назад это было практически обязательным условием для привлечения инвесторов из-за FOMO, нехватки кадровых ресурсов и грандиозного видения того, чего наука о данных может достичь с точки зрения возврата капитала. Горячие попытки со стороны работодателей привлекли многих профессионалов, которые обратились в науку о данных, а благодаря множеству программ по науке о данных и учебных лагерей появилось множество талантов. Неизбежно это приведет к более высоким барам входа и коррекции рынка науки о данных.

Я помню, как несколько лет назад я был в Канзас-Сити и разговаривал с местным жителем. Смутно помню историю о взлете и падении тамошнего города (могу ошибаться в деталях). Поскольку автомобильная промышленность была очень популярной, один из производителей построил центр для обучения рабочих определенной квалификации и гарантировал занятость. Многие стекались туда в поисках карьерной перспективы, но вся программа пошатнулась только через несколько лет из-за переизбытка предложения. Сейчас рынок науки о данных идет по аналогичному, хотя и менее серьезному пути. Я разговаривал с некоторыми людьми на буткемпе, и хотя они были очень довольны только что построенной моделью, которая могла отличать кошек от собак, и были очень впечатлены тем, как многого они достигли всего за пару часов, многие понятия не имели, что они делали, и почему модель кошка / собака имеет смысл в любом контексте. Ложное впечатление, что наука о данных настолько проста, что с ней может справиться кто угодно, усугубляется представлением о том, что это одна из лучших работ в этом десятилетии, может заставить людей спешить с решениями в массовом порядке отказаться от своей нынешней профессии и заниматься скоростными тренировками, только чтобы позже обнаружить, что то, чему они научились, уже устарело, и им приходится соревноваться со многими другими, которые прошли аналогичный процесс скоростных тренировок.

Что это означает для науки о данных в следующие несколько лет после кризиса? Я думаю, он продолжит развиваться, но по-другому. Компании, пережившие кризис, будут готовы к восстановлению, и многие подрывные компании появятся на новых рубежах, особенно в сфере здравоохранения и образования. Инструменты будут и дальше совершенствоваться, с большей степенью автоматизации и масштабируемости. Наука о данных будет еще более демократизирована, но станет еще более поляризованной - любой может начать очень быстро, но для того, чтобы подняться на вершину, потребуется гораздо больше работы. Для достижения настоящего успеха потребуется хорошее сочетание технических знаний, практического опыта, знаний предметной области, инженерных навыков, коммуникаций, делового чутья, стратегического видения и, наконец, немного удачи.

Некоторые прогнозы

Как поклонник Pivot профессора Скотта Гэллоуэя, я хотел бы быть бессовестным подражателем и сам делать некоторые прогнозы. В конце концов, это то, что я делаю; на этот раз изменилось то, что у меня может не быть большого количества данных, подтверждающих мою интуицию.

  • Скорее всего, на рынке науки о данных наступит спад, особенно для позиций начального уровня. Компании, вероятно, будут меньше инвестировать в долгосрочные ставки (автономное вождение, компьютерное зрение и т. Д.), Но больше будут вкладывать средства в автоматизацию аналитики и отчетности. Это будет тяжелое время для новичков, поскольку в стартапах будет меньше вакансий из-за сокращения притока инвестиций. С другой стороны, традиционные отрасли, такие как производство, гостиничный бизнес, оптовая торговля и бакалея, розничная торговля крупными брендами и т. Д., Могут рассматривать это как хорошую возможность для наращивания потенциала в области науки о данных и повышения готовности к следующему раунду конкуренции. Также с последствиями COVID-19 могут появиться многие новые возможности за пределами технологических центров, таких как Нью-Йорк, Бостон и район залива Сан-Франциско. Так что начало работы в этих неканонических технических центрах может быть хорошим вариантом.
  • Знания в предметной области будут очень востребованы. Будь то исследования операций, эконометрика, науки о жизни, здравоохранение, физика или другие. Многие, казалось бы, нерелевантные глубокие исследования на самом деле могут быть перенесены на решение ранее не встречавшихся проблем, и в ближайшие пять лет у нас их будет много. COVID-19, политические факторы, такие как иммиграционная политика и деглобализация, а также сокращение финансирования исследований уменьшат количество докторов наук в области STEM. Благодаря более общим приложениям науки о данных в исследованиях и сильным знаниям в предметной области, следующий раунд получения степени доктора философии в Штатах может быть очень востребован частным сектором. С другой стороны, количество специализированных исследовательских должностей в области ИИ в частном секторе может фактически расти медленнее, поскольку компании с большей вероятностью будут вкладывать средства в краткосрочной перспективе и искать решения проблем, которые не обязательно требуют современных технических и теоретических знаний. возможности. Лучшее по-прежнему будет очень популярно на рынке, но может иметь меньше возможностей.
  • Роль специалистов по обработке данных будет еще больше различаться. Вместо «швейцарского ножа» будет четко определена роль бизнес-аналитиков, специалистов по анализу данных о причинных выводах, инженеров по машинному обучению и ученых-исследователей. Переключение ролей с одной дорожки на другую может быть более трудным из-за постоянного обогащения знаний предметной области, аналогичного расхождению между UI-инженерами и бэкэнд-инженерами сегодня. Полный стек все еще возможен, но он может не найти своего широкого применения в крупных компаниях. Лучшие таланты будут иметь по крайней мере одну очень глубокую «дорожку начальных навыков». Это похоже на ролевую игру: равное распределение очков навыков далеко не продвинется. Вам нужно будет выбрать, хотите ли вы стать воином, магом или волшебником.

Примите неопределенность

Мне нравится то, что будущее не высечено на камне. Это новая, быстро развивающаяся область с большой неопределенностью. Это вызывает стресс, но в то же время очень захватывающе, поскольку у каждого из нас может быть способ прокладывать собственные траектории. Тем не менее неопределенность - это естественная ткань нас, чья работа - делать прогнозы.

Итак, несколько советов:

  • Если в 2020 году вас интересует наука о данных, будьте готовы к тому, что быстрого пути не будет. Пройдя учебный лагерь или ускоренный курс, вы, вероятно, только попадете в дверь, но не ожидайте, что сразу после этого вы получите работу мечты. Вам нужно будет потратить несколько лет на обучение на практике и постепенно наращивать свои способности. Увеличение предложения талантов и сокращение найма также означают более высокие границы доступа к самым престижным фирмам, и не все пробелы (зрелость, навигация в сложном и нюансированном бизнес-контексте, коммуникации, технические компромиссы) могут быть устранены с помощью изучения учебников. Это будет долгий марш, а не спринт.
  • Для людей, которые уже вовлечены, идите глубже и шире и станьте настоящим мастером решения проблем. Мы не можем быть «пони с одним трюком», но должны продолжать изучать нашу область, а также следить за тем, что происходит вокруг нас. Поскольку время ограничено, необходимо сделать выбор; независимо от того, какое построение науки о данных вы хотели бы развить (анализ против машинного обучения), какие второстепенные навыки приобрести (бизнес против разработки продукта) или карьерные цели, которые нужно преследовать (IC против технического лидерства), вам придется кое-что сделать. заблаговременно принимайте решения и придерживайтесь своего плана. Приспосабливайтесь соответственно к краткосрочным изменениям, но старайтесь оставаться на этом курсе в долгосрочной перспективе.
  • Будьте страстными и любопытными и убедитесь, что вам нравится то, что вы делаете. Хорошая работа по науке о данных - это не весело, а пресловутая очистка данных, вероятно, считается самой утомительной и энергоемкой. Если вы не влюблены, скорее всего, вы далеко не уйдете. Это нормально - сдаться и попробовать что-то другое, и я знаю людей, которые пришли к выводу, что наука о данных не для них, и переключились на разработку или разработку продукта, а позже добились огромных успехов. Навыки, которые вы приобрели в процессе, не будут потрачены зря и принесут пользу в долгосрочной перспективе. Приспосабливайтесь, и в конце концов приспособление выживет.

Предыдущие блоги по науке о данных:

Заявление об ограничении ответственности и примечания:

  • Мнение, представленное в этой статье, является моей личной точкой зрения и не связано с моими работодателями.
  • Моя жена прочитала первый черновик и дала множество конструктивных отзывов. Соответственно, я сделал много исправлений и особо ей признателен.