Что такое данные 3.0?

Автор: Вивек Рамасвами, Мэтт Бухвальд и Каран Механдру

Одна из наиболее важных тенденций в корпоративном программном обеспечении сегодня - это стремительный рост объемов данных и новых сценариев их использования. Много было написано о том, что данные - это масло для новой промышленной революции, DataOps как категория набирает обороты и что специалисты по обработке данных и инженеры по обработке данных становятся« обязательными для найма должностями» (но все более коротко поставка). Стало практически невозможно игнорировать размер публичных компаний в этой категории (Snowflake - 75 миллиардов долларов, MongoDB - 23 миллиарда долларов)… а также предстоящие IPO-блокбастеры (например, Databricks). Эти тенденции являются главными для нас в STEADFAST, и мы хотели поделиться некоторыми из нашей работы и мыслями о пространстве. В частности, в этой статье будут рассмотрены конкретные препятствия, с которыми крупные покупатели сталкиваются в современном стеке данных (который мы называем Data 3.0), как новые стартапы могут преодолевать эти препятствия на своем пути к славе, а также структуры, которые мы используем для инвестирования. в этом пространстве.

Что такое Data 3.0?

Во-первых, полезно уточнить, что означает «данные 3.0» (по общему признанию, этот термин вольно использовался другими в прошлом). Для целей этой статьи мы определяем Data 3.0 как эволюцию стека данных, посредством которой каждый из более чем миллиарда специалистов по всему миру имеет право использовать корпоративные данные в своей работе; он берет данные от коммодитизированных входных данных для создания отчетов, выводов и действий в рамках всей организации.

Стратегическая важность данных в нынешнюю эпоху отделяет их от Data 1.0 (~ 1990-е - середина 2000-х), где данные были в основном локальными и использовались узко, и Data 2.0 (~ середина 2000-х - 2020), который ознаменовал введение AWS и облачных технологий. - собственные инструменты бизнес-аналитики, но данные в которых по-прежнему оставались в основном «простым» побочным продуктом (или выходом) процессов организации. И наоборот, Data 3.0 использует машинное обучение и искусственный интеллект для ускорения рабочих процессов, поддержки продуктов, принятия дополнительных решений и помощи компаниям в достижении успеха в своей отрасли. Концентрация данных в основной бизнес-стратегии организации - вот что отличает эту современную эпоху от предыдущих и позволяет предприятиям использовать данные в реальном времени и в перспективных целях, а не просто анализировать прошлое.

Информация от 50 корпоративных ИТ-директоров и технических директоров - как крупные покупатели подходят к Data 3.0?

Несмотря на ажиотаж вокруг Data 3.0 и «современного стека данных» среди венчурных капиталистов, работающих с ранними и масштабируемыми стартапами, главный вопрос: как покупатели технологий видят ситуацию и меняют парадигмы? Чтобы ответить на этот вопрос, STEADFAST опросил 50 корпоративных ИТ-директоров и технических директоров крупных компаний (выручка более 100 миллионов долларов) из различных вертикалей. Ключевые вопросы касались того, насколько быстро (если вообще) покупатели переводят свои расходы на стек данных в пользу поставщиков Data 3.0, с какими ключевыми проблемами они сталкиваются во время этого перехода и какие категории были для них особенно интересны. Вот некоторые из появившихся интересных тенденций:

Инфраструктура данных и машинное обучение все больше занимают долю ИТ-бюджетов → Хотя в 2018 году на инфраструктуру данных и машинное обучение было выделено только 13% ИТ-бюджета организации, сегодня эта цифра почти удвоилась до 24% и составляет ожидается, что к 2024 году они вырастут до 35%. Учитывая, что глобальные расходы на ИТ составляют ~ 4 трлн долларов, сдвиг в сторону ИИ и машинного обучения на 11% означает, что в следующие несколько лет на инфраструктуру данных будет потрачено ДОПОЛНИТЕЛЬНЫЕ 400 млрд долларов, что дает понять имеется значительный бюджет для приобретения лучших инструментов.

Расходы на данные смещаются от традиционных инструментов (бизнес-аналитика, основные базы данных) к ML / AI / Data Science и ML Ops → Хотя транзакционные и аналитические базы данных по-прежнему являются крупнейшей категорией расходов, появляются новые варианты использования для науки о данных , Ожидается, что AI и ML увеличат долю кошелька, поскольку ценность данных продолжает приближаться к вариантам использования по сравнению с чистым хранилищем. Согласно прогнозам крупных покупателей, ML Ops, категория, которая едва существовала 5+ лет назад, к 2024 году будет составлять почти десятую часть всех расходов на данные, а с 2018 года ожидается, что доля кошельков удвоится.

Покупатели вкладывают средства в Data 3.0 для получения дохода, а не только для снижения затрат → Две главные причины, по которым покупатели вкладывают средства в инструменты Data 3.0, - это расширение возможностей продукта и получение большей прибыли. Другими словами, Data 3.0 позиционируется как стратегический источник дохода, а не просто центр затрат, как большая часть традиционных ИТ-стеков в предыдущие эпохи. Это один из самых сильных индикаторов того, что данные превратились из инструмента отчетности (Data 2.0) для функций G&A в стратегический актив (Data 3.0), где они стали инструментом почти для всех отделов предприятия.

Клиенты все меньше полагаются на самостоятельные решения и решения с открытым исходным кодом → В 2018 году 43% стека данных было построено с использованием внутренних ресурсов разработчика или открытого исходного кода. Сегодня эта цифра упала до 29% и, как ожидается, снизится до 25%, а это означает, что к 2024 году 75% пакета стратегических данных, как ожидается, будет закуплено через внешних поставщиков. Один из выводов состоит в том, что клиенты все чаще пытаются управлять (или централизовать) хаос, связанный с управлением сотнями проектов с открытым исходным кодом, а индивидуальные собственные решения оказались более дорогостоящими в управлении в долгосрочной перспективе. Поставщики, которые могут предоставить более полностью сформированные, готовые решения или более простые в использовании облачные сервисы, связанные с технологиями с открытым исходным кодом. (MongoDB Atlas, Elastic Cloud, Confluent Cloud, Databricks) лучше расположены и могут обеспечить более быстрое окупаемость дорогостоящих проектов Data 3.0.

Хотя они представляют собой лишь некоторые из интересных выводов корпоративных ИТ-директоров / технических директоров, они помогают нам ориентироваться в отношении некоторых драйверов макросов Data 3.0, присутствующих сегодня на рынке.

Следующим вопросом становится «и что»? Учитывая эти тенденции, как стартапы и компании, находящиеся на стадии роста, ориентируются в текущем ландшафте?

Что все это значит для стартапов?

Хорошая новость для стартапов, создающих инструменты Data 3.0, заключается в том, что у покупателей существует реальный бюджетный аппетит (не говоря уже о вложении большого количества венчурных долларов) по категориям и подкатегориям. Основываясь на наших наблюдениях на рынке, а также на инвестициях в несколько компаний в этой сфере, мы хотели предложить несколько рекомендаций:

Определите подходящего покупателя → Как отмечалось выше, почти каждая дальновидная организация активно нанимает специалистов по данным и / или добавляет новые возможности, такие как инженерия данных. Это расширяет возможности продавцов Data 3.0 продавать их предприятиям, но в то же время увеличивает сложность продаж для внутренних компаний. Найдите время, чтобы понять, кем должен быть конечный пользователь вашего продукта и где путь внедрения может быть наиболее эффективным. Например, наш опрос показал, что платформы Data Science / ML (такие как Databricks или Dataiku) и инструменты Ingestion + Transformation (такие как Fivetran или Airbyte), как правило, приобретаются командой центральной ИТ / платформы данных, в то время как инфраструктура AI и машинного обучения и вертикальные информационные продукты (такие как Hugging Face или Scale) часто приобретаются непосредственно отделом бизнеса / командой разработчиков. Определение правильного покупателя в организации на раннем этапе и облегчение их жизни будет ключом к успеху продавца.
Положение в качестве источника дохода, а не средства для экономии → Исторически большинство ИТ-инструментов позиционировалось как средство снижения затрат или повышения эффективности, например, более дешевое хранилище или инструменты бизнес-аналитики, которые могли сократить количество сотрудников и сократить ручные процессы. Мы обнаружили, что покупатели все чаще рассматривают продукты Data 3.0 как стратегические способы улучшить свои существующие продукты, ускорить рабочие процессы и, в конечном итоге, увеличить ТОП, а не только чистую прибыль. Например, один ИТ-директор указал на то, что внедрение Fivetran предоставило им гораздо больше разнообразных источников данных, которые в конечном итоге помогли сохранить и расширить их собственных конечных клиентов. Стартапы, позиционирующие себя как источники доходов, а не просто центры затрат, будут сталкиваться с меньшим сопротивлением внедрению и могут распоряжаться более крупными бюджетами в долгосрочной перспективе. В этом совете подразумевается, что проекты AI / ML достигают успешных результатов, что исторически было сложной задачей (80% + проектов с большими данными терпят неудачу согласно Gartner), и поэтому важно, чтобы позиция поставщиков предлагала такую, чтобы данные сохраняет статус нового масла, а не змеиного масла.
Управляемые решения могут облегчить жизнь → Хотя за последнее десятилетие мы наблюдаем взрывной рост проектов и компаний с открытым исходным кодом, организации все чаще видят сложность управления этими проектами и определения того, как надежно поддерживать эти инструменты. в долгосрочной перспективе. Это означает, что они все больше обращаются к сторонним поставщикам и управляемым облачным решениям, таким как MongoDB Atlas (управляемая облачная база данных), Databricks, Elastic Cloud или Confluent Cloud (управляемый Apache Kafka). Для стартапов, создающих корпоративные решения на основе инструментов с открытым исходным кодом, возможность предложить полностью управляемое решение (облачный сервис) на более раннем этапе пути к продукту может значительно упростить принятие решения о покупке (и, следовательно, GTM) и является одним из немногих способов доставки ценность вокруг проектов OSS. Многие инвесторы будут давать компаниям общие советы, предполагая, что управляемые услуги, связанные с проектами OSS, являются ключом к замку успеха стартапа. Это правильное направление, но также сложная тема: облачные предложения должны быть ключевым моментом, но часто являются необходимым, но недостаточным условием для долгосрочного здоровья компаний Data 3.0. По мере того, как компании разрабатывают стратегии на соответствующих рынках, важно использовать эту линзу для оценки того, когда / где / как / почему подходит для предложения управляемых услуг.

Основные моменты

С этой целью мы хотели поделиться некоторыми ключевыми соображениями, которые мы используем в STEADFAST при оценке предприятий в среде Data 3.0. Важно не просто рассматривать эти критерии в вакууме; во многих случаях качество бизнеса или рыночные возможности могут зависеть от компании, и то, что работает для одних, может не подходить для других. Например: рост на основе продукта (PLG) имеет гораздо больше смысла для одних стартапов, чем для других, стратегия лицензирования с открытым исходным кодом может зависеть от рынка и принятия, движение земли / расширения может отличаться в зависимости от покупателя / рынка и т. Д.

Сводка в горизонтальной ориентации

Как инвесторы, мы стремимся классифицировать и структурировать рынок и поэтому делимся нашей обязательной картой рынка ниже. На самом деле, в ландшафте гораздо больше нюансов, совпадений и сложности, поэтому думайте о нижеследующем как о отправной точке для Data 3.0:

Что мы видим в нашем портфолио

В STEADFAST мы активно инвестируем в Data 3.0 и вокруг него. Мы инвестировали в Primer.ai, компанию, занимающуюся прикладной обработкой естественного языка (NLP), которая предлагает сверхмощные варианты использования критически важных данных. Клиенты используют Primer для просеивания больших объемов документов и контента с целью извлечения информации, распознавания + сопоставления объектов, выполнения анализа и получения полезной информации. STEADFAST также инвестировал в Cohesity, мультиоблачную платформу для управления данными как услуги. Крупные предприятия используют Cohesity для обеспечения безопасности, управления и резервного копирования своих данных в любом масштабе, что в конечном итоге сокращает разрозненные и фрагментированные подходы к операциям с данными для некоторых из крупнейших компаний в мире.

И Cohesity, и Primer в значительной степени воплощают нисходящие корпоративные модели внедрения GTM, но мы также наблюдаем и другую, восходящую сторону уравнения через наши инвестиции в Zapier. Магия интеграции Zapier позволяет практически любому бизнес-аналитику синхронизировать данные и действия в тысячах приложений с помощью нескольких щелчков мышью. Это позволило создать органическую модель, которая может быстро вырасти от одного пользователя, платящего кредитной картой, до гораздо более широкого варианта использования для команд и предприятий.

Наконец, мы видим, что компании в нашем портфеле используют встроенные возможности AI / ML в качестве дифференцированной функции продукта. Например, Algolia использует алгоритмы машинного обучения, чтобы упростить поиск и обнаружение как услугу для своих клиентов, Outreach использует ИИ как часть своих продуктов Kaia (коучинг) и Insights, чтобы упростить работу отделов продаж. более производительные и разработанные Tempo фитнес-тренеры с искусственным интеллектом и машинным обучением для обеспечения персонализированной обратной связи в режиме реального времени во время тренировок.

Мы воодушевлены тем, что видит и делает наше портфолио в этой сфере, и будем продолжать активно инвестировать в эти темы.

Заключение

Нам повезло, что мы живем в золотой век продуктов для обработки данных следующего поколения, когда имеется много средств, а крупные компании делают данные центральным элементом своей общей бизнес-стратегии. Независимо от публичных компаний, на приведенной выше диаграмме рынка уже присутствует более 20 единорогов, и мы ожидаем, что в ближайшие годы их будет намного больше. Если вы строите или масштабируете компанию в этом пространстве, давайте поговорим!

Что такое данные 3.0?

Что такое данные 3.0?

Вопросы по теме