Возможность повышения качества данных на сумму 3 триллиона долларов и наши инвестиции в Validio

Соавтор Оливер Моландер.

После 2,5 лет незаметного создания платформы J12 заключила партнерство со шведской компанией по валидации данных Validio, возглавив начальный раунд на 1,5 млн долларов вместе с DHS Venture Partners. (Статья, шведский)

Наше решение во многом основывалось на:

  1. Возможность и время
  2. Команда и исполнение
  3. Совместимость с J12

И мы решили поделиться здесь некоторыми своими размышлениями:

1.1) Возможность

  • Данные поедают мир - Марк Андриссен в 2011 году, как известно, придумал, что программное обеспечение пожирает мир. Однако данные стали самым ценным активом этого нового мира. Большие и малые компании инвестируют рекордные объемы в сбор, классификацию, потоковую передачу, интеграцию, анализ и обработку данных. И эта тенденция только усиливается. Многие помнят, как в 2010 году люди говорили об огромных масштабах больших данных. Теперь это кажется странным. К 2025 году наша сфера данных будет на два порядка больше, чем в 2010 году. Ожидается, что масштаб глобальной сферы данных (глобальные данные, хранящиеся во всех форматах) в 2025 году вырастет в четыре раза по сравнению с 2019 годом, увеличившись с 45 зеттабайт до 175. зеттабайты. Проще говоря: с 2019 по 2025 год будет создано почти в 4 раза больше данных, чем за всю историю! Следовательно, неудивительно, что 86% предприятий планируют увеличить свои инвестиции в операции с данными в ближайшие 12 месяцев и что роль инженера по обработке данных является самой быстрорастущей ролью в технологиях прямо сейчас. Управление экспоненциальным ростом данных и присущей им сложностью не может быть решено исключительно с помощью линейных методов (то есть людей), нам нужно интеллектуальное программное обеспечение для помощи на разных этапах жизненного цикла данных.

  • Верна старая добрая пословица о машинном обучении: дерьмо, дерьмо. Низкое качество данных стоит компаниям ОЧЕНЬ много. По Гарварду только для американских компаний 3 000 000 000 000 долларов в год. Низкое качество данных может быть вызвано различными проблемами, такими как слияние систем, внешние потоки данных, человеческая ошибка и т. Д. - их исправление, естественно, является ключевым моментом. В мире, где данные редко бывают идеальными, необходимо постоянно их проверять. Вот где вам подходит Validio. Компании, управляющие данными, должны действовать проактивно, а не реагировать, когда входные данные меняются и портят, например, модели машинного обучения в производстве. Большие и маленькие компании понимают, что модели никогда не были их интеллектуальной собственностью, это их данные. В Опросе O'Reilly 2019 года было показано, как те, кто обладает зрелыми практиками машинного обучения (если судить по тому, как долго у них работают модели), назвали недостаток данных или проблемы с качеством данных в качестве основной проблемы, мешающей им продолжить работу. внедрение машинного обучения.

«Специалисты по обработке данных и инженеры по обработке данных, белые воротнички и сантехники?» - для многих компаний привлечение и удержание специалистов по обработке данных и инженеров по обработке данных является чрезвычайно дорогостоящим. Тем не менее, многие специалисты по обработке и анализу данных и инженеры по обработке данных в конечном итоге тратят до 80% своего времени на выяснение и исправление неверных данных - задача, которая редко доставляет удовольствие и приводит к разочарованию, выходящему за рамки огромных финансовых затрат для компании. Мы полагаем, что существует значительная готовность платить за любую услугу, уменьшающую эту болевую точку. Мы поняли, что проверка данных вручную требует значительных дополнительных усилий и времени от другой критически важной для бизнеса и, откровенно говоря, более приятной работы. Инженеры по обработке данных несут ответственность за то, чтобы данные были достоверными и предоставлялись с ожидаемым качеством. Как это ни парадоксально, глядя на то, насколько важна эта роль, мы заметили, насколько многие плохо подготовлены для выполнения этой необходимой работы. Автоматизация проверки данных и мониторинга качества с помощью программного обеспечения снизит нагрузку на команды специалистов по анализу данных, позволяя им сосредоточиться на более добавочной (и приятной) работе.

Основатели Validio одержимы идеей создания лучшего в мире программного обеспечения для проверки и контроля качества данных.

1.2) Время

  • Рост современного стека инфраструктуры данных - Многие из самых быстрорастущих сегодня стартапов B2B SaaS имеют данные в своей основе. Например. Snowflake использовала рост мультиоблачной экосистемы для упрощения доступа к хранилищу данных и бизнес-аналитике. Databricks позволяет крупным предприятиям эффективно выполнять пакетные запросы к большим объемам данных. Confluent, который, по словам партнера Sequoia Мэтта Миллера, является самой быстрорастущей компанией, выпускающей корпоративные подписки, которую когда-либо видела Sequoia, объединил данные на предприятии и создал возможность действовать на их основе в режиме реального времени . Концепция современного стека инфраструктуры данных разрабатывалась много лет; он начал появляться еще в 2012 году, когда был запущен Amazon Redshift. Однако, особенно в течение 2019 и 2020 годов, популярность облачных хранилищ резко возросла благодаря IPO Snowflake с блокировкой блоков, поэтому вокруг них появилась целая экосистема инструментов и компаний, переходящих от передовых к мейнстримовым. Validio имеет все возможности, чтобы извлечь выгоду из этой сильной вековой тенденции и определить категорию проверки данных и контроля качества, которая все еще находится в стадии разработки.

  • «Машинное обучение наконец вырывается из пузыря шумихи». В течение многих лет обычные компании (а не Google, Amazon, Uber или Facebook в мире) изо всех сил пытались применить машинное обучение или глубокое обучение в оперативном режиме из-за различных организационных причин и причин, связанных с инфраструктурой данных. Однако за последние несколько лет мы увидели, как именно машинное обучение, наконец, вырывается из лаборатории PoC и превращается в критически важные приложения для многих компаний. Эти компании обычно несколько лет назад начинали путь, который начался с инфраструктуры больших данных, которая постепенно развивалась, включая науку о данных и машинное обучение. Эти компании сейчас находятся на этапе развертывания машинного обучения, достигая уровня зрелости, когда машинное обучение развертывается в производственной среде.

Впоследствии мы узнали от различных лидеров рынка, что необходимость и готовность инвестировать в повышение качества данных значительно выросли за последние 18 месяцев, поскольку это относительно новая тема для высшего руководства.

  • Следовательно, мы считаем, что Validio выходит на рынок в идеальное время, поскольку данные являются самым важным компонентом в современном жизненном цикле машинного обучения. Программное обеспечение для проверки данных и мониторинга качества помогает производителям данных и потребителям понять, есть ли проблемы / аномалии с данными, и исправить их. Это может, например, быть нулями, изменениями схемы, проблемами своевременности или изменениями распределения. Все это влияет на производительность моделей машинного обучения в производственной среде.

  • «Пандемия уничтожила многие модели машинного обучения в производстве, продемонстрировав необходимость непрерывной проверки данных» - начало пандемии продемонстрировало, насколько хрупкими являются, например, Модели машинного обучения, ориентированные на потребителя, могут возникать тогда, когда обстоятельства и поведение человека быстро меняются. Пандемия и внезапное изменение входных данных вызвали сбой в работе алгоритмов машинного обучения, например за кулисами в управлении запасами, обнаружении мошенничества, сегментации клиентов, итерационном тестировании продукта, прогнозировании продаж и спроса, прогнозировании оттока, оптимизации логистики и т. д. Модели машинного обучения, обученные на данных о нормальном поведении человека, обнаружили, что нормальное состояние изменилось, а некоторые перестали работать, поскольку они должен. Модели машинного обучения предназначены для реагирования на изменения. Но большинство из них также хрупкие; они плохо работают, когда входные данные слишком сильно отличаются от данных, на которых они были обучены. То же самое происходит, если инженер машинного обучения тратит время на обучение и обслуживание модели машинного обучения, построенной с использованием неверных данных, неправильная модель машинного обучения будет неэффективной в производственной среде и может иметь отрицательные вторичные последствия для пользовательского опыта и доходов. Как видно на примере пандемии; Модели машинного обучения также могут давать сбой, даже если данные, на которых была обучена модель, в порядке, но входные данные внезапно радикально меняются из-за неожиданных событий, таких как глобальная пандемия. Недавние события еще раз подчеркнули важность проверки данных и ускорили необходимость сосредоточения внимания Validio на реальном времени, что отличает сервис от существующих альтернатив.

Связанный:

  1. 📚 Качество данных - учебник - Астасия Майерс из Redpoint VC
  2. 📚 Пейзаж данных и искусственного интеллекта 2020 года - Мэтт Терк из Firstmark VC
  3. 📚 Качество данных на Airbnb Часть 1 и Часть 2 - Вон Квосс, Джонатан Паркс, Пол Элвуд из Airbnb
  4. 🎧 Тенденции управления данными с точки зрения инвестора - Серия 136 - Подкаст Data Engineering - , в частности с 17:20
  5. 🎧 Великие дебаты о данных - Эпизод 608 - Подкаст a16z

2.1) Команда

  • «Команда с глубоким пониманием отрасли и идейным лидерством в сообществе» - Validio была основана Патриком Траном (генеральный директор), Урбаном Эрикссоном и Эммануэлем Чаппатом.
  • 😎 Патрик Тран имеет степень бакалавра наук. в инженерной физике и M.Sc. Он получил степень магистра в области машинного обучения и докторскую степень Стокгольмской школы экономики (официально с 18 декабря, кстати, поздравляю!). Он является признанным оратором и идейным лидером в сообществе специалистов по науке о данных, активно участвуя в качестве председателя Stockholm AI
  • 👴 Урбан Эрикссон имеет степень магистра наук. в машинном обучении и доктор философии Он получил степень доктора лазерной физики от KTH, где он также является исследователем искусственного интеллекта и на сегодняшний день получил 7 международных патентов на различные алгоритмы. В 2000 году он был частью команды основателей компании по производству оптических компонентов Optillion (привлечено 68 миллионов долларов), а затем главным специалистом по анализу данных в Finisar Corporation (NASDAQ: FNSR).
  • 🤓 Эммануэль Чаппат известен в сообществе специалистов по науке о данных тем, что в одиночку создал платформу глубокого обучения AI fiddle. Ранее он занимал несколько технических должностей соучредителя.
  • «Основатели до сих пор проявляли упорство и амбиции» - наращивание и инвестирование своего времени и ресурсов по высокой альтернативной цене. С самого начала обсуждения команда сформулировала свои амбиции по созданию глобального лидера в категории с необходимыми жертвами на этом пути. Мы считаем, что у них есть для этого фундамент.

2.2) Исполнение (потенциал)

  • «Соответствие продукта рынку - клиенты просят решение». Хотя продукт находится на ранней стадии, и это отражено в пользовательском интерфейсе программного обеспечения, решение произвело впечатление на раннем этапе. -адоптер клиентов, работающих с командой Validio. Между тем, мы наблюдаем растущий аппетит на рынке, поскольку качество данных становится одной из самых центральных тем в области MLOps, которая касается управления жизненным циклом систем машинного обучения в производственной среде.
  • «Соответствие рынку сбыта - здоровый баланс между ценностью для клиента и сложностью решения» - инвестирование в корпоративный SaaS на начальном этапе обычно означает, что компания еще далека от достижения продаж. соответствие рынку, т. е. обнаружение правильных каналов и эффективного метода охвата нужных клиентов по правильной цене (CAC). Проще говоря, повторяемый процесс продаж. Поэтому вместо этого мы смотрели на потенциал дальнейшего развития здоровых продаж. Мы наблюдаем, что для многих фирм проблема проверки данных и качества имеет большое значение (более 1 миллиона евро). В то же время решение Validio не особенно навязчиво и может быть протестировано без длительного принятия решений и процессов закупок со стороны клиента. Это означает, что на практике один заказчик может получить достаточную выгоду относительно сложности и продолжительности процесса принятия решений, что делает Validio успешной частью их современного стека данных.

Связанный:

  1. 🎧 Подкаст a16z: Соответствие ПРОДАЖИ продукта и рынка (что первично?)
  2. 🎬 Распродажа всего! 16 мини-уроков для основателей стартапов

3) подходит для J12

  • «Раннее подтверждение продукта, но его соответствие продажам до выхода продукта на рынок» - мы редко связываемся с компаниями, которые уже во всем разобрались, как указано в разделе 2.2. J12 любит сотрудничать с компаниями на самых ранних стадиях создания компании и, как правило, до того, как достигается соответствие продукта рынку и продажам. Мы не являемся специалистами по продуктам или специалистами в какой-либо вертикали или отрасли в этом отношении, поэтому мы никогда не станем лучше в создании, тестировании и итерациях продуктов, чем предприниматели, с которыми мы сотрудничаем. Но мы хорошо понимаем, что нужно для создания команды на раннем этапе, повторения стратегии продаж и маркетинга, установления цен на ранних этапах и на этапах проверки концепции, перехода от продаж под руководством основателей к продажам и т. Д. типичные вещи, которые вам нужно выяснить на ранней стадии, независимо от того, что вы создаете.
  • Отлично подходит для нашей сети бизнес-ангелов« Венчурные партнеры DHS » - в рамках нашей стратегии мы тесно сотрудничаем с сетью выпускников SSE DHS, в создании и управлении которой участвовал J12. к этой дате. В случае Validio трое из 25 участников инвестировали вместе с J12. Это бывший руководитель BCG Пер Халлиус, SaaS-инвестор и информационный инвестор Фредрик Урстрём, а также предприниматель и бизнес-ангел Маттиас Микше. Двое из них также входят в совет директоров.

Большое спасибо советнику J12 Оливеру Моландеру за его решающий вклад в этот пост, наши размышления и, в конечном итоге, за наше решение сотрудничать с Validio.