В этом выпуске подкаста RadioData Адам Кава беседует с Михалом Врубелем о бизнес-примерах использования в RenoFi (американская финтех-компания), Modern Data Platform поверх Google Cloud Platform и передовых моделях машинного обучения/ИИ. . Также мы узнаем, в чем специфика стартап-проектов.

Ведущий: Адам Кава, GetInData | Часть генерального директора Xebia

С 2010 года Адам работает с большими данными в Spotify (где он с гордостью управлял одним из крупнейших и быстрорастущих кластеров Hadoop в Европе), Truecaller и в качестве партнера по обучению Cloudera. Девять лет назад он стал соучредителем GetInData | Часть Xebia — компании, которая помогает своим клиентам стать управляемыми данными и создает индивидуальные решения для больших данных. Адам также является создателем многих инициатив сообщества, таких как подкаст RadioData, встречи с большими данными и информационный бюллетень DATA Pill.

Гость: Михал Врубель, ведущий инженер-программист

Михал работает инженером данных с 2015 года. У Михала большой опыт работы с AWS, инженерной аналитикой, AI/ML и сквозными проектами. В RenoFi Михал отвечал за предоставление нескольких информационных продуктов и управление платформой данных RenoFi. Сейчас Михал работает в компании Embedded Insurance в качестве ведущего инженера-программиста.

Пример использования RenoFi

RenoFi — это платформа, которая помогает людям, которые пытаются отремонтировать свою недвижимость, занимать больше денег с минимально возможным ежемесячным погашением. Что отличает RenoFi? Обычно, когда такие учреждения, как банки, предоставляют кредиты, они используют текущую стоимость имущества, не принимая во внимание стоимость после ремонта. RenoFi пытается рассчитать стоимость недвижимости после ремонта, что существенно влияет на условия кредита.

Ключевые цитаты

  1. дбт

«Я думаю, что dbt вызвал самые большие изменения в моей работе с данными, потому что он упростил многие вещи для очень многих людей. Это было революционно. Я помню времена, когда у нас были пользовательские SQL-скрипты, и когда мы запускали их по расписанию в Airflow, нужно было выполнять их по порядку. У вас либо был один большой файл, тысячи строк — просто последовательный SQL. Теперь с dbt у вас есть все зависимости, все документы в одном месте».

«Раньше вам приходилось писать свои собственные скрипты, сохранять состояние. Hightouch делает это за вас, вы просто подключаетесь, говорите, что такое источник данных, каков ваш пункт назначения, и hightouch обработает, что изменилось в источнике и как оно изменилось в месте назначения. Если бы он не менялся по месту назначения, я бы даже не нажимал и не обновлял его. Итак, у него хорошие уведомления, его действительно легко интегрировать с dbt и любым графиком данных ».

  1. Данные

«Существует распространенная проблема с искажением прогноза при обучении, когда вы можете обучать свою модель на данных, которые у вас есть в хранилище.

Но когда вы пытаетесь предсказать, клиент этой модели может отправить одну функцию, которая находится в другой форме / формате, чем ожидает модель.

Это может быть верхний регистр, нижний регистр, не нормализованный и т. д. Это также может быть другим, потому что в DBT вы преобразовали его из необработанной формы, и специалист по данным не знал об этом.

Так что это одна вещь, которую вы должны помнить. Распространенным решением для этого является хранилище функций, которое значительно усложняет систему, потому что вам нужно, чтобы кто-то разрабатывал решение и поддерживал его, и вам нужно изменить свой опыт».

Магазин функций может стать решением нескольких проблем с машинным обучением. В этой электронной книге вы узнаете, что это за проблемы и как хорошо спроектированное хранилище функций может их решить. Вместе с пошаговым руководством:

СКАЧАТЬ БЕСПЛАТНО ЭЛЕКТРОННУЮ КНИГУ

  1. Стартапы и бизнес

«В стартапах вы обычно не начинаете с команд данных. Вам нужно иметь продукт, а затем разработать его, попытаться улучшить, найти рынок, а затем, когда стартап окажется успешным, возможно, создать команду по работе с данными. В RenoFi все было немного по-другому, потому что наш технический директор с первого дня имел опыт работы с данными и принимал действительно правильные решения. В RenoFi команда по работе с данными довольно маленькая, но мы начали с самого начала довольно рано».

«В стартапах все меняется быстрее, чем в других компаниях, поэтому в стартапах главное — перемены».

«Стартапы могут делать больше с меньшими затратами, и под меньшими усилиями я подразумеваю меньшее количество людей. И да, иногда вам не нужно искать новое блестящее решение, такое как ML, вы можете просто использовать эвристику, которая должна быть достаточно хорошей и обеспечивать адекватные бизнес-результаты для компании, потому что стоимость надлежащего решения ML действительно высок».

«Существует множество облачных сервисов и внешних облачных сервисов, которые мы также используем. Так что почти у каждого стартапа, я бы сказал, есть внутренние базы данных и внешние облачные сервисы, с точки зрения бизнеса и с точки зрения генерального директора, управленческая команда — хотели бы иметь все эти данные в одном месте. Поэтому очевидно, что в наши дни у вас разные названия, будь то хранилище, озеро данных или хранилище данных. Как бы то ни было, это большая база данных, содержащая все ваши данные».

«Поэтому наличие всех решений в небольших командах означает огромные затраты. И даже не говорите нам о затратах на техническое обслуживание! Так что можно настроить и все в порядке. Это легче. Но тогда вам нужно обновить его. Вы должны убедиться, что оно того стоит. Вам нужно настроить мониторинг. Я бы не сказал, что это выполнимо для небольшой команды, кроме того, если вы хотите, чтобы она работала на хорошем уровне, вам придется нанять кого-то, у кого нет жизни вне работы».

«К счастью, создание решений в реальном времени или мощных моделей машинного обучения/ИИ стало проще и дешевле благодаря новым технологиям и новым инструментам. Так что вполне вероятно, что через несколько лет их можно будет использовать по умолчанию, потому что дополнительные затраты и усилия по их созданию будут относительно небольшими».

"Хорошая рекомендация — не создавать с нуля, если у вас нет собственного опыта, а нанять кого-нибудь хотя бы на несколько месяцев, чтобы настроить его и предоставить вам передовые методы, которые в настоящее время на рынке. Возможно, у вас все еще будет кто-то доступный отсюда, а затем, когда это потребуется, внутри компании, поэтому вам следует сосредоточиться на инженерах-аналитиках. И под инженерами-аналитиками я подразумеваю людей, которые работают с dbt и знают достаточно, чтобы иметь возможность кодировать, которые могут эффективно работать в рамках стандартных методов программирования и тестов. Поэтому RenoFi просто великолепен».

«Таким образом, речь идет о очень прагматичном подходе и сосредоточении внимания в первую очередь на наиболее важных функциях, потому что они обычно приносят наибольшую ценность. Однако есть компании, которые должны разрабатывать онлайн-решения для машинного обучения в реальном времени с первого дня, чтобы просто существовать, потому что их основная бизнес-модель требует от них этого. Одним из примеров является Free Now, мультимобильная компания, или Uber, или Bolt, или подобное приложение. Им необходимо динамически рассчитывать цену поездки в режиме реального времени, основываясь на фактическом спросе и предложении, а это постоянно меняется. Им также необходимо предсказать предполагаемое время прибытия водителя. То же самое касается предполагаемой продолжительности вашей поездки, чтобы вы знали, когда доберетесь до места назначения и так далее. Если приложения сделают это хорошо, они получат водителей, клиентов и заработают деньги. Но если они сделают это плохо, то просто потеряют деньги. Поэтому в их случае машинное обучение в режиме реального времени является обязательным решением, в которое необходимо постоянно инвестировать и улучшать, особенно в масштабе».

"Обычно, если у вас есть поставщики, такие как dbt Labs или Google Cloud Platform, то в случае успеха они имеют очень большое влияние на свои решения, потому что у них могут быть сотни или даже тысячи компаний-пользователей. Таким образом, это рентабельно и имеет смысл инвестировать в свои решения благодаря этой экономии за счет масштаба. Таким образом, они могут продолжать улучшать их, добавляя новые функции, особенно те, которые вы не сможете реализовать самостоятельно, поскольку иногда было бы просто слишком дорого разрабатывать какую-то индивидуальную или большую функцию только для себя, потому что у вас не будет этой экономии за счет масштаба и такого же рычага воздействия, как у них».

Ссылки:

плейлист dbt Coalesce 2022

Это всего лишь фрагменты всего разговора, который вы можете прослушать здесь.

Подпишитесь на подкаст Radio Data, чтобы быть в курсе последних технологических тенденций и узнавать о самых интересных вариантах использования данных!

Автор:

Сильвия Колпуч — специалист по маркетингу

Первоначально опубликовано на https://getindata.com.