Это сообщение было скопировано из блога Amplify Partner, где я изначально написал и опубликовал его: https://www.amplifypartners.com/blog-posts/our-investment-in-postgresml

Сложность инфраструктуры машинного обучения

Сегодня больше, чем когда-либо, все хотят создавать приложения на основе ИИ. Однако в беседах с разработчиками и специалистами по обработке данных мы постоянно слышим одно и то же об инфраструктуре ИИ — это сложно. Настройка рабочих процессов машинного обучения (которые могут включать подготовку данных, обучение, тонкую настройку и вывод) создает массу накладных расходов для команд. Многие компании решают эту проблему, нанимая опытных инженеров машинного обучения для создания пользовательской инфраструктуры, такой как хранилища функций, хранилища моделей и уровни логического вывода. Даже в этом случае компании вынуждены нести бремя обслуживания этих решений, которые со временем становятся все более сложными (и индивидуальными). Вот некоторые из самых больших проблем, которые мы слышали от разработчиков, когда дело доходит до управления инфраструктурой ИИ:

  1. Развертывание и масштабирование. Развертывание моделей машинного обучения в рабочей среде — это масштабная проблема координации, требующая сотрудничества между специалистами по данным, инженерами по машинному обучению и разработчиками программного обеспечения (плюс интеграция с другими системами — см. № 2). ). Обеспечение того, чтобы модель работала эффективно в производственной среде и могла обрабатывать огромные объемы данных и пользовательские запросы, нетривиальна, особенно когда пользователи ожидают задержки прогнозирования менее секунды.
  2. Интеграция с платформой. После того, как команды настроили свою платформу для обучения и развертывания моделей, следующей задачей является подключение этой платформы к системам данных в реальном времени, таким как базы данных и механизмы потоковой обработки, для обеспечения работы своих приложений. Для онлайн-прогнозов еще более важно, чтобы модели имели своевременный и свежий доступ к данным.
  3. Обслуживание и обновление моделей. Модели машинного обучения могут быстро устареть по мере изменения базовых данных и бизнес-логики. Обновление данных обучения и моделей переобучения очень важно, но это может быть очень сложно сделать, особенно в быстро меняющихся условиях. В идеале этот рабочий процесс должен быть тривиальным — модели должны автоматически обновляться и учиться на реальных данных (чтобы быть действительно «онлайн»).

Многие компании, с которыми мы говорили, не считают себя обладателями «причудливых рабочих нагрузок машинного обучения». Вместо этого у них часто есть одна база данных SQL (обычно Postgres). Для этих людей машинное обучение может стать желанным пунктом дорожной карты. В то время как недавний всплеск API-интерфейсов LLM делает ИИ более доступным для разработчиков без классического обучения ML, большинство API-интерфейсов LLM не очень хорошо вписываются в существующие рабочие процессы разработчиков и технические стеки, особенно для онлайн-обучения.

Что, если бы вы могли переносить задачи ИИ непосредственно в базу данных и максимально упростить развертывание приложений ИИ с единой платформы?

PostgresML: перенос кода ML в ваши данные (база)

В прошлом году мы познакомились с командой опытных инженеров по машинному обучению и инфраструктуре, решающих именно эту задачу. Монтана Лоу и Лев Кокотов являются создателями и основателями PostgresML, расширения с открытым исходным кодом для Postgres, написанного на Rust, которое позволяет разработчикам легко обучать и развертывать модели ML с помощью SQL. Пара познакомилась во время работы в Instacart, где они работали в командах машинного обучения и платформы соответственно в один из самых высоких периодов роста в Instacart.

PostgresML находится в авангарде тенденции, когда широко распространенные инструменты и базы данных разработчиков адаптируются и расширяются в мире, ориентированном на ИИ. PostgresML позволяет разработчикам быстро создавать прототипы и развертывать приложения ИИ с помощью своей сквозной платформы на Postgres, перенося общие задачи ИИ непосредственно в базу данных.

‍Некоторые из наиболее интересных особенностей их текущей платформы:

  • Современные LLM: PostgresML интегрирует преобразователи обнимающих лиц, чтобы перенести ваши любимые модели на уровень данных. Доступны десятки тысяч предварительно обученных моделей (например, GPT-4, LLaMA, FLAN UL2, BLOOM), которые можно напрямую подключать к вашим данным и быстро генерировать вложения.
  • Векторные операции: PostgresML поддерживает оптимизированные векторные операции, которые можно использовать внутри SQL-запросов. Другими словами, вы можете использовать всю выразительную мощь SQL для объединения семантического, геопространственного и полнотекстового поиска. Вместо отправки всего вектора обратно во внешнее приложение, PostgresML включает все алгоритмы для внутреннего вычисления результатов (см. пример).
  • Веб-интерфейс: PostgresML поставляется с приложением панели мониторинга (см. выше), чтобы обеспечить видимость моделей и наборов данных в вашей базе данных. Это позволяет пользователям получить обзор системы для более легкого управления своими моделями и проектами. Веб-интерфейс является необязательным, а расширение PostgresML по-прежнему можно использовать независимо.

Позволяя компаниям запускать модели ML непосредственно в базе данных Postgres (и перенося «код в данные»), PostgresML устраняет необходимость в отдельном хранилище функций и снижает накладные расходы на управление данными, связанные с обучением и развертыванием моделей ML. Это очень важно, особенно для небольших компаний, которые рассматривают машинное обучение как огороженный сад.

Наши инвестиции

В ходе нашей комплексной проверки мы поговорили с многочисленными разработчиками, которые выразили свое восхищение потенциалом PostgresML для решения их болевых точек в разработке машинного обучения. Эта обратная связь нашла отклик в нашем собственном опыте, поскольку мы воочию убедились, как сложность инфраструктуры машинного обучения может препятствовать внедрению приложений на основе ИИ. Вот что нас больше всего волнует в PostgresML:

  • PostgresML упрощает и ускоряет обучение и развертывание моделей машинного обучения. PostgresML снижает порог входа для малых и средних команд, позволяя обучать и развертывать модели машинного обучения прямо там, где хранятся их данные. есть (в их базе данных). У многих компаний нет ни времени, ни ресурсов для создания индивидуальной инфраструктуры машинного обучения, а также у них пока нет стратегии хранилища данных.
  • За приложениями на основе ИИ будущее (теперь вы можете идти в ногу со временем). Инженеры должны иметь возможность поставлять функции, основанные на машинном обучении, независимо от того, может ли их компания нанять полные группы специалистов по обработке и анализу данных. Мы представляем себе среду, в которой инженеры смогут использовать PostgresML для создания прототипов комплексных приложений с более простыми моделями. Эта корректировка может значительно ускорить цикл разработки машинного обучения.
  • Postgres пожирает мир (и ваши данные). Postgres — один из самых любимых инструментов разработчиков на планете. Таким образом, люди часто первыми начинают работать с базами данных для запуска своих производственных приложений. Приближение машинного обучения к месту, где компании уже хранят свои данные (например, к Postgres), упрощает начало работы.

Сегодня мы рады объявить о наших ведущих инвестициях в начальный раунд PostgresML на сумму 4,7 млн ​​долларов, чтобы сделать машинное обучение более доступным в эпоху приложений, управляемых искусственным интеллектом. Добро пожаловать в семью Amplify!

Первоначально опубликовано на https://www.amplifypartners.com 10 мая 2023 г.