Нравится ли вам минимизировать функции? Да!

MABEL: MAкитайский Bзаработок EL.

Мэйбл также оказалась симпатичным мультяшным персонажем из сериала «Гравити Фолз», который мне нравится. Кто пришел первым? Выскажите свое предположение во время интервью :-)

Lepaya изменила глобальный ландшафт обучения и развития с помощью эффективной методологии обучения, основанной на данных. Но теперь наступает следующий этап: автоматическая обратная связь по сценариям из реальной жизни, например обратная связь или презентации.

Команда MABEL AI Squad в Lepaya разрабатывает алгоритмы машинного обучения для мультимодальных данных, таких как видео, аудио и текст, чтобы помочь пользователям улучшить свои навыки общения в реальных сценариях. Как руководитель отдела искусственного интеллекта @ Lepaya я возглавляю команду инженеров-программистов и специалистов по данным (одним из них может быть и вы), которые собирают видео, генерируют наборы данных, направляют аннотации, создают модели машинного обучения и внедряют их в производство. Мы очень тесно сотрудничаем с другими отрядами. Один из них создает приложение Lepaya Flutter, в котором собираются видео. Другие отряды создают внутренние инструменты и интеграции (например, в Microsoft Teams).

Перед занятием в классе с тренером мы даем пользователям возможность попрактиковаться в безопасной среде ИИ. Пользователи загружают тренировочные видеоролики в приложение Lepaya, например, свою следующую публичную презентацию. Наша система ИИ анализирует видео и извлекает ключевые показатели любой речи/разговора: жесты, мимику, зрительный контакт, голос, выбор слов и т. д. Затем она оценивает их и дает пользователю обратную связь о том, как все прошло и как. улучшить.

Как мы делаем это?

Наш конвейер MABEL одновременно запускает множество моделей машинного обучения, поэтому нам нужен надежный процесс для сбора данных и разработки моделей.

  1. Загрузка видео. Прежде всего, мы собираем видео внутри компании или через наше приложение. Наше приложение разработано в Flutter и управляется другими командами.
  2. Анализ. Затем мы запускаем видео через наш API MABEL, который анализирует видео, звук и текст. Мы используем python и poetry в docker в Sagemaker на AWS и, конечно же, все библиотеки мл, которые вы знаете и любите. Вспомните numpy, pandas, tensorflow, pytorch, sklearn и другие.
  3. Сборка наборов данных. Из всех красивых входных данных мы создаем наборы данных. Мы используем luigi, чтобы отслеживать все преобразования и делать их воспроизводимыми.
  4. Аннотации. Модели машинного обучения нуждаются в аннотациях, и их много. Мы используем labelstudio для аннотирования наших наборов данных. Например. слова-паразиты, жесты, выражение лица и общие оценки того, насколько хорошо вы выступили в своей презентации.
  5. Разработка моделей машинного обучения. Самая захватывающая часть. С помощью этих великолепных аннотированных наборов данных мы разрабатываем модели машинного обучения. Некоторыми из них являются аудиомодели (wav2vec, обнаружение слов-заполнителей), видеомодели (определение ключевых точек человека, классификация эмоций) и обычные модели (для выставления рейтинга). Мы разрабатываем на Python и используем такие фреймворки, как mlflow, чтобы отслеживать эксперименты.
  6. Развертывание: самая страшная часть. После некоторых проверок вопросов и ответов мы развертываем обновленный конвейер MABEL с нашими свежими новыми моделями. много модель. очень ИИ. Ух ты.

Пример того, как распознавать жесты и давать оценку

В качестве примера проблемы мы хотим определить, насколько хорошо вы используете жесты в своей презентации. Это то, чем вы будете заниматься в своей повседневной работе.

Нам нужно решить 2 задачи машинного обучения. В качестве входа у нас есть видео.

  1. Обнаружение Observables z как вы думаете, я изучал физику? Наблюдаемые – это числа с плавающей запятой в видео, которые может наблюдать и человек. Например, количество времени, в течение которого правая рука человека была в кармане.
  2. Сопоставьте эти наблюдения с отзывом a.отзыв – это рейтинг от 1 до 5 звезд. Вы не должны держать руку в кармане во время презентации — но вы знали, что я надеюсь?

Вот как мы это делаем:

  1. Мы превращаем входное видео в тензор [x].
  2. Мы используем модель обнаружения ключевых точек e(x) →[y], которая извлекает необработанные функции [ г]. Например, координаты (x,y) рук на всех изображениях в видео.
  3. Мы используем функции разработки признаков f (y) → [z], чтобы преобразовать эти необработанные признаки [ y] в наблюдаемые [z]. Чтобы убедиться, что мы делаем это правильно, мы используем аннотированный набор данных.
  4. Затем мы создаем сопоставление g(z)-›[a] из этих наблюдаемых [z] в 5-звездочный рейтинг a. Мы также используем аннотированный набор данных, чтобы убедиться, что мы следуем человеческому рейтингу.

Таким образом, все, что нам нужно сделать, это минимизировать (g·f·e(x)-a)ˆ2→ 0

Любите ли вы минимизировать функции так же, как и мы?

Мы используем Scrum, чтобы организовать себя, и мы верим в соблюдение графика разработчиков для разработчиков. Если вам нравится работать с мультимодальными данными над открытой проблемой, оказывающей реальное влияние на людей, мы — то, что вам нужно.

Если это вас не убедило, мы также хотели бы поделиться фактами о животных в конце некоторых наших стендапов. Знаете ли вы, что Пьяные рыбки данио убеждают трезвых следовать за ними?

Если ответ на приведенный выше вопрос утвердительный, подайте заявку в Lepaya прямо сейчас и помогите нам найти наилучшие значения g, f и e для мультимодельных видео-, аудио- и текстовых данных.