Нравится ли вам минимизировать функции? Да!
MABEL: MAкитайский Bзаработок EL.
Мэйбл также оказалась симпатичным мультяшным персонажем из сериала «Гравити Фолз», который мне нравится. Кто пришел первым? Выскажите свое предположение во время интервью :-)
Lepaya изменила глобальный ландшафт обучения и развития с помощью эффективной методологии обучения, основанной на данных. Но теперь наступает следующий этап: автоматическая обратная связь по сценариям из реальной жизни, например обратная связь или презентации.
Команда MABEL AI Squad в Lepaya разрабатывает алгоритмы машинного обучения для мультимодальных данных, таких как видео, аудио и текст, чтобы помочь пользователям улучшить свои навыки общения в реальных сценариях. Как руководитель отдела искусственного интеллекта @ Lepaya я возглавляю команду инженеров-программистов и специалистов по данным (одним из них может быть и вы), которые собирают видео, генерируют наборы данных, направляют аннотации, создают модели машинного обучения и внедряют их в производство. Мы очень тесно сотрудничаем с другими отрядами. Один из них создает приложение Lepaya Flutter, в котором собираются видео. Другие отряды создают внутренние инструменты и интеграции (например, в Microsoft Teams).
Перед занятием в классе с тренером мы даем пользователям возможность попрактиковаться в безопасной среде ИИ. Пользователи загружают тренировочные видеоролики в приложение Lepaya, например, свою следующую публичную презентацию. Наша система ИИ анализирует видео и извлекает ключевые показатели любой речи/разговора: жесты, мимику, зрительный контакт, голос, выбор слов и т. д. Затем она оценивает их и дает пользователю обратную связь о том, как все прошло и как. улучшить.
Как мы делаем это?
Наш конвейер MABEL одновременно запускает множество моделей машинного обучения, поэтому нам нужен надежный процесс для сбора данных и разработки моделей.
- Загрузка видео. Прежде всего, мы собираем видео внутри компании или через наше приложение. Наше приложение разработано в Flutter и управляется другими командами.
- Анализ. Затем мы запускаем видео через наш API MABEL, который анализирует видео, звук и текст. Мы используем python и poetry в docker в Sagemaker на AWS и, конечно же, все библиотеки мл, которые вы знаете и любите. Вспомните numpy, pandas, tensorflow, pytorch, sklearn и другие.
- Сборка наборов данных. Из всех красивых входных данных мы создаем наборы данных. Мы используем luigi, чтобы отслеживать все преобразования и делать их воспроизводимыми.
- Аннотации. Модели машинного обучения нуждаются в аннотациях, и их много. Мы используем labelstudio для аннотирования наших наборов данных. Например. слова-паразиты, жесты, выражение лица и общие оценки того, насколько хорошо вы выступили в своей презентации.
- Разработка моделей машинного обучения. Самая захватывающая часть. С помощью этих великолепных аннотированных наборов данных мы разрабатываем модели машинного обучения. Некоторыми из них являются аудиомодели (wav2vec, обнаружение слов-заполнителей), видеомодели (определение ключевых точек человека, классификация эмоций) и обычные модели (для выставления рейтинга). Мы разрабатываем на Python и используем такие фреймворки, как mlflow, чтобы отслеживать эксперименты.
- Развертывание: самая страшная часть. После некоторых проверок вопросов и ответов мы развертываем обновленный конвейер MABEL с нашими свежими новыми моделями. много модель. очень ИИ. Ух ты.
Пример того, как распознавать жесты и давать оценку
В качестве примера проблемы мы хотим определить, насколько хорошо вы используете жесты в своей презентации. Это то, чем вы будете заниматься в своей повседневной работе.
Нам нужно решить 2 задачи машинного обучения. В качестве входа у нас есть видео.
- Обнаружение Observables z — как вы думаете, я изучал физику? Наблюдаемые – это числа с плавающей запятой в видео, которые может наблюдать и человек. Например, количество времени, в течение которого правая рука человека была в кармане.
- Сопоставьте эти наблюдения с отзывом a.отзыв – это рейтинг от 1 до 5 звезд. Вы не должны держать руку в кармане во время презентации — но вы знали, что я надеюсь?
Вот как мы это делаем:
- Мы превращаем входное видео в тензор [x].
- Мы используем модель обнаружения ключевых точек e(x) →[y], которая извлекает необработанные функции [ г]. Например, координаты (x,y) рук на всех изображениях в видео.
- Мы используем функции разработки признаков f (y) → [z], чтобы преобразовать эти необработанные признаки [ y] в наблюдаемые [z]. Чтобы убедиться, что мы делаем это правильно, мы используем аннотированный набор данных.
- Затем мы создаем сопоставление g(z)-›[a] из этих наблюдаемых [z] в 5-звездочный рейтинг a. Мы также используем аннотированный набор данных, чтобы убедиться, что мы следуем человеческому рейтингу.
Таким образом, все, что нам нужно сделать, это минимизировать (g·f·e(x)-a)ˆ2→ 0
Любите ли вы минимизировать функции так же, как и мы?
Мы используем Scrum, чтобы организовать себя, и мы верим в соблюдение графика разработчиков для разработчиков. Если вам нравится работать с мультимодальными данными над открытой проблемой, оказывающей реальное влияние на людей, мы — то, что вам нужно.
Если это вас не убедило, мы также хотели бы поделиться фактами о животных в конце некоторых наших стендапов. Знаете ли вы, что Пьяные рыбки данио убеждают трезвых следовать за ними?
Если ответ на приведенный выше вопрос утвердительный, подайте заявку в Lepaya прямо сейчас и помогите нам найти наилучшие значения g, f и e для мультимодельных видео-, аудио- и текстовых данных.