Проблемы мобильного машинного обучения часто сегментируются по датчикам, которые они задействуют: Компьютерное зрение для задач, связанных с камерой, Обработка естественного языка для задач, связанных с текстом и звуком, и другими, такими как использование данных акселерометра для приложений, основанных на местоположении. .

Но для некоторых случаев использования разработчикам необходимо найти способы объединить возможности более чем одной из этих проблемных областей. Это особенно верно в отношении приложений, которые стремятся сделать реальный мир более доступным в широком смысле, меняя жизнь.

Этот многогранный подход является центральным для проблем, которые пытаются решить создатели ARBlind. ARBlind - это проект, цель которого, проще говоря, облегчить уличное движение людей с нарушениями зрения.

Этот проект - от классификации и обнаружения движущихся объектов до использования предупреждений преобразования текста в речь - представляет собой амбициозную попытку объединить несколько функций машинного обучения на устройстве для решения важных реальных проблем, связанных с перемещением по миру без зрения.

Этот проект все еще находится в стадии разработки, но мы смогли поговорить с Гойко Галоней, одним из создателей, чтобы обсудить проблемы и возможности этого проекта. Вот наше интервью.

Каков ваш опыт и как вы в итоге создали ARBlind?

Что касается образования, у меня есть степень бакалавра информатики и информатики. Но я играл с технологиями с детства. Мне всегда было любопытно и интересовались всевозможными технологиями, поэтому я из тех людей, которые всегда с энтузиазмом относятся к новым тенденциям в мире ИТ. Мой интерес к машинному обучению возник на третьем курсе колледжа.

В JSGuru (компания, в которой я работаю) у нас возникла идея сделать приложение, которое поможет слепым людям легче передвигаться по улицам. Поскольку мы рассматриваем AI / ML как большую часть нашего будущего и как область исследований, которые в конечном итоге сделают жизнь во всем мире лучше, мы сформировали нашу собственную специальную команду, которая пришла к этой идее.

В процессе создания приложения нам пришлось изучить варианты его развертывания на Android. Затем я нашел Фрица, от которого наша команда в восторге.

(И, говоря о нашей команде, передайте привет моему коллеге Милану Маричу, который был главной движущей силой идеи ARBlind.)

Как выглядит ваш технологический стек и какие инструменты вы сочли полезными?

Что касается модели, я использовал модель SSD MobileNet Coco V1 и настроил ее для работы с приложением. Позже будет реализована дополнительная модель. Обычно я использовал PyTorch, а также ONNX, чтобы подготовить модель к развертыванию. Мы также экспериментировали с Алхимией Фрица и Керасом, которые тоже являются отличными инструментами.

Для Python / ML я перешел со Spyder IDE на PyCharm, а для Android я использовал Android Studio в качестве среды разработки.

Что было самым сложным в разработке ARBlind?

В целом, нужно изучить так много нового, а это серьезный процесс. Но я думаю, что самой сложной частью разработки ARBlind был сбор необходимых и правильных данных для создания модели, которая будет иметь хорошую точность.

Машинное обучение - это область, в которой вам нужно терпение и много времени, потому что это в основном процесс проб и ошибок.

Что вы можете посоветовать другим разработчикам, которые хотят начать работу с машинным обучением?

Мой совет: если вы действительно хотите глубоко погрузиться в сферу машинного обучения, начните учиться по принципу обратной пирамиды, то есть начните учиться на практике. Я лично выбрал этот подход после того, как меня вдохновили сообщения Джейсона Браунли в его блоге Machine Learning Mastery.

Я разделяю его мнение - сначала изучите инженерное дело и прикладную сторону, а затем добавляйте математику. Некоторые могут не согласиться, но это мой совет.

Что ждет ARBlind в будущем?

Мы приложим много усилий и ресурсов, чтобы создать и сделать ARBlind отличным продуктом, который, как мы надеемся, будет очень полезным для людей, которым он призван помочь.

Мы разговаривали со слепыми, чтобы выявить самые большие болевые точки в их повседневной жизни. Некоторые действительно простые вещи заставляют их бороться, например, найти дверь в здании.

На данный момент мы планируем реализовать модель для распознавания лестниц и дверей, открытых шахт, ям на улице и подобных препятствий.

Мы продолжим работать над выявлением проблем, которые представляют собой повседневную борьбу, с которой на самом деле сталкиваются слепые сообщества.

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее создавать лучшие модели машинного обучения.