Проблемы мобильного машинного обучения часто сегментируются по датчикам, которые они задействуют: Компьютерное зрение для задач, связанных с камерой, Обработка естественного языка для задач, связанных с текстом и звуком, и другими, такими как использование данных акселерометра для приложений, основанных на местоположении. .
Но для некоторых случаев использования разработчикам необходимо найти способы объединить возможности более чем одной из этих проблемных областей. Это особенно верно в отношении приложений, которые стремятся сделать реальный мир более доступным в широком смысле, меняя жизнь.
Этот многогранный подход является центральным для проблем, которые пытаются решить создатели ARBlind. ARBlind - это проект, цель которого, проще говоря, облегчить уличное движение людей с нарушениями зрения.
Этот проект - от классификации и обнаружения движущихся объектов до использования предупреждений преобразования текста в речь - представляет собой амбициозную попытку объединить несколько функций машинного обучения на устройстве для решения важных реальных проблем, связанных с перемещением по миру без зрения.
Этот проект все еще находится в стадии разработки, но мы смогли поговорить с Гойко Галоней, одним из создателей, чтобы обсудить проблемы и возможности этого проекта. Вот наше интервью.
Каков ваш опыт и как вы в итоге создали ARBlind?
Что касается образования, у меня есть степень бакалавра информатики и информатики. Но я играл с технологиями с детства. Мне всегда было любопытно и интересовались всевозможными технологиями, поэтому я из тех людей, которые всегда с энтузиазмом относятся к новым тенденциям в мире ИТ. Мой интерес к машинному обучению возник на третьем курсе колледжа.
В JSGuru (компания, в которой я работаю) у нас возникла идея сделать приложение, которое поможет слепым людям легче передвигаться по улицам. Поскольку мы рассматриваем AI / ML как большую часть нашего будущего и как область исследований, которые в конечном итоге сделают жизнь во всем мире лучше, мы сформировали нашу собственную специальную команду, которая пришла к этой идее.
В процессе создания приложения нам пришлось изучить варианты его развертывания на Android. Затем я нашел Фрица, от которого наша команда в восторге.
(И, говоря о нашей команде, передайте привет моему коллеге Милану Маричу, который был главной движущей силой идеи ARBlind.)
Как выглядит ваш технологический стек и какие инструменты вы сочли полезными?
Что касается модели, я использовал модель SSD MobileNet Coco V1 и настроил ее для работы с приложением. Позже будет реализована дополнительная модель. Обычно я использовал PyTorch, а также ONNX, чтобы подготовить модель к развертыванию. Мы также экспериментировали с Алхимией Фрица и Керасом, которые тоже являются отличными инструментами.
Для Python / ML я перешел со Spyder IDE на PyCharm, а для Android я использовал Android Studio в качестве среды разработки.
Что было самым сложным в разработке ARBlind?
В целом, нужно изучить так много нового, а это серьезный процесс. Но я думаю, что самой сложной частью разработки ARBlind был сбор необходимых и правильных данных для создания модели, которая будет иметь хорошую точность.
Машинное обучение - это область, в которой вам нужно терпение и много времени, потому что это в основном процесс проб и ошибок.
Что вы можете посоветовать другим разработчикам, которые хотят начать работу с машинным обучением?
Мой совет: если вы действительно хотите глубоко погрузиться в сферу машинного обучения, начните учиться по принципу обратной пирамиды, то есть начните учиться на практике. Я лично выбрал этот подход после того, как меня вдохновили сообщения Джейсона Браунли в его блоге Machine Learning Mastery.
Я разделяю его мнение - сначала изучите инженерное дело и прикладную сторону, а затем добавляйте математику. Некоторые могут не согласиться, но это мой совет.
Что ждет ARBlind в будущем?
Мы приложим много усилий и ресурсов, чтобы создать и сделать ARBlind отличным продуктом, который, как мы надеемся, будет очень полезным для людей, которым он призван помочь.
Мы разговаривали со слепыми, чтобы выявить самые большие болевые точки в их повседневной жизни. Некоторые действительно простые вещи заставляют их бороться, например, найти дверь в здании.
На данный момент мы планируем реализовать модель для распознавания лестниц и дверей, открытых шахт, ям на улице и подобных препятствий.
Мы продолжим работать над выявлением проблем, которые представляют собой повседневную борьбу, с которой на самом деле сталкиваются слепые сообщества.
Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.
Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.
Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее создавать лучшие модели машинного обучения.