Самый захватывающий аспект машинного обучения

Да, это компьютерное зрение

В этой статье исследуется конкретный сегмент прекрасной области машинного обучения (ML). Вы должны уйти от этой статьи с одним из следующих факторов: новый энтузиазм в изучении области машинного обучения, которая может быть для вас новой, или новый друг, с которым вы разделяете схожие интересы.

Первый организм начал наблюдать за окружающей средой посредством визуального восприятия примерно 500 миллионов лет назад. Сегодня у нас есть искусственные машины и камеры, способные получать представление о ландшафте на основе входных данных, поступающих в их оптические или удаленные датчики. Можно с уверенностью сказать, что мы прошли долгий путь.

Хотя определение интеллекта неоднозначно, общепризнанным важнейшим компонентом интеллекта является способность агента создавать модель своего окружения. Понимание нашей среды и объектов (или других агентов) в них позволяет выполнять дальнейшие действия, такие как прогнозы, принятие решений, классификация, рекомендации и т. Д.

Когда вы читаете эту статью, свет, попадающий в ваши глаза, преобразуется в электрические сигналы, воспринимаемые зрительным нервом и отправляемые в мозг. Мозг, в свою очередь, обеспечивает визуализацию этих сигналов для моделирования окружающей среды. Биология человека увлекательна и чрезвычайно сложна.

И все же мы взяли на себя задачу воспроизвести то, что природе потребовались сотни тысяч лет, чтобы развиться за несколько сотен лет.

Круг интересов

Если вы читали некоторые из моих предыдущих статей, то, вероятно, догадались, что область компьютерного зрения для меня в настоящее время является наиболее интересной областью машинного обучения.

Компьютерное зрение (CV) - это то, как машина или система генерирует понимание визуальной информации, вызывая один или несколько алгоритмов, действующих на предоставленную информацию. Понимание преобразуется в решения, классификации, наблюдение закономерностей и многое другое.

Технологии компьютерного зрения лежат в основе большинства приложений искусственного интеллекта, которые мы используем ежедневно, от функций распознавания лиц в вашем смартфоне до приходящих розничных магазинов без кассира, и давайте не будем забывать о функциях автономных транспортных средств всех любимых автомобильных брендов. Почти безумие думать, что компьютерное зрение когда-то было студенческим летним проектом университета в 60-х годах, по крайней мере, так гласит история.

В области резюме необходимо решить множество проблем; наиболее распространенными из них являются обнаружение объектов, распознавание объектов, оценка позы, распознавание жестов, обнаружение лиц, оценка глубины и т.д. поле резюме.

Оглядываясь назад

Компьютерное зрение и глубокое обучение сделали графические процессоры (графические процессоры) обычным явлением в машинном обучении.

Графические процессоры являются стандартным оборудованием для исследователей и инженеров машинного обучения, и это оборудование сделало Nvidia одной из самых ценных технологических компаний на сегодняшний день.

Графические процессоры разработаны и созданы для ускорения таких задач обработки, как рендеринг графики и наложение текстур. Важнейшие атрибуты графических процессоров, относящиеся к приложениям машинного обучения, - это их способность одновременно обрабатывать и выполнять вычисления с данными, а также их быстрое изменение памяти.

Исследователи используют GPU для обучения и тестирования методов машинного обучения для решения таких задач компьютерного зрения, как обработка изображений и распознавание изображений. В 2006 году исследователи из Microsoft опубликовали документ, в котором рассказывалось об использовании графических процессоров для обучения и тестирования сверточных нейронных сетей для обработки документов. Исследователей вдохновила более ранняя работа D. Steinkraus et al.

Использование сверточных нейронных сетей (CNN) для решения задач, связанных с компьютерным зрением, также стало поворотным моментом в области машинного обучения. CNN используют операцию математической свертки и двумерные фильтры, в которых значения фильтров изменяются во время обучения посредством обратного распространения ошибки, метода, который позволяет обучаться в нейронных сетях. CNN отлично подходят для задач компьютерного зрения, таких как распознавание и классификация изображений, но они очень медленно обучаются на стандартных процессорах. Следовательно, первые исследователи машинного обучения предприняли исследование обучения и тестирования CNN с использованием графического процессора.

Графические процессоры, глубокое обучение, а также высокоточные и производительные модели начали появляться из года в год, особенно после внедрения AlexNet в 2012 году. AlexNet был обучен на NVIDIA GTX 580 3GB GPU и состоял из 8 слоев, комбинации из пяти сверточных слоев и трех полностью связанных слоев. В то время она достигла высочайшего уровня в классификации изображений.

Ключевой вывод здесь заключается в том, что в попытке оптимизировать обучение и тестирование нейронных сетей для решения задач компьютерного зрения исследователи исследовали использование графических процессоров и различных архитектур нейронных сетей.

Разнообразие приложений

Еще одна причина, по которой я считаю компьютерное зрение интересным, заключается в том, насколько широко оно применимо для решения различных задач. Существует также значительное количество промышленных приложений, использующих методы CV в той или иной форме.

Я никогда не думал, что буду работать в игровой студии, которая занимается разработкой мобильных игровых приложений для iOS, но оказалось, что мир возможностей открывается с камерами на смартфонах. Подумайте только о дополненной и виртуальной реальности.

Я работаю с моделями, созданными и обученными для оценки позы, обнаружения объектов и распознавания жестов. Эти модели имеют размер 2–5 МБ (мегабайт); есть mp3-песни, которые больше, чем эти модели, которые предсказывают местоположение 17 суставов человека в режиме реального времени. Просто удивительно!

Вы должны признать, что разрыв между исследованиями и коммерческим применением моделей машинного обучения сокращается, в основном из-за продолжающейся работы по поиску оптимизированных методов разработки и предоставления моделей машинного обучения. Оптимизированные микросхемы AI, выпущенные Intel, Apple и Nvidia, предоставили платформы, на которых оптимизированные для мобильных устройств модели машинного обучения могут работать без вычислительных ограничений.

Что касается промышленной значимости, у вас есть доступ к широкому выбору отраслей для работы, если у вас есть опыт работы в области компьютерного зрения. Медицинским учреждениям требуются специалисты по компьютерному зрению для разработки алгоритмов для улучшения обработки рентгеновских изображений и оптимизации процессов медицинской визуализации, от анализа до диагностики. Агентствам обороны и безопасности нужны специалисты по компьютерному зрению для создания алгоритмов обнаружения и отслеживания. Производители автомобилей и технологические компании нанимают инженеров по резюме, чтобы помочь сделать беспилотные автомобили реальностью.

Если вы выдающийся и увлеченный компьютерным зрением, актуальность ваших навыков в будущем не знает границ (предостережение: пока вы обновляете их).

Вы, вероятно, обнаружите, что большинству дисциплин машинного обучения есть место в современных компаниях, особенно сейчас, когда общество оперирует технологиями и данными.

Будущее

Приятно видеть машины со схожим восприятием и способностями к пониманию ландшафта, на развитие которых у природы ушло несколько миллионов лет.

Коммерческие рынки и внимание средств массовой информации сосредоточены на усилиях по внедрению автономных транспортных средств. Tesla - ведущая компания в этой сфере, которая полностью использует камеры как единственные визуальные датчики в своем парке.

Последняя презентация Tesla показывает их прогресс, такой как получение временных данных из видеовходов и создание новой архитектуры нейронной сети, которая принимает входные данные в векторном пространстве вместо стандартных 2D-векторных изображений.

Большие данные и технологии искусственного интеллекта становятся все более распространенными в обществе. В то же время потребители сделали конфиденциальность первоочередной задачей, особенно при использовании приложений, подключенных к Интернету. В мире, где личные данные влияют на цифровую идентичность, вопросы конфиденциальности приобретают первостепенное значение. Приложения компьютерного зрения находятся в авангарде обсуждений регулирования ИИ. Примером может служить использование системы обнаружения и распознавания лиц в общественных местах.

Что касается меня, то в настоящее время я использую решения для компьютерного зрения для разработки мобильного приложения, которое отслеживает и рекомендует изменения осанки для удаленных и офисных сотрудников в режиме реального времени. Еще один интересный проект, в котором я участвую, - это использование камер портативных компьютеров для отслеживания глаз с целью выявления нарушений грамотности у читателей. Безусловно, это увлекательные и интересные проекты.

Если вы хотите узнать больше о компьютерном зрении и глубоком обучении, вы можете научиться вместе со мной на моем предстоящем сеансе обучения O’Reilly в режиме реального времени.



Хотите от меня большего?

  1. Подпишитесь, чтобы получать уведомления, когда я публикую статьи
  2. Поддержите мое письмо, став рекомендованным участником Medium
  3. Свяжитесь со мной и свяжитесь со мной в LinkedIn
  4. Учитесь вместе со мной в O’Reilly