Получите краткий обзор того, как компьютерное зрение развивалось за последние 50 лет, и узнайте о таких модных словах, как «AI Winter», и их значениях.

2019 год подходит к концу, но прежде, чем он наступит, было бы неплохо понять одно из модных словечек нашего десятилетия в области машинного обучения? Эта статья поможет вам получить краткое представление о компьютерном зрении, достаточно знаний, чтобы вы выглядели умно за рождественским ужином.

Прочитав эту статью, вы познакомитесь с такими терминами, как компьютерное зрение, глубокое обучение, машинное обучение, AI Winter, Skynet… ну вы знаете, хорошие вещи.

Так что же это за компьютерное зрение, о котором я все время слышу?

Когда кто-то задает вам этот вопрос, вы отвечаете им примерно так: «Компьютерное зрение - это то, что видит компьютер». Ну, не совсем так, попробуйте приведенное ниже объяснение, чтобы определенно вскружить голову.

Компьютерное зрение - это процесс, с помощью которого машина или система генерирует понимание визуальной информации, вызывая один или несколько алгоритмов, действующих на предоставленную информацию. Понимание переводится в решения, классификации, наблюдение за образцами и многое другое. А теперь вы поворачиваете головы.

Давайте проведем небольшой урок истории и посмотрим, как развивалась область компьютерного зрения.

Потребность в компьютерном зрении возникла, когда мы решили имитировать систему восприятия и зрения в человеческом теле. Итак, путешествие началось в 1960-х годах, когда ученые взяли на вооружение человеческое восприятие и попытались воспроизвести его основные функции в компьютерной системе. Наши ученые-новаторы стремились предоставить роботам возможность видеть и давать описание того, что наблюдал робот. Это был первый шаг к Скайнет (Да, как в фильме, но это было до этого).

Заставить Скайнет видеть, как люди, было непросто, поэтому мы обратились к методам обработки цифровых изображений, чтобы понять содержание изображений, которые передаются в системы компьютерного зрения. Под пониманием я подразумеваю извлечение информации о краях, контурах, линиях и формах из изображения. 70-е годы были полностью посвящены алгоритмам, которые могли извлекать информацию из цифрового изображения.

Следует отметить, что первая AI Winter произошла в 1970-х годах. Для тех, кто не знаком с термином AI Winter, его можно охарактеризовать как период, когда наблюдается снижение отсутствия интереса, финансирования, морального духа (шумиха) и исследований, продолжающихся в сфере ИИ. такие области, как компьютерное зрение, машинное обучение и т. д.

80-е и 90-е годы в области компьютерного зрения были сосредоточены на математике и статистике. Исследователи и ученые начали сочетать методы компьютерного зрения с математическими алгоритмами. Хорошим примером использования математики в компьютерном зрении и технологиях обработки изображений может служить алгоритм обнаружения края.

Обнаружение краев - один из основных методов обработки изображений, которым обучают на большинстве курсов компьютерного зрения. В 1986 году Джон Ф. Кэнни разработал своеобразный и полезный детектор кромок. Он назывался Детектор Canny Edge. Используя математические концепции, такие как исчисление, дифференцирование и оптимизация функций, Джон Ф. Кэнни разработал очень популярный детектор границ, который до сих пор преподается на курсах магистратуры.

Перенесемся в предыдущее десятилетие; 2000-е были довольно революционным временем для компьютерного зрения. Возникло глубокое обучение, и компьютерное зрение снова стало горячей темой для СМИ, исследователей и ученых.

Подходит еще одно ключевое определение.

Глубокое обучение - это подраздел машинного обучения, в котором алгоритмы используют несколько уровней нейронных сетей для извлечения более обширных функций из входных данных. Примерами методов глубокого обучения являются Нейронные сети с глубокой сверткой (CNN) и Рекуррентные нейронные сети (RNN).

Так много терминологии, прежде чем мы продолжим, ниже приводится ссылка на некоторые термины, относящиеся к машинному обучению.



2012 год стал поворотным в области компьютерного зрения. Возможно, вы уже знаете, о чем я собираюсь упомянуть здесь (шшш, и не портите это другим). Существует конкурс под названием ImageNet Large Scale Visual Recognition Challenge, который проводится ежегодно, и в основном это собрание ученых, исследователей и энтузиастов, сравнивающих программные алгоритмы, которые классифицируют и обнаруживают объекты на изображениях. В 2012 году в рамках этого конкурса была представлена ​​Глубокая сверточная нейронная сеть (AlexNet), которая достигла уровня ошибок, превосходящего другие конкуренты в текущем году и в предыдущие годы до него.

Я не буду вдаваться в подробности того, как устроен AlexNet, и для этого в Интернете есть масса ресурсов. Но я упомяну два важных преимущества, которые AlexNet привнес в ландшафт.

Во-первых, графические процессоры. Потрясающая производительность AlexNet стала возможной благодаря использованию графического процессора (GPU). Хотя GPU использовался и раньше в соревнованиях, именно использование AlexNet в GPU привлекло внимание и внимание сообщества компьютерного зрения.

Во-вторых, стандартом стали CNN. Способность AlexNet демонстрировать эффективность CNN привела к популяризации CNN. С этого года и по настоящее время реализация CNN используется в большинстве приложений и исследований компьютерного зрения.

Здесь мне придется сделать паузу и, возможно, продолжить эту тему в другой статье в будущем. Я не затронул так много тем и доменов, но ниже приведены несколько статей среднего размера, в которых подробно объясняются ключевые термины, упомянутые в этой статье, и многое другое.

Теперь вы можете перейти к 2020 году, имея представление о компьютерном зрении и его развитии с 1960-х годов.

Если вам понравилась эта статья и вы хотите больше подобных статей, просто напишите мне и позвольте мне расширить ваши знания о машинном обучении в целом.

Ознакомьтесь со статьями, посвященными компьютерному зрению и некоторым методам, от Дхрува Партхасарати, Сиддхартха Даса и Джеймса Ли.