Прорыв в компьютерном зрении

ImageNet Challenge 2012 и AlexNet

Начиная с ImageNet Challenge…

Концепция машинного обучения и глубокого обучения существовала задолго до внедрения этих моделей, но основной причиной этой задержки было отсутствие скорости вычислений и количества обучающих данных. Доктор Фей-Фей Ли осознал необходимость создания набора данных, который служил бы обучающими данными для компьютерного зрения. После успешного создания огромного набора данных изображений вместе с их ярлыками, ImageNet Large Scale Visual Recognition Challenge (ILSVRC) стал ежегодным соревнованием с 2010 по 2017 год.

Крестный отец и прорыв

Джеффри Хилтон считается крестным отцом глубокого обучения из-за его значительного вклада в области искусственного интеллекта. Он профессор Университета Торонто, а также работает в Google Brain. В его университете у него был студент по имени Алекс Крижевский, который работал над своей докторской диссертацией. вместе со своим коллегой Ильей Суцкевером разработал модель для классификации изображений. В 2012 году трое из них опубликовали статью об этом же. Позже Google назвал его AlexNet в знак признания вклада Алекса Крижевского.

Переломный момент…

Основная причина, по которой AlexNet приобрела такую популярность и считается поворотным моментом в области компьютерного зрения, - это его участие в конкурсе ImageNet Challenge.

Верхняя 5-процентная ошибка этой модели составила 15,3%, тогда как ошибка занявшего второе место - 26,1%, что ясно показывает преобладание этой архитектуры над другими. В AlexNet было 8 уровней, но, кроме того, технические гиганты также участвовали в соревнованиях, увеличивая уровни и сложность, и в 2015 году они достигли точности, превышающей человеческую. Наконец, в 2017 году конкурс ImageNet завершился.

Архитектура и интуиция

Архитектура в основном состоит из 8 слоев, а именно:

1-й и 2-й уровни - это сверточные слои, за которыми следует максимальный пул. Затем у нас снова есть 3 непрерывных сверточных слоя. Наконец, 2 плотных слоя и выходной вектор размером 100, так как количество классов равно 100.

Мы можем заметить, что после передачи изображения на каждый слой свертки ширина вывода увеличивается, а размер изображения уменьшается, что означает, что мы извлекаем элементы на каждом слое. Первоначально цвет RGB изображения был 3 характеристиками первого слоя, поскольку мы продвигаемся вперед по мере увеличения количества функций и, наконец, у нас есть 2048 различных функций, которые передаются на плотные слои.

Вскоре я сделаю подробный блог о работе CNN и AlexNet.

Прорыв в компьютерном зрении

Вопросы по теме