Обзор: Deep Image — решение для работы с большими данными для распознавания изображений на ILSVRC 2015

В этой статье рассматривается Deep Image [1]. Deep Image достигает коэффициента ошибок 4,58%, что превосходит показатели человеческого уровня в ILSGVRC 2015.

Однако в тот момент Baidu нарушил правило ILSVRC. Они создали 30 учетных записей, так что у них было не менее 200 представлений и более 40 представлений в течение 5 дней с 15 марта 2015 г. по 19 марта 2015 г. Из-за таких частых представлений они нарушили правило ILSVRC, которое разрешает только 2 представления в 1 неделя.

Тем не менее, они предложили кое-что новое, используя специально созданный суперкомпьютер под названием Minwa, который состоит из 36 серверных узлов, чтобы они могли увеличить количество графических процессоров, чтобы они может значительно увеличить размер пакета. Поскольку эффективный параллелизм обеспечивается большим количеством графических процессоров, также предлагается агрессивное увеличение данных. (Сик-Хо Цанг @ Medium)

Это статья в arXiv под названием Deep Image: Scaling up Image Recognition с сотнями цитат. Это своего рода решение для работы с большими данными с методами масштабирования, а не с масштабированием, как указано в названии статьи. Он НЕ фокусируется на каких-либо инновациях в сверточной нейронной сети с глубоким обучением (CNN) или на каких-либо лучших терминах регуляризации для функции потерь. Речь идет о том, как увеличить масштаб для достижения лучшей производительности. Он особенно подходит для крупных коммерческих компаний и государственных органов. Так что о нем тоже стоит поговорить.

Что покрывается

Настройка суперкомпьютера
Параллелизм данных
Увеличение данных
Экспериментальные результаты

1. Настройка суперкомпьютера

Как уже упоминалось, используется Minwa, специально созданный суперкомпьютер с 36 серверными узлами. Каждый узел имеет2 шестиядерных процессора Intel Xeon E5–2620, 4 графических процессора Nvidia Tesla K40m, каждый с 12 ГБ памяти, и 1 FDR InfiniBand, который может обеспечить скорость передачи данных 56 Гбит/с.

В общей сложности он имеет 6,9 ТБ памяти хоста и 1,7 ТБ памяти устройства.

Как мы видим, он на самом деле масштабируется, а не масштабируется!

При большем количестве графических процессоров можно использовать больший размер пакета. Крайне важно иметь больший размер пакета в сети глубокого обучения, например. AlexNet использовал 2 графических процессора. Для одного компьютера сложно увеличить количество графических процессоров из-за ограниченного количества слотов PCI-E, блока питания и проблемы с высокой температурой компьютера. Лучшее решение – масштабирование!

При размере пакета 1024 и 64 графических процессорах ускорение может достигать 47 (зеленый), как показано ниже:

И время конвергенции намного быстрее: при использовании 32 графических процессоров для обучения требуется всего 8,6 часа, чтобы получить точность до 80 %, в то время как 212 часов требуется только для 1 графического процессора. .

Если время обучения вашей модели занимает несколько недель, прямо сейчас его можно сократить за счет масштабирования. Затем можно собрать все новые данные за текущий день, обучить модель в полночь и развернуть обученную модель до начала следующего рабочего дня или еженедельно!

2. Параллелизм данных

Каждый GPU отвечает за мини-пакет 1/N. Во время обратного распространения все графические процессоры вычисляют градиент на основе локальных обучающих данных, затем обмениваются градиентами и обновляют локальную копию весов, как показано ниже:

3. Увеличение данных

Предлагается агрессивное увеличение данных.

Цветовое преобразование: добавьте случайное целое число от -20 до +20 к каналам R, G, B.
Виньетирование. Сделайте края изображения темнее, используя два случайных параметра, область для добавления эффекта и степень снижения яркости.
Искажение объектива: горизонтальное и вертикальное растяжение.
Вращение, переворот и кадрирование. Это то же самое, что и другие известные методы.

4. Экспериментальные результаты

Используется VGGNet [2]. Также используется мультимасштабное обучение. Модель предварительно обучена с помощью ILSVRC, а затем настроена на основе нового набора данных.

4.1 КУБ-200–2011

Распознавание 200 видов птиц, 11 788 изображений.

4.2 Оксфорд 102 цветка

102 различных категории цветов, 8 189 изображений.

4.3 Домашние животные Oxford-IIIT

37 классов, 7 349 изображений.

4.4 FGVC-Самолет

100 вариантов самолетов, 10 000 изображений.

4.5 MIT-67 Сцены в помещении

67 сцен в помещении, 15 620 изображений.

4.6 ИЛСВРК

1000 изображений в каждой из 1000 категорий. Действительно, наилучшая частота ошибок составляет 4,58%. Но в конце концов они выведены из ILSVRC из-за нарушения правил.

использованная литература

[2015 arXiv] [Deep Image]
Deep Image: Увеличение масштаба распознавания изображений
[2015 ICLR] [VGGNet]
Очень глубокие сверточные сети для крупномасштабного распознавания изображений

Мои отзывы

Обзор: VGGNet — 1-й призер (классификация изображений), победитель (локализация) в ILSVRC 2014
Обзор: PReLU-Net, первое устройство, превзошедшее человеческий уровень в ILSVRC 2015 (классификация изображений)
Обзор: GoogLeNet (Inception v1) — победитель ILSVRC 2014 (классификация изображений)

Обзор: Deep Image — решение для работы с большими данными для распознавания изображений на ILSVRC 2015

Что покрывается

1. Настройка суперкомпьютера

2. Параллелизм данных

3. Увеличение данных

4. Экспериментальные результаты

4.1 КУБ-200–2011

4.2 Оксфорд 102 цветка

4.3 Домашние животные Oxford-IIIT

4.4 FGVC-Самолет

4.5 MIT-67 Сцены в помещении

4.6 ИЛСВРК

использованная литература

Мои отзывы

Обзор: Deep Image — решение для работы с большими данными для распознавания изображений на ILSVRC 2015

Что покрывается

1. Настройка суперкомпьютера

2. Параллелизм данных

3. Увеличение данных

4. Экспериментальные результаты

4.1 КУБ-200–2011

4.2 Оксфорд 102 цветка

4.3 Домашние животные Oxford-IIIT

4.4 FGVC-Самолет

4.5 MIT-67 Сцены в помещении

4.6 ИЛСВРК

использованная литература

Мои отзывы

Вопросы по теме