Оглавление

Число в (.) Указывает количество подобранного вручную содержимого.

  • Выделенные учебники (4)
  • Краткое резюме награжденных статей (3)
  • Управляемый синтез изображений (2)
  • Работа с несбалансированными данными (2)
  • Многозадачное обучение (1)
  • Репрезентативное обучение (2)
  • Самостоятельное обучение (2)
  • Полу-контролируемое обучение (2)
  • Обучение со слабым контролем (для семантической сегментации) (3)
  • Обнаружение объектов (2)
  • Кистилляция знаний (3)
  • Увеличение данных (4)
  • Оптимизация (3)
  • Оценка и обобщение (3)
  • Оценка неопределенности (3)

[Учебник | Вс.] Как написать хорошую статью? - Билл Фриман (Массачусетский технологический институт, Google)

  • Почему это важно? Креативная, оригинальная и действительно сильная работа лучше повлияет на вашу карьеру, чем плохая, нормальная или довольно хорошая работа → Сделайте усилия стоящими.
  • Структурная формула: сформулируйте вашу проблему. Заставьте аудиторию заботиться об этом; Какие есть другие решения и почему они неудовлетворительны; Объясните собственное решение и почему оно лучше; Передайте основную идею примерами простых игрушек. Проведите разумные сравнения в экспериментах. В заключение укажите, что это открывает или как это меняет наш подход к проблемам. Плохая идея заканчивать «будущей работой» (т. Е. Мы хотим сделать, но не можем приступить к работе вовремя).
  • Сделайте ваш доклад легким для чтения (очень торопитесь и все же выучите основные моменты); Пишите краткие предложения (т. е. не должны быть многословными!); Рисунок и подписи должны быть самодостаточными.
  • Позитивный тон - будьте добры и любезны: не продавайте слишком много, не скрывайте недостатки и не унижайте чужую работу; Честно укажите на ограничение.
  • Хорошее название очень важно. Например, «Сдвигаемое многомасштабное преобразование» должно было быть «Что не так с вейвлетами?».
  • Причины отклонения статьи: невыполнение обещаний; Отсутствуют важные ссылки; Слишком постепенные или невероятные результаты; Плохо написано; Неверные утверждения; Хорошо написанная, но еще одна скучная статья; Свежая и замечательная бумага, но с недостатком, который легко указать.
  • Хорошее письмо - это переписывание. Начните писать свою статью пораньше.

[Учебник | Вс.] Все, что вам нужно знать об автономном вождении от Uber ATG

В этом руководстве рассматриваются основные технические компоненты автономного конвейера, включая предварительную обработку данных с помощью различных датчиков, восприятие, такое как обнаружение трехмерных объектов, долгосрочные прогнозы, планирование траектории движения, управление, такое как рулевое управление и ускорение, и связь между транспортными средствами. Здесь я только сделал заметки о модальности сенсора и восприятии.

Модальность и восприятие сенсора (обнаружение трехмерных объектов)

  • LiDAR (3D): представления облака точек, такие как трехмерные воксели (эффективное извлечение признаков с помощью трехмерного преобразования; дорогостоящие вычисления и память; VoxelNet на CVPR'18), вид диапазона (сохранение полной информации; соседство неверно из-за 3D информация утеряна; LaserNet на CVPR'19), вид с высоты птичьего полета (эффективное извлечение признаков с помощью двумерного преобразования; дорогостоящая память; PointPillars на CVPR'19), набор трехмерных точек (точная локализация; дорогие вычисления и память; суб- оптимальная ключевая точка для многомасштабных функций; PointRCNN на CVPR'19). Эти представления в основном разрежены и могут быть ускорены с помощью разреженных сверточных сетей или сети разреженных блоков (CVPR’18).

  • Камеры (2D): Дешевле, чем LiDAR. Преобразуйте 2D входы / функции / выходы в их 3D аналоги, а затем используйте готовые детекторы. Преобразование в 3D-выходы: 2D-прогнозирование ключевых точек + сопоставление с шаблоном 3D-блока = выходы 3D-блока (неудовлетворительная производительность); Преобразование входных данных 3D: 2D-изображение + оценка глубины = Псевдо-LiDAR (3D-восприятие на основе изображений SoTA; дополнительные вычислительные затраты из-за необходимости модели глубины; PseudoLiDAR ++ на ICLR’20 и E2E PseudoLiDAR на CVPR’20); Преобразование в 3D-объекты: преобразование 2D-объекта в 3D-пространство (с высоты птичьего полета) в соответствии с внутренними характеристиками камеры (может работать без оценки глубины; ошибка 3D-объекта, вызванная неоднозначностью глубины; Преобразование ортогональных элементов в BMVC’19).
  • Слияние датчиков - LiDAR + Камера: слияние может происходить на входах / функциях / выходах каскадно или параллельно.
  • Слияние датчиков - РАДАР (как геометрия) + Камера (производительность не может соответствовать системам на основе LiDAR); РАДАР (как скорость) + ЛИДАР. См. Оба в «Использование радара для надежного восприятия динамических объектов» на arXiv’20.
  • Карты HD (высокой четкости): семантическая информация. В основном используется в системах планирования движения. Что касается геометрии, см. HDNet на CoRL’18; В виде растров см. Краткосрочное прогнозирование движения с учетом неопределенности участников дорожного движения для автономного вождения на WACV’20); В качестве линейных графиков (более интуитивно понятный, но сложный дизайн модели, такой как использование GNN) см. VectorNet на CVPR’20.

[Мастерская | Пн] Масштабируемость при автономном вождении

  • Отчет о решении, занявший 1-е место (Horizon), очень впечатляет. Им потребовалось 2 месяца, чтобы занять 1-е место. Многие компоненты в их системе, кажется, интенсивно оптимизируются, а также были применены некоторые новые приемы.

[Keynote] Масштабируемое моделирование самостоятельного вождения, Ракель Уртасун, Uber ATG

  • Моделирование можно использовать как для обучения, так и для оценки безопасности. Полная симуляция состоит из состояний (поведения актеров), геометрии (3D-модели актеров и окружающей среды) и наблюдения (LiDAR и изображения камеры, воспринимаемые беспилотными автомобилями).

  • Состоит: ActorSim (реалистично и разнообразно).
  • Состояние геометрии + моделирование LiDAR-зондирования: CARLA (трудоемкий процесс проектирования 3D-объектов; ограниченное разнообразие сред; нереалистичное моделирование LiDAR; CoRL’17); Blensor (такие же, как минусы CARLA; повышенный реализм на смоделированном LiDAR, но не в реальном времени и требует свойств материала; ISVC’11); Подходы, основанные на данных (сбор реальных данных датчиков и применение рендеринга к данным симулятора): Off-Road LiDAR (ICLR'18) и AADS (все еще дорогой и ограниченный масштаб) и LiDARsim (устранение вышеуказанных недостатков. ; Raquel et al. CVPR'2020).
  • Состояние геометрии + моделирование распознавания камеры: классифицируется механизмом моделирования (не автоматический и фотореалистичный; например, CARLA), нейронный рендеринг (автоматический, но не фотореалистичный; только вид с одного датчика; без учета геометрии; например, преобразование изображения в изображение / манипуляции с нейронным экземпляром) и фотореалистичное моделирование камеры в масштабе (устраните указанные выше минусы; GeoSim от Rong et al. еще не выпущен. Результат от GeoSim выглядит великолепно).

[Keynote] Андрей Карпати, Tesla

  • Внедрение «HydraNet» в производство: 48 сетей с 8 камерами; 1000 различных прогнозов; 70000 часов работы GPU.

  • Сквозное прогнозирование вида с высоты птичьего полета вместо традиционного сшивания изображений.
  • Проблемы масштабируемости в Tesla: многократное нахождение «иголки в стоге сена» (особые случаи) в более чем 50 проектах по маркировке; Неопределенность модели по-прежнему представляет собой серьезную проблему; Вождение без HD-карт (нет необходимости поддерживать их сверхурочно).
  • В: Почему бы не использовать HD-карты? Разве они не дают сильных приоритетов для функции безопасности? Зачем нужно реконструировать вещи с нуля?
  • О: Мы по-прежнему используем HD-карты, но в долгосрочной перспективе это невозможно масштабировать, и если HD-карты устарели, сеть может сделать что-то глупое.

[Учебник | Пн] Оптимизация нулевого порядка, IBM Research.

  • На основе Краткого руководства по оптимизации нулевого порядка в обработке сигналов и машинном обучении на arXiv’20 ».
  • Как и его название, нулевой порядок означает, что из модели нельзя получить доступ к информации о градиенте, ни первого порядка (якобиан), ни второго порядка (гессиан).
  • Идея: ZOO использует «методы конечных разностей» (или двухточечные для оценки градиента и использует стандартный оптимизатор на основе градиента для обновления модели.
  • Часть, аналогичная байесовской оптимизации (BayesOpt): оба алгоритма решают проблему оптимизации черного ящика (т. Е. Недифференцируемые).
  • Отличие от BayesOpt с GP: GP по-прежнему нуждаются в информации первого порядка для обновления своего параметра ядра, а ZOO - нет.
  • Часть, аналогичная REINFORCE (градиент политики, используемый в RL): оба используют предполагаемый градиент для обновления модели.
  • Часть, отличная от REINFORCE: REINFORCE все еще может получить доступ к информации первого порядка модели (т.е. REINFORCE по-прежнему нуждается в якобиане модели для обновления своего параметра).
  • Популярные области, в которых используется ZOO: состязательное машинное обучение, такое как состязательная атака с использованием черного ящика ZOO: Атаки с использованием черного ящика на основе нулевого порядка на глубокие нейронные сети без замены обучения показывает черный цвет на основе ZOO. атаки с использованием ящиков могут быть столь же эффективны, как атаки с использованием метода белого ящика на MNIST, CIFAR-10 и ImageNet.) и объяснение предсказания модели (аналогично атаке). Также могут быть альтернативы алгоритмам, используемым в гиперпараметрической оптимизации, поиске политики в RL и т. Д.

[Учебник | Пн] От NAS к HPO: автоматизированное глубокое обучение

Представляем AutoGluon Toolkit, автор Hang Zhang

  • Автоматический совместный поиск гиперпараметров и сетевой архитектуры (пользователю все еще необходимо определить области поиска). Совместим с другими библиотеками DL, такими как PyTorch!
  • Рабочий процесс: (1) Используйте декоратор AutoGluon Python для назначения определяемого пользователем пространства поиска сети, оптимизатору и т. Д .; (2) Передайте декорированную сеть и оптимизатор в обучающую функцию. (3) Передайте функцию обучения планировщику, и все готово.
  • Встроенные алгоритмы гиперпараметрической оптимизации (HPO) (BayesOpt с GP) / NAS (ENAS, ProxylessNAS) / ранней остановки (последовательное уменьшение вдвое, гиперполос). Алгоритмы HPO / Early Stopping описаны в учебном пособии Автоматическая настройка гиперпараметров и архитектуры Седрика Аршамбо.

AutoML для TinyML с единой сетью (ICLR’20) Сон Хан

  • Проблемы NAS с поддержкой устройств: инженерные усилия (настройка модели для другой аппаратной платформы для достижения наилучшего компромисса между точностью и эффективностью может быть довольно дорогостоящей) и дорогостоящие ресурсы для обучения.
  • Основная идея: разделить этапы обучения (внутренний цикл) и поиска (внешний цикл) в обычном NAS и прямом развертывании без повторного обучения после поиска.

  • Решение - «Прогрессивное сжатие» (этап обучения): чтобы различные подсети не «мешали» друг другу, он работает путем обучения от всей сети до небольшой подсети постепенно по 4 измерениям, разрешению, размеру ядра, глубине и ширине. Габаритные размеры.

  • Как работает прогрессивная усадка? См. Рисунки и подписи ниже.

  • Решение - Фаза поиска: после фазы обучения итеративно выберите подсеть из полной сети, обученной OFA, сделайте вывод по набору тестов и получите его точность. Алгоритм поиска, который они использовали, - эволюционная стратегия.

Статьи по теме - Новые опорные сети SoTA

Результаты заседаний конференции [Вт. - чт.]

Формула награды = 3D компьютерное зрение + графика + высокие результаты

  • [Премия за лучшую студенческую работу] BSP-Net: создание компактных сеток с помощью двоичного разбиения пространства Саймона Фрейзера Univ. & Google. В этом документе изучается сеть, представляющая трехмерную фигуру с помощью дифференцируемого BSP-дерева. В результате они получают гораздо более компактные (низкополигональные) 3D-сетки по сравнению с предыдущими методами.
  • [Почетное упоминание за лучшую студенческую работу] DeepCap: Монокулярный захват производительности человека с использованием слабого наблюдения, MPII и Facebook. Полностью реконструируйте человеческое тело в 3D, используя только один видеовход RGB. Они решают предыдущие проблемы, включая одежду, неоднозначность глубины и временную несогласованность. Результаты выглядят достаточно многообещающими, чтобы использовать интересные приложения в киноиндустрии, дополненной реальности и бесплатном рендеринге точек обзора. Этот метод основан на многовидовых изображениях, двухмерных наблюдениях (например, двухмерная поза + маски переднего плана) и параметризованных шаблонах трехмерных моделей человека.

Собранные вручную материалы конференции

Здесь я сосредоточусь на общих, простых и эффективных идеях для решения различных задач. Также выбираются некоторые бумаги для конкретных приложений.

Управляемый синтез изображений

  • Исследуемое суперразрешение (устно). Позволяет пользователю исследовать бесконечное количество возможных решений с высоким разрешением для заданного входа с низким разрешением. Основным вкладом является модуль обеспечения согласованности (CEM), который обеспечивает согласованность нескольких возможных выходов с высоким разрешением при понижении дискретизации с входом с низким разрешением. CEM не требует обучения и может применяться к любой модели SR для улучшения согласованности.

  • Генерация распутанных и контролируемых изображений лиц с помощью трехмерного имитационно-контрастного обучения (устно). Контрастное обучение в этом году очень популярно. Большинство методов контрастного обучения используются для самостоятельного обучения по задачам классификации изображений. Однако в этой статье предлагается использовать контрастное обучение для улучшения распутанного представления для создания человеческого лица: варьировать одну скрытую переменную, оставляя другие неизменными, и обеспечивать, чтобы разница на сгенерированных изображениях лиц относилась только к этой скрытой переменной.

Работа с несбалансированными данными

  • Создание непредвзятого графа сцены из предвзятого обучения (устное). Обычное обучение страдает от предвзятых данных. В этой статье предлагается беспристрастный вывод, основанный на контрфактическом мышлении, даже если обучение по-прежнему основано на данных. Объективные прогнозы могут быть получены путем вычитания распределений вероятностей между слепыми и неслепыми прогнозами.

  • Преодоление дисбаланса классификатора для обнаружения объектов с длинным хвостом с помощью сбалансированной группы Softmax (Устный). Простое обучение детектора объектов на длиннохвостом наборе данных приведет к значительному падению производительности. Авторы заметили, что для каждого класса объектов норма веса в экстракторе признаков положительно коррелирует с количеством обучающих примеров (т. Е. Хвостовой класс имеет небольшую норму веса). Эффект несбалансированных норм веса в основном вызван стандартным softmax. Поэтому они предлагают группировать классы с одинаковым количеством обучающих примеров и разработать сгруппированный softmax, чтобы на весовую норму хвостовых классов не влияли главные классы. Идея интуитивно понятная и хорошая, но можем ли мы превратить этот дискретный групповой процесс в более непрерывный (например, потеря фокуса)?

Многозадачное обучение

  • LSM: Минимизация обучающего подпространства для зрения на низком уровне (оральное). Многие задачи низкого уровня видения могут быть сформулированы как минимизация срока данных и срока регуляризации. Однако термин регуляризации часто зависит от конкретной задачи. Чтобы объединить их, они предлагают представить решение как линейную комбинацию базисных векторов и решить коэффициенты комбинации (интуиция: Собственные грани для PCA). Эта структура позволяет многозадачное обучение с полностью общими параметрами. Они достигают SoTA по четырем низкоуровневым задачам (интерактивная сегментация изображения, сегментация видео, сопоставление стерео и оптический поток) с меньшим размером модели, более быстрой сходимостью обучения, временем вывода в реальном времени и более обобщением для невидимых областей.

Репрезентативное обучение

  • На пути к обучению обратно-совместимому представлению (устное). Проблема обратной совместимости заключается в том, что, например, при извлечении изображений на основе встраивания при изменении новой версии DNN вложения изображений необходимо повторно вычислять во время автономного сеанса. Однако, когда количество изображений исчисляется миллиардами, на его обработку может уйти неделя. Можем ли мы перейти на новую версию DNN без пересчета вложений? Ответ положительный. Они предлагают обучать новую версию встраиваний, используя 1) старую версию классификатора со старой версией данных; 2) новая версия классификатора одновременно с новой версией данных. Это работает лучше, чем дистилляция функций из встраиваемых версий старых версий.

  • Потеря круга: единая перспектива оптимизации парного сходства (устно). Просто указав два веса (гиперпараметр) для положительной пары и отрицательной пары соответственно в тройной потере, автор математически показал, что эта простая модификация приводит к лучшей производительности в нескольких задачах, таких как распознавание лиц, reID и поиск изображений, которые все требует изучения сходства.

Самостоятельное обучение

Полу-контролируемое обучение

Обучение со слабым контролем (для семантической сегментации)

Одна из типичных задач обучения без учителя - семантическая сегментация. Общий подход заключается в использовании карты активации классов (CAM), созданной классификатором изображений, в качестве псевдометки семантической сегментации. Однако основная проблема заключается в том, что эти CAM обычно представляют собой небольшие отличительные части объектов. Давайте посмотрим, как следующие документы решают эту проблему.

Обнаружение объекта

Извлечение знаний

  • Вернемся к дистилляции знаний с помощью регуляризации сглаживания этикеток (устно).
  • То, что он считает важным, важно: устойчивость передается через входные градиенты (устно). Мы часто видели, что результативность модели учителя может быть перенесена на модель ученика посредством дистилляции знаний. Однако в этой статье впервые показано, что устойчивость к противодействию также может передаваться как в межзадачных, так и в кросс-архитектурных настройках! Идея состоит в том, чтобы использовать состязательную потерю, чтобы согласовать входные градиенты между моделями учителя и ученика.

Увеличение объема данных

Оптимизация

  • Уровень нормализации отклика фильтра: устранение пакетной зависимости при обучении глубоких нейронных сетей. (Устно). Объедините нормализацию и активацию в один слой. Превосходит все методы нормализации SoTA, от мелких до крупных.

Оценка и обобщение

  • Вычисление ошибки тестирования без набора для тестирования (Устный). Получение высокой точности на тестовом тесте ImageNet не означает, что проблема распознавания решена. Способность DNN к обобщению варьируется в зависимости от тестового набора с разными метками. В предыдущей статье отмечается, что DNN, которые обобщают, имеют определенные шаблоны подключения. В этой статье предлагается измерять шаблоны связности с помощью топологических дескрипторов. Они обнаружили, что это измерение хорошо коррелирует с пробелом в обобщении.

Оценка неопределенности

  • О неопределенности самостоятельной оценки глубины монокуляра (Плакат). Сравните несколько существующих методов оценки неопределенности при самостоятельной оценке глубины с помощью монокуляра и предложите новый метод, сочетающий самообучение и неопределенность данных.
  • Масштабируемая неопределенность для компьютерного зрения с функциональным вариационным выводом (плакат).
  • CNN с неопределенностью для завершения: неопределенность от начала до конца (плакат).

Спасибо! Это все для этого поста! Надеюсь, вам понравится читать, а также вы получите вдохновение, как я на виртуальной конференции CVPR.