Ферран Диего

Прогнозирование намерения пешехода направлено на понимание следующего действия пешехода до того, как оно произойдет. При автономном вождении эта способность предвидеть действия очень полезна для снижения риска возможной аварии. Водители-люди понимают намерение, используя прошлые движения актера; они способны распознавать действия, просто воспринимая тонкие изменения в позе. Например, на рисунке ниже показан сценарий городского движения, когда женщина (синяя ограничивающая рамка) приближается к дороге. Учитывая историю визуальных наблюдений, интересная задача состоит в том, чтобы предсказать, намеревается ли женщина перейти дорогу или остановиться у тротуара. Основываясь на прошлом опыте и ожиданиях, человек-наблюдатель может предположить, что он, скорее всего, остановится у обочины. Это решение основано на тонких изменениях наблюдаемого человека. Даже если контекст сцены не виден, как показано в увеличенных ограничивающих рамках фигуры, наблюдатель все равно может сделать вывод о том, что он, вероятно, остановится, основываясь исключительно на незначительных изменениях в последовательности поз.

В настоящее время способность предполагать намерение пешехода приближается к глубокой нейронной сети, которая предсказывает фактическое намерение для каждого входного видеосигнала. Использование нейронных сетей интересно благодаря их высокой производительности во многих реальных задачах, но особенно сложно в случае намерения пешехода. Во-первых, они требуют большого количества аннотированных обучающих данных для высокой производительности, а аннотация каждого кадра в последовательности с помощью меток намерения - сложная и в высшей степени субъективная задача. Как показывают увеличенные ограничивающие рамки на приведенном выше рисунке, на основе одного кадра, лишенного контекста или последовательности, намерения пересечения и остановки выглядят одинаково вероятными в обоих кадрах. Однако истинное намерение становится яснее, если рассматривать его как последовательность образов. Таким образом, хотя намеренно можно аннотировать только последовательный фрагмент кадров, определение временной протяженности этого фрагмента кадров является очень субъективной задачей. Во-вторых, из-за отсутствия достаточно больших наборов данных для распознавания намерений обучение в основном проводится на небольших наборах данных. Такое обучение с небольшими данными может привести к тому, что алгоритм будет сосредоточен только и именно на этих данных, то есть на выполнении действий нескольких пешеходов. Следовательно, это затрудняет адаптацию к разному выполнению одного и того же действия разными пешеходами.

Работа, проделанная Ферраном Диего, исследователем из научной группы Telefónica, вместе с исследователями из Robert Bosch GmbH и Гейдельбергского университета, представленная в прошлом году на симпозиуме IEEE Intelligent Vehicles Symposium в Чаншу, Китай, предлагает элегантный и интересный подход. изучить эффективную модель для прогнозирования намерения пешехода. В частности, основной целью является интеграция такого трубопровода в систему помощи водителю, которая автоматически тормозит, когда пешеход должен переходить дорогу. Такая система полезна только в том случае, если она способна принимать решения в режиме реального времени, не потребляя при этом вычислительных ресурсов, которые могут потребоваться для других компонентов. Причем эти решения должны быть надежными и предсказывать намерение выполнения любого действия. Однако, как уже упоминалось, основным недостатком является необходимость обучения на большом количестве образцов. Чтобы избежать нехватки больших наборов данных, исследователи предложили новую схему обучения и аннотации (со слабым контролем), которая требует только одной аннотации на выполнение и, следовательно, увеличивает количество обучающих выборок.

По сути, с учетом набора изображений, сделанных до того, как действие произойдет, предлагаемая нейронная сеть стремится предсказать будущее намерение как можно раньше (например, за одну секунду до того, как оно произойдет). Сначала нейронная сеть извлекает представление объекта, которое описывает визуальное содержимое кадра. Обычно и намерения, и связанные с ними действия могут быть хорошо представлены любой стандартной нейронной сетью, используемой в компьютерном зрении. Однако функции, извлеченные из этих сетей, работают для действий, которые сильно отличаются от тех, которые нас интересуют. Поэтому исследователи сосредоточились на использовании компактного визуального дескриптора функции, основанного на позы человека. Этот визуальный дескриптор на основе позы помогает идентифицировать тонкие различия в двигательных движениях и, следовательно, лучше кодирует информацию о намерениях человека. Обнаружение этого намерения только из одной позы действительно неоднозначно, и поэтому исследователи справляются с этим, объединяя временную информацию предыдущих кадров с информацией текущего кадра для принятия окончательного решения.

Обучение такой нейронной сети тривиально с учетом набора данных с аннотациями положения и детализированными аннотациями для всех кадров в любой из последовательностей. Однако это не относится к предсказанию намерения, когда поза человека аннотируется временной информацией о намерении. Исследователи решают эту проблему, разделяя проблему на две части. Сначала представление объекта обучается на стандартном наборе данных для обучения позе, а затем используется в качестве инициализации для всей сети намерений. Во время обучения слои предварительно обученного экстрактора стандартных признаков позы получают меньшие обновления, чем слои, которые собирают временную информацию, и, таким образом, точно настраиваются для распознавания намерений, тем самым изучая более релевантные и отличительные особенности. Во-вторых, отсутствие аннотаций намерений на уровне кадра решается путем переформулирования проблемы как слабо контролируемой, когда предоставляется только метка последовательности, которая отражает намерение на последнем временном шаге, то есть когда действие действительно происходит. Следовательно, эта оптимизация гарантирует, что никакие предположения не будут сделаны, когда намерение начинает проявляться, и, таким образом, позволяет избежать любых предубеждений, которые могут быть внесены из-за субъективной маркировки.

Результаты экспериментов показали, что предлагаемый подход приводит к более раннему и более стабильному обнаружению намерения, чем другие существующие подходы с работой в реальном времени. Они также продемонстрировали способность определять намерение за секунду до того, как пешеход достигнет тротуара, что имеет решающее значение в таких сценариях, как автономное вождение в городе. Как упоминалось ранее, контекст также играет важную роль в распознавании намерений, и исследователи изучат вклад контекстной информации в предложенную модель для более надежного распознавания намерений, пока не будут выполнены ограничения, которые необходимо интегрировать в систему помощи водителю.

Ссылка

О. Гори, Р. Мацковяк, М. Баутиста, Н. Бойтер, Л. Драмонд, Ф. Диего и Б. Оммер. Обучение прогнозированию намерения пешехода по динамике позы. В Proc. симпозиума IEEE по интеллектуальным автомобилям, 2018 г. https://www.researchgate.net/publication/328451374_Learning_to_Forecast_Pedestrian_Intention_from_Pose_Dynamics