Как уроки, извлеченные из приложений компьютерного зрения в географии, повлияют на анализ биологических изображений (Часть 1)

Автор: Ник Вейр (старший специалист по анализу данных, In-Q-Tel CosmiQ Works), Джей Джей Бен Джозеф (член технического персонала, In-Q-Tel B.Next) и Дилан Джордж (вице-президент, технический персонал, In-Q). -Тел Б. Далее). Это часть 1 сотрудничества между CosmiQ Works и B.Next, и она опубликована в обоих блогах.

Вступление

Марк Андреесен описал софтверные компании как поедающие традиционный бизнес. Точно так же компьютерное зрение начало поглощать мир ручного анализа изображений. Однако, когда мы выходим за рамки стандартных фотографий и входим в нишевые области, такие как биологические изображения (медицинские изображения, данные микроскопии) и спутниковые изображения, это оказывается менее верным. Компьютерное зрение пожирает эти данные, как Чарльстон Чу, который остался на улице зимой в Новой Англии: изо всех сил пытается откусить их, отламывает мелкие кусочки, затем тяжело жевает, прежде чем, наконец, проглотить (или выплюнуть его обратно в отчаянии). Компания IQT CosmiQ Works внимательно следила за превращением приложений искусственного интеллекта и компьютерного зрения в спутниковые снимки, извлекая ключевые уроки о трудностях, связанных с переносом инструментов искусственного интеллекта между областями. В то же время CosmiQ Works и команда IQT B.Next заметили, что разработка продуктов искусственного интеллекта для медицины на несколько лет отстает от соответствующих геопространственных приложений и только начинает набирать обороты. В этой серии блогов мы рассмотрим, почему искусственный интеллект изо всех сил пытается завоевать популярность как со спутниковыми изображениями, так и с медициной. Мы также рассмотрим некоторые сходства и различия между спутниковыми снимками, микроскопией и обычными фотографиями, а также выясним, почему исследователи, разрабатывающие методы искусственного интеллекта для микроскопии, могут захотеть тщательно изучить работу, выполняемую в геопространственных данных.

Что такое компьютерное зрение и как оно пожирает мир образов?

Компьютерное зрение - это термин, охватывающий широкий спектр методов, которые компьютеры используют для интерпретации изображений и видео. До ~ 2010 года это в основном достигалось с помощью набора инструментов, включая обнаружение границ, сегментацию водораздела и другие эвристические методы.

Взрыв глубоких искусственных нейронных сетей, начавшийся примерно в 2010 году, перевернул область компьютерного зрения. Глубокие нейронные сети многократно применяют простые математические операции для представления все более абстрактных функций исходного входного изображения. Глубокое обучение можно рассматривать как автоматический способ выбора правильных шагов для последовательной обработки данных и создания прогноза: например, для прогнозирования местоположения объекта на изображении. Глубокие нейронные сети вошли в процесс обработки изображений с появлением сверточных нейронных сетей (CNN), которые были впервые описаны в 1980-х годах и получили распространение в новом тысячелетии, поскольку расширенные вычислительные мощности сделали сложные сети возможными. Сети CNN позволяют исследователям компьютерного зрения достигать множества целей, от классификации изображений до идентификации объектов, представляющих интерес, и, в частности, от отслеживания границ каждого отдельного объекта.

По мере того, как такие компании, как Google, Amazon и Apple, начали создавать продукты на основе этих методов, многие начали расширять приложения, выходящие за рамки обычных фотографий (например, фотографии телефонов с камерой, камеры видеонаблюдения, камеры на приборных панелях автомобилей) в новых областях: медицинская визуализация, геопространственные изображения, 3D. данные, такие как обнаружение света и дальность (LIDAR), и даже проекции изображений звуковых и генетических данных, среди прочего. Различия, присущие этим «необычным» типам изображений, создают уникальные проблемы, которые необходимо решить, прежде чем можно будет применить новейшие и лучшие методологии компьютерного зрения. Здесь мы подробно рассмотрим эти проблемы в геопространственной области, в которой компания IQT CosmiQ Works потратила несколько лет на изучение того, как применять современные методы компьютерного зрения к спутниковым изображениям. Многие из проблем, с которыми столкнулась CosmiQ, имеют аналоги в анализе медицинских изображений, особенно данных микроскопии, которые будут более полно исследованы в последующих блогах.

Расширение возможностей компьютерного зрения и искусственного интеллекта: испытания спутниковых изображений

Что такое спутниковые снимки?

Давайте начнем с самого фундаментального вопроса: что такое спутниковые снимки и чем они отличаются от естественных? Давайте посмотрим на пример каждой из них:

Представим, что нас попросили разработать алгоритмы для определения и отслеживания границ интересующих объектов на этих изображениях (проблема «сегментации экземпляров» для специалистов по CV). На фотографии естественной сцены нам нужно найти все объекты переднего плана (собаку, летающую тарелку, палец); На спутниковом снимке мы пытаемся найти все здания и дороги. В чем сходства и различия этих проблем?

Начнем с сходства между этими задачами. В обоих случаях мы пытаемся выделить все отдельные целевые объекты, поэтому один и тот же тип алгоритма должен работать для обоих типов изображений. Обе фотографии - фотографии, поэтому сверточные нейронные сети должны помочь. Однако на этом сходство заканчивается и возникают проблемы, связанные со спутниками.

Размер и количество объектов

Неудивительно, что целевые объекты обычно выглядят намного меньше на спутниковых снимках, что затрудняет их поиск. На приведенной выше фотографии естественной сцены изображена только одна собака, а ее размер составляет более 48 000 пикселей, что составляет около четверти изображения. Напротив, спутниковое изображение содержит много зданий, но они очень маленькие - здания в наборе данных SpaceNet Atlanta в среднем составляют около 1200 пикселей, или 2,5% от размера собаки слева. Поскольку расположение и цвет пикселей предоставляют информацию, которая говорит нам, что такое собака, пожарный гидрант или здание, количество пикселей в каждом объекте определяет, какой объем информации модель может использовать для его идентификации. Исследования показали, что CNN используют текстуру для идентификации объектов на изображениях, а объекты меньшего размера содержат меньше информации о текстуре. Конечный результат: объекты меньшего размера труднее найти, что затрудняет анализ спутниковых изображений для современных моделей компьютерного зрения.

Так же, как размер объекта несовместим между обычными фотографиями и снимками со спутника, так же и изобилие объектов. Давайте сравним распределение количества зданий на изображение в наборе данных SpaceNet Atlanta с количеством объектов на изображение в наборе обучающих данных COCO:

Разница разительна: в наборе спутниковых снимков SpaceNet больше изображений с большим количеством объектов, чем в COCO. Напротив, количество интересных объектов на фотографиях естественных сцен гораздо более постоянное. Даже в случаях с редкими объектами в изображениях естественной сцены необычно, что изображения, содержащие объект, содержат более нескольких экземпляров цели: см. Разбивку по категориям COCO "собаки" выше. Конечным результатом является то, что изображения естественной сцены имеют гораздо более однородное количество объектов. Это особенно актуально для алгоритмов обнаружения объектов, где алгоритм должен узнать, сколько объектов идентифицировать (или иметь это значение, предоставленное специалистом по данным).

Полосы изображений

В отличие от обычных фотографий, спутниковые изображения редко состоят из стандартной трехканальной комбинации красного-зеленого-синего (RGB). Многие спутники собирают свет в широком диапазоне длин волн, включая очень синий прибрежный диапазон, желтый, ближний инфракрасный (NIR), коротковолновый инфракрасный (SWIR) и другие (Рисунок 6). Обширные исследования показали, что эти дополнительные полосы помогают идентифицировать такие особенности, как растительность, городские районы и водоемы, что делает их важным для включения во многие задачи спутникового компьютерного зрения. Восемь или более диапазонов часто предоставляются в коммерческих продуктах спутниковых изображений, таких как продукты мультиспектральных изображений от Maxar Technologies.

Однако, поскольку большинство моделей компьютерного зрения ожидают 3-канальные входы RGB, они не могут вместить эти дополнительные данные. Некоторые специалисты по геопространственным данным работают над этим, начиная с предварительно обученных моделей для RGB, а затем обучая другие полосы с нуля, но обучение этих моделей может быть трудным и неэффективным. Нехватка моделей, разработанных для так называемых многоспектральных спутниковых изображений и предварительно обученных на них, очень затрудняет эффективное использование этих данных.

Размер изображения

Еще одна проблема - это огромный размер среднего спутникового изображения. Наборы данных SpaceNet состоят из примерно 35 спутниковых изображений, охватывающих 10 городов по всему миру. Их размеры различаются, но большинство этих изображений имеют размер примерно 150 на 50 000 пикселей, что примерно в 900 раз больше размера изображения 4K UHD. Немногие модели компьютерного зрения могут вместить изображения размером более 1024 пикселей на стороне, а это означает, что для анализа одного спутникового изображения специалисту по данным минимально потребуется разделить его на более чем 7000 частей и запустить каждую отдельно - и это соответствует только примерно 0,1% от изображения. ежедневные возможности сбора данных для MAXAR Worldview-3, спутника, собравшего большую часть набора данных SpaceNet! Подобная мозаика изображений также создает дополнительные проблемы: краевые эффекты распространены в алгоритмах машинного обучения, и согласование объектов на границах между двумя плитками может быть затруднено. Как мы рассмотрим более подробно в нашем следующем блоге, это также верно и для микроскопических изображений, где сканирование целого слайда очень велико.

Доступность данных

Ограниченная доступность хорошо маркированных спутниковых изображений для общественности замедлила исследования и разработки. Хотя компании начинают предоставлять услуги маркировки повседневных изображений, очень немногие компании могут маркировать накладные изображения, учитывая дополнительные проблемы, которые это создает. В результате не так много хорошо размеченных общедоступных наборов данных спутниковых снимков, с которыми можно было бы сравнивать алгоритмы искусственного интеллекта, а это означает, что сложно обучать модели и надежно оценивать производительность. Это замедляет исследования и затрудняет демонстрацию ценности продукта. Более того, большинство существующих наборов данных с открытым исходным кодом либо географически ограничены, либо относительно малы, либо имеют непоследовательные маркировки. Компаниям, которые хотят применить машинное обучение к изображениям над головой, вероятно, потребуется заказать маркировку пользовательского набора данных, подходящего для их варианта использования, что является сложной и часто непомерно дорогой задачей на нынешнем рынке.

Экспертиза в предметной области

Последний барьер, который стоит отметить, - это объем знаний в предметной области, необходимый для исследования приложений компьютерного зрения в геопространственной сфере. Помимо всех концепций науки о данных, которые необходимо понимать для разработки алгоритмов компьютерного зрения - линейной алгебры, сверточных нейронных сетей и статистики, и многих других - специалист по геопространственным данным должен также понимать географические системы координат, полосы спутниковых изображений (как упоминалось ранее ), форматы геопространственных данных (например, GeoJSON) и ряд других концепций, специфичных для геопространственных данных. Добавьте к этому дополнительные программные инструменты, с которыми должны быть знакомы специалисты по геопространственным данным, такие как GDAL, QGIS или ArcGIS, и неудивительно, что попытка нанять хорошо оснащенных специалистов по геопространственным данным похожа на попытку нанять единорогов. Как мы обсудим в следующем посте этой серии, этот барьер только усиливается в медицинской сфере.

Состояние геопространственного машинного обучения сегодня

Из-за вышеупомянутых различий и других проблем геопространственные приложения ИИ отставали от обычных фотографий и видео. Это привело к возникновению проблемы курицы и яйца: для геопространственного анализа было разработано несколько моделей ИИ, потому что для геопространственного ИИ мало распространенных коммерческих приложений (возможно, потому, что доступно несколько явно стоящих моделей). Компании, занимающиеся геопространственной аналитикой, относительно редки, и исследования в области геопространственной аналитики составляют крошечную часть работы, представленной на конференциях по компьютерному зрению. Учитывая ограниченное количество экспертов, ограниченный коммерческий рынок и отсутствие хорошо маркированных данных для разработки моделей, неудивительно, что приложения геопространственного ИИ еще не процветают.

Заключение

В этом блоге мы представили пример того, как могут возникнуть трудности при переходе от обычных фотографий к необычным изображениям. Многие из этих трудностей имеют аналоги в других областях, включая медицинские изображения, область, которую специалисты по компьютерному зрению и искусственному интеллекту только начинают изучать с точки зрения продукта. Следите за обновлениями во второй части серии, где мы более подробно рассмотрим ИИ на медицинских изображениях и какие уроки в этой области можно извлечь из разработки продуктов геопространственного ИИ.