Новый метод помогает ИИ перемещаться в 3D-пространстве с помощью 2D-изображений

Фотографии являются двумерными (2D), но автономные транспортные средства и другие технологии должны ориентироваться в трехмерном (3D) мире.

Исследователи разработали новый метод, помогающий искусственному интеллекту (ИИ) извлекать 3D-информацию из 2D-изображений, что делает камеры более полезными инструментами для этих новых технологий.

«Существующие методы извлечения 3D-информации из 2D-изображений хороши, но недостаточно», — говорит Тяньфу Ву, соавтор статьи об этой работе и адъюнкт-профессор электротехники и вычислительной техники в Университете штата Северная Каролина. «Наш новый метод, называемый MonoXiver, может использоваться в сочетании с существующими методами — и делает их значительно более точными».

Эта работа особенно полезна для таких приложений, как автономные транспортные средства. Это потому, что камеры дешевле других инструментов, используемых для навигации в 3D-пространствах, таких как ЛИДАР, который использует лазеры для измерения расстояния. Поскольку камеры более доступны по цене, чем эти другие технологии, разработчики автономных транспортных средств могут устанавливать несколько камер, создавая избыточность в системе.

Но это полезно только в том случае, если ИИ в автономном транспортном средстве может извлекать 3D-навигационную информацию из 2D-изображений, сделанных камерой. Здесь на помощь приходит MonoXiver.

Существующие методы извлечения 3D—данных из 2D-изображений, такие как технология MonoCon, разработанная Ву и его сотрудниками, используют «ограничивающие рамки». В частности, эти методы обучают ИИ сканировать 2D-изображение и размещать 3D-рамки вокруг объектов на 2D-изображении, таких как каждый автомобиль на улице.

Эти коробки представляют собой кубоиды, имеющие восемь точек — подобные углам обувной коробки. Ограничивающие рамки помогают ИИ оценивать размеры объектов на изображении и расположение каждого объекта по отношению к другим объектам. Другими словами, ограничивающие рамки могут помочь ИИ определить, насколько велик автомобиль и где он находится по отношению к другим машинам на дороге.

Однако ограничивающие рамки существующих программ несовершенны и часто не включают части транспортного средства или другого объекта, которые отображаются на 2D-изображении.

Новый метод MonoXiver использует каждую ограничивающую рамку в качестве отправной точки или привязки, и ИИ выполняет повторный анализ области, окружающей каждую ограничивающую рамку. В результате этого второго анализа программа создает множество дополнительных ограничивающих рамок, окружающих привязку.

Чтобы определить, в каком из этих вторичных блоков лучше всего отражены «недостающие» части объекта, ИИ проводит два сравнения. При одном сравнении рассматривается «геометрия» каждого дополнительного блока, чтобы увидеть, содержит ли он формы, которые соответствуют формам в базовом блоке. Другое сравнение рассматривает «внешний вид» каждого дополнительного блока, чтобы увидеть, содержит ли он цвета или другие визуальные характеристики, похожие на визуальные характеристики того, что находится внутри привязочного блока.

«Одним из значительных достижений здесь является то, что MonoXiver позволяет нам очень эффективно использовать этот метод выборки сверху вниз — создавать и анализировать вторичные ограничивающие рамки», — говорит Ву.

Чтобы измерить точность метода MonoXiver, исследователи протестировали его с использованием двух наборов данных 2D-изображений: хорошо зарекомендовавшего себя набора данных KITTI и более сложного, крупномасштабного набора данных Waymo.

«Мы использовали метод MonoXiver совместно с MonoCon и двумя другими существующими программами, которые предназначены для извлечения 3D-данных из 2D-изображений, и MonoXiver значительно улучшил производительность всех трех программ», — говорит Ву. «Мы получили наилучшую производительность при использовании MonoXiver в сочетании с MonoCon».

«Также важно отметить, что это улучшение связано с относительно небольшими вычислительными затратами», — говорит Ву. «Например, MonoCon сам по себе может работать со скоростью 55 кадров в секунду. Это замедляется до 40 кадров в секунду, когда вы включаете метод MonoXiver, который все еще достаточно быстр для практического использования «.

«Мы в восторге от этой работы и будем продолжать оценивать и дорабатывать ее для использования в автономных транспортных средствах и других приложениях», — говорит Ву.