Новый инструмент ИИ помогает компьютерам интерпретировать мир

Копирование и вставка: это простая концепция. Пользователь определяет текст или изображение на своем компьютере, копирует его и вставляет в нужное место.

А если подумать о новом кожаном диване, о котором человек мечтает. Популярные приложения дополненной реальности (AR) позволяют вырезать и вставить изображение дивана в фотографию гостиной пользователя перед покупкой, чтобы увидеть, нравится ли он.

Команда исследователей из Департамента компьютерных наук Томаса Лорда Университета Южной Калифорнии в Витерби разработала аналогичную технику для копирования виртуальных 3D-объектов и вставки их в реальные картины в помещении. Это создает общее естественное и реалистичное изображение с точки зрения пространственных отношений, ориентации объектов и освещения.

Более того, эта техника, называемая 3D Copy-Paste, может научить компьютеры распознавать виртуальные 3D-объекты во множестве различных ситуаций, не полагаясь на утомительный и дорогостоящий процесс, когда человек загружает компьютер пачками данных.

«Речь идет об обучении систем машинного обучения распознавать 3D-объекты в помещениях с помощью метода, который значительно улучшает существующие 3D-модели объектов и достигает самой современной производительности», — сказал профессор компьютерных наук Лоран Итти.

Один из докторантов Итти, Юньхао «Энди» Гэ, представляет исследовательскую работу «3D Copy-Paste: Physical Probusible Object Insertion for Monocular 3D Detection» на 37-й конференции по системам обработки нейронной информации (NeurIPS 2023) в Новом Орлеане 11-16 декабря.

«Это первая работа, показывающая, что мы можем вставлять фотореалистичные 3D-объекты в реальную сцену в помещении и создавать достаточно данных для обучения модели искусственного интеллекта самостоятельному масштабированию распознавания таких объектов», — сказал Ге.

Итти и Гэ работали над проектом вместе с доцентом кафедры компьютерных наук Цзяцзюнь Ву и его аспирантом четвертого курса Стэнфордского университета Хун-Сином «Ковеном» Ю, а также четырьмя учеными-компьютерщиками из Bosch Research North America: Чэн Чжао, Юйлян Го, Синьюй Хуан и Лю Жэнь.

Инструмент 3D Copy-Paste — это то, что известно в мире искусственного интеллекта как метод генеративного дополнения данных, в котором алгоритмы обучаются создавать связный и значимый контент, который очень похож на созданный человеком результат, обучаясь на шаблонах, тенденциях и взаимосвязях.

3D Copy-Paste может иметь «глубокие» последствия как для компьютерной графики, так и для областей компьютерного зрения, говорят Итти и Ге.

Возьмем, к примеру, технологию автономного вождения.

Если пользователь хочет научить ИИ в беспилотном автомобиле избегать столкновения с коровой перед движущимся транспортным средством, ИИ поначалу может запутаться — корова обычно не находится посреди дороги. Пользователю нужно будет скормить ИИ изображение коровы перед автомобилем, чтобы он быстро распознал объект.

Но инструмент 3D Copy-Paste позволяет компьютеру распознавать объект в бесконечном разнообразии сред без необходимости предварительно загружать тонну изображений. Кроме того, он может создавать новые изображения, которых не существует в реальном мире, например, корова, идущая по Луне, которые органично сочетаются с фотографией внутренней среды и кажутся физически правдоподобными.

«Вам не нужен человек, чтобы вручную наносить маркировку, потому что, когда этот виртуальный 3D-объект вставляется в реальную сцену в помещении, он автоматически генерирует метки для понимания ИИ», — объясняет Гэ.

«Этот инструмент может генерировать миллионы комбинаций изображения объекта, что позволяет обучать модель ИИ намного лучше благодаря высококачественным данным, создаваемым этим инструментом», — добавляет Итти.

Главное — сделать вставленный объект физически правдоподобным, что означает, что он не будет «сталкиваться» с существующими объектами и будет иметь правильное освещение.

3D-копирование и вставка сначала определяет физически возможные местоположения и позы для вставленных объектов, чтобы предотвратить столкновения с существующей планировкой помещения. Затем он оценивает пространственно изменяющееся освещение для места вставки, обеспечивая иммерсивное слияние виртуальных объектов с исходной сценой с правдоподобным внешним видом и тенями.

Короче говоря, 3D Copy-Paste может улучшить то, как компьютеры видят и интерпретируют вещи в 3D-пространстве.

«По мере того, как технология дополненной реальности становится все более распространенной и используется в различных приложениях, методы, которые мы разработали, могут помочь улучшить пользовательский опыт и сделать виртуальные объекты органично вписывающимися в наш реальный мир», — сказал Гэ.

Еще одно применение 3D Copy-Paste может быть в оцифровке промышленных рабочих процессов.

По мере того, как промышленные предприятия переходят к оцифровке своих рабочих процессов и созданию цифровых двойников реальных активов, возможность вставлять реалистичные 3D-объекты в эти цифровые представления становится критически важной, говорят Итти и Ге.

Метод 3D-копирования-вставки, по их словам, может гарантировать, что любые виртуальные дополнения к этим цифровым двойникам, такие как новое оборудование или структуры, будут выполнены физически точным и визуально согласованным образом.

«Наши результаты подчеркивают потенциал дополнения 3D-данных в улучшении производительности задач 3D-восприятия, открывая новые возможности для исследований и практического применения», — сказал Гэ.