Ученые разрабатывают программы по «социализации» сервисных роботов

Сервисные роботы начали появляться в различных повседневных задачах, таких как доставка посылок, в качестве собак-поводырей для слабовидящих, в качестве государственных служащих в аэропортах или, как это было замечено в Йоэнсуу: при проверке строительных работ.

Роботы способны передвигаться по-разному: на ногах, на колесах или в полете. Они знают кратчайший или самый простой маршрут к месту назначения. Собака-поводырь может найти расписание автобусов или даже заказать такси, когда это необходимо.

Однако роботам трудно справляться с одной основной задачей: передвигаться посреди толпы людей. Робот наблюдает за окружающей средой с помощью камеры и других датчиков, но его движение прерывистое, с постоянными изменениями направления, включая несколько остановок. Таким образом, роботам обычно даже не разрешается путешествовать в одиночку.

Проблема новейших роботов заключается не в поиске пункта назначения или наблюдении за окружающим миром, а в реакции толпы в режиме реального времени. Современные методы требуют слишком большого количества вычислительных ресурсов и поэтому не подходят для применения в режиме реального времени, где реакция должна быть быстрой.

В своей диссертации Чэнмин Чжоу, магистр наук, использовал алгоритмы обучения с подкреплением (RL) для навигации сервисных роботов. Алгоритмы решают навигационные задачи в случае нескольких движущихся препятствий — то есть, например, в ситуации, когда робот движется в толпе людей и имеет ограниченное время для реагирования.

Лучшим решением оказался алгоритм RL без модели, который позволяет роботам извлекать уроки из своего исторического опыта. После обучения роботы способны выживать даже в сложных ситуациях. Однако алгоритм RL без модели сталкивается со многими проблемами, такими как низкая эффективность обучения (конвергенция). В этой диссертации эффективность обучения была повышена двумя различными способами:

  • Использование данных, собранных во время работы, для обучения робота. При управлении роботами получаются новые данные в режиме реального времени. Эти данные можно комбинировать с предыдущими данными обучения, тем самым улучшая обучение робота.
  • Перевод информации об окружающей среде. Информация с датчиков, собранная из рабочей среды робота, не может быть изучена эффективно и точно. Это должно быть интерпретировано или переведено таким образом, чтобы робот мог легко его освоить, а полученные знания (обученная модель) можно было использовать для навигации в других подобных ситуациях.

Роботизированная навигация улучшена с трех технических аспектов: дискретные действия (предоставление роботам ограниченного выбора действий для выбора следующего действия), смешивание данных реального времени и исторических данных, а также использование реляционных данных (использование взаимосвязи робота и препятствий для обучения роботов). Разработанные алгоритмы были протестированы как с помощью компьютерного моделирования, так и в лабораторных условиях в Шэньчжэньском технологическом университете, Китай.