Модели машинного обучения могут выдавать надежные результаты при ограниченных данных обучения

Исследователи определили, как создавать надежные модели машинного обучения, которые могут понимать сложные уравнения в реальных ситуациях, используя при этом гораздо меньше обучающих данных, чем обычно ожидается.

Исследователи из Кембриджского и Корнельского университетов обнаружили, что для дифференциальных уравнений в частных производных — класса физических уравнений, которые описывают, как вещи в естественном мире развиваются в пространстве и времени, — модели машинного обучения могут выдавать надежные результаты, даже когда им предоставляются ограниченные данные.

Их результаты, представленные в Proceedings of the National Academy of Sciences, могут быть полезны для построения более экономичных по времени моделей машинного обучения для таких приложений, как инженерное дело и моделирование климата.

Большинству моделей машинного обучения требуются большие объемы обучающих данных, прежде чем они смогут начать выдавать точные результаты. Традиционно человек комментирует большой объем данных — например, набор изображений — для обучения модели.

«Использование людей для обучения моделей машинного обучения эффективно, но это также отнимает много времени и дорого», — сказал первый автор доктор Николас Булле из Института математических наук Исаака Ньютона. «Нам интересно точно знать, как мало данных нам на самом деле нужно, чтобы обучить эти модели и при этом получить надежные результаты».

Другим исследователям удавалось обучать модели машинного обучения с небольшим объемом данных и получать отличные результаты, но как это было достигнуто, не было хорошо объяснено. В своем исследовании Булле и его соавторы, Диана Халикиас и Алекс Таунсенд из Корнельского университета, сосредоточились на дифференциальных уравнениях в частных производных (PDE).

«PDE подобны строительным блокам физики: они могут помочь объяснить физические законы природы, например, как поддерживается устойчивое состояние в тающей глыбе льда», — сказал Булле, который является аспирантом Фонда Саймонса. «Поскольку это относительно простые модели, мы могли бы использовать их, чтобы сделать некоторые обобщения о том, почему эти методы искусственного интеллекта оказались столь успешными в физике».

Исследователи обнаружили, что PDE, моделирующие распространение, имеют структуру, которая полезна для разработки моделей искусственного интеллекта.

«Используя простую модель, вы могли бы применить некоторые из уже известных вам физических параметров к набору обучающих данных для повышения точности и производительности», — сказал Булле.

Исследователи создали эффективный алгоритм для прогнозирования решений PDE в различных условиях, используя происходящие взаимодействия на коротких и дальних расстояниях. Это позволило им встроить в модель некоторые математические гарантии и точно определить, сколько обучающих данных потребовалось для получения надежной модели.

«Это зависит от области, но в случае физики мы обнаружили, что вы действительно можете многое сделать с очень ограниченным объемом данных», — сказал Булле. «Удивительно, как мало данных вам нужно для получения надежной модели. Благодаря математике этих уравнений мы можем использовать их структуру, чтобы сделать модели более эффективными».

Исследователи говорят, что их методы позволят специалистам по обработке данных открыть «черный ящик» многих моделей машинного обучения и разработать новые, которые могут быть интерпретированы людьми, хотя будущие исследования все еще необходимы.

«Нам нужно убедиться, что модели обучаются правильным вещам, но машинное обучение для физики — захватывающая область — есть много интересных математических и физических вопросов, на которые ИИ может помочь нам ответить», — сказал Булле.