Исследование: большие наборы данных не всегда могут быть лучше для моделей ИИ

От ChatGPT до DALL-E алгоритмы искусственного интеллекта (ИИ) с глубоким обучением применяются в постоянно растущем спектре областей.

Новое исследование инженеров из Университета Торонто, опубликованное в Nature Communications, предполагает, что одно из фундаментальных предположений моделей глубокого обучения — что они требуют огромных объемов обучающих данных — может быть не таким надежным, как считалось раньше.

Профессор Джейсон Хаттрик-Симперс и его команда сосредоточены на разработке материалов следующего поколения, от катализаторов, которые превращают улавливаемый углерод в топливо, до антипригарных поверхностей, которые защищают крылья самолетов от обледенения.

Одной из проблем в этой области является огромное потенциальное пространство для поиска. Например, проект Open Catalyst содержит более 200 миллионов точек данных о потенциальных материалах для катализаторов, все из которых по-прежнему охватывают лишь крошечную часть огромного химического пространства, в котором может, например, скрываться нужный катализатор, который поможет справиться с изменением климата.

«Модели искусственного интеллекта могут помочь нам эффективно исследовать это пространство и сузить наш выбор до тех семейств материалов, которые будут наиболее перспективными», — говорит Хаттрик-Симперс

«Традиционно значительный объем данных считается необходимым для обучения точным моделям искусственного интеллекта. Но набор данных, подобный тому, что был получен в проекте Open Catalyst, настолько велик, что для его обработки нужны очень мощные суперкомпьютеры. Итак, возникает вопрос справедливости; нам нужно найти способ идентифицировать меньшие наборы данных, на которых люди, не имеющие доступа к огромным вычислительным мощностям, могли бы обучать свои модели «.

Но это приводит ко второй проблеме: многие из доступных в настоящее время наборов данных о материалах меньшего размера были разработаны для конкретной области — например, для улучшения характеристик электродов батарей.

Это означает, что они, как правило, группируются вокруг нескольких химических составов, аналогичных тем, которые уже используются сегодня, и могут упускать возможности, которые могли бы быть более перспективными, но менее интуитивно очевидными.

«Представьте, что вы хотите построить модель для прогнозирования итоговых оценок учащихся на основе результатов предыдущих тестов», — говорит доктор Кангмин Ли, аспирант из лаборатории Хаттрик-Симперс. «Если бы вы обучали ИИ только на студентах из Канады, он мог бы отлично работать в этом контексте, но он мог бы не суметь точно предсказать оценки для студентов из Франции или Японии. Именно с такой ситуацией мы сталкиваемся в мире материалов «.

Одним из возможных решений для решения вышеуказанных проблем является определение подмножеств данных из очень больших наборов данных, которые легче обрабатывать, но которые, тем не менее, сохраняют весь спектр информации и разнообразие, присутствующие в оригинале.

Чтобы лучше понять, как качества наборов данных влияют на модели, которые они используют для обучения, Ли разработал методы для определения высококачественных подмножеств данных из ранее опубликованных наборов данных материалов, таких как JARVIS, The Materials Project и Open Quantum Materials Database (OQMD). В совокупности эти базы данных содержат информацию о более чем миллионе различных материалов.

Ли построил компьютерную модель, которая предсказывала свойства материала, и обучил ее двумя способами: в одном использовался исходный набор данных, а в другом — подмножество тех же данных, которое было примерно на 95% меньше.

«Мы обнаружили, что при попытке предсказать свойства материала, который содержался в пределах области набора данных, модель, которая была обучена только на 5% данных, работала примерно так же, как и та, которая была обучена на всех данных. И наоборот, при попытке предсказать свойства материала, который находился за пределами области набора данных, обе они справились одинаково плохо», — говорит Ли.

Ли говорит, что полученные результаты предлагают способ измерения степени избыточности в данном наборе данных: если увеличение объема данных не улучшает производительность модели, это может быть показателем того, что эти дополнительные данные избыточны и не предоставляют новой информации для изучения моделями.

«Наши результаты также показывают относительно высокую степень избыточности, скрытую в этих востребованных больших наборах данных», — говорит Ли.

Исследование также подчеркивает то, что эксперты в области искусственного интеллекта из многих областей находят верным: даже модели, обученные на относительно небольших наборах данных, могут работать хорошо, если данные достаточно высокого качества.