IBM разрабатывает новый 64-ядерный вычислительный чип со смешанным сигналом в памяти

На протяжении десятилетий инженеры-электронщики пытались разрабатывать все более совершенные устройства, которые могли бы выполнять сложные вычисления быстрее и потреблять меньше энергии.

Это стало еще более актуальным после появления искусственного интеллекта (ИИ) и алгоритмов глубокого обучения, которые обычно предъявляют существенные требования как к объему хранения данных, так и к вычислительной нагрузке.

Многообещающий подход к выполнению этих алгоритмов известен как analog in-memory computing (AIMC). Как следует из названия, этот подход заключается в разработке электроники, которая может выполнять вычисления и хранить данные на одном чипе. Чтобы реально добиться повышения скорости и энергопотребления, этот подход в идеале должен также поддерживать встроенные в чип цифровые операции и коммуникации.

Исследователи из IBM Research Europe недавно разработали новый 64-ядерный вычислительный чип со смешанным сигналом в памяти, основанный на устройствах памяти с фазовым изменением, которые могли бы лучше поддерживать вычисления глубоких нейронных сетей. Их 64-ядерный чип, представленный в статье в Nature Electronics, к настоящему времени достиг весьма многообещающих результатов, сохраняя точность алгоритмов глубокого обучения при одновременном сокращении времени вычислений и энергопотребления.

«Мы изучали, как использовать устройства памяти с фазовым переходом (PCM) для вычислений более 7 лет, начиная с того момента, когда мы впервые показали, как реализовать нейронные функции с помощью отдельных устройств PCM», — сказал Tech Xplore Мануэль Ле Галло, один из авторов статьи.

«С тех пор мы показали, что многие приложения могли бы извлечь выгоду из использования устройств PCM в качестве вычислительных элементов, таких как научные вычисления и вывод по глубокой нейронной сети, для которых мы продемонстрировали незначительную потерю точности в аппаратно-программных реализациях с использованием прототипов чипов PCM. С помощью этого нового чипа мы хотели сделать шаг вперед к созданию сквозного аналогового чипа-ускорителя вывода искусственного интеллекта».

Чтобы создать свой новый вычислительный чип в памяти, Ле Галло и его коллеги объединили ядра на базе PCM с цифровыми вычислительными процессорами, соединив все ядра и цифровые процессоры через встроенную цифровую коммуникационную сеть. Их чип состоит из 64 аналоговых PCM-ядер, каждое из которых содержит массив синаптических элементарных ячеек размером 256 на 256.

«Мы интегрировали компактные аналого-цифровые преобразователи с временной привязкой в каждое ядро для перехода между аналоговым и цифровым мирами», — пояснил Ле Галло. «Каждое ядро также интегрировано с облегченными цифровыми процессорами, которые выполняют функции активации нейронов с выпрямленной линейной единицей (ReLU) и операции масштабирования. В середину чипа встроен глобальный цифровой процессор, который реализует сетевые операции с долговременной кратковременной памятью (LSTM)».

Уникальной характеристикой чипа является то, что содержащиеся в нем ядра памяти и его глобальный процессор соединены через цифровую коммуникационную сеть. Это позволяет ему выполнять все вычисления, связанные с отдельными уровнями нейронной сети на кристалле, значительно сокращая время вычислений и энергопотребление.

Чтобы оценить свой чип, Ле Галло и его коллеги провели всестороннее исследование, запустив на своем чипе алгоритмы глубокого обучения и протестировав его производительность. Результаты их оценки были чрезвычайно многообещающими, поскольку при запуске на чипе и тестировании на наборе данных изображений CIFAR-10 глубокие нейронные сети, обученные для выполнения задач распознавания изображений, достигли замечательной точности в 92,81%.

«Мы считаем, что это самый высокий уровень точности среди всех известных в настоящее время чипов, использующих подобную технологию», — сказал Ле Галло. «В статье мы также показали, как мы можем легко комбинировать аналоговые вычисления в памяти с несколькими цифровыми процессорами и цифровой структурой связи. Измеренная производительность на единицу площади для 8-разрядного ввода-вывода матричного умножения 400 ги/мм2 чипа более чем в 15 раз выше, чем предыдущие многоядерные, вычислений в оперативной памяти чипов на основе резистивной памяти, при достижении сопоставимых повышения энергетической эффективности».

Недавняя работа IBM Research Europe является дальнейшим шагом на пути к разработке чипов AIMC, которые могут поддерживать потребности алгоритмов глубокого обучения. В будущем дизайн, представленный Ле Галло и его коллегами, может быть доработан для обеспечения еще большей производительности.

«Используя наш опыт работы с этим чипом и другим чипом из 34 плиток, который был представлен на VLSI в 2021 году, мы разработали сквозную архитектуру аналогового ускорителя вывода AI, которая была опубликована ранее в этом году в IEEE Transactions on VLSI systems», — добавил Ле Галло. «Наше видение сочетает множество аналоговых вычислительных плиток в памяти с набором специализированных цифровых вычислительных ядер, соединенных массивно-параллельной 2D-сеткой. В сочетании со сложным обучением с учетом аппаратного обеспечения, которое мы разработали в последние годы, мы ожидаем, что в ближайшие годы эти ускорители обеспечат точность нейронных сетей, эквивалентную программному обеспечению, для широкого спектра моделей «.