Google представил архитектуру Titans, которая преодолевает барьер длинного контекста и обучается на лету

Мир искусственного интеллекта сделал очередной шаг вперед благодаря разработке новой архитектуры нейронных сетей, получившей название "Титаны" (Titans), от компании Google. Эта архитектура решает одну из главных проблем современных моделей – ограничение длины контекста, а также открывает новые возможности для обучения моделей уже после развертывания. Существующие мощные нейросети, такие как Трансформеры, великолепно справляются с задачами, но их производительность резко падает при обработке очень длинных последовательностей данных. Это связано с квадратичной зависимостью вычислительных затрат от длины контекста – чем длиннее текст или последовательность, тем больше ресурсов требуется для обработки.

image

Титаны от Google преодолевают этот барьер благодаря инновационному подходу к управлению памятью. В основе архитектуры лежит специально разработанный "нейронный модуль долговременной памяти". Этот модуль не просто хранит информацию, как обычная память компьютера; он *обучается* запоминать и забывать, используя концепцию "неожиданности". Авторы статьи (Ali BehrouzPeilin ZhongVahab Mirrokni) описывают это как аналогию с человеческой памятью: мы лучше запоминаем необычные или яркие события. В нейросети "неожиданность" оценивается по величине градиента функции потерь относительно входных данных. Чем больше градиент – тем неожиданнее событие и тем выше вероятность его запоминания. Для более эффективного управления памятью используется механизм, аналогичный "забыванию" в рекуррентных сетях (RNN), где информация постепенно теряет свою значимость со временем. Примечательно, что этот механизм эквивалентен оптимизации мета-нейронной сети с использованием мини-пакетного градиентного спуска, момента и уменьшения веса. Это позволяет эффективно распараллеливать вычисления и ускорять процесс обучения.

Этот модуль долговременной памяти работает в тандеме с механизмом внимания (attention), подобным тому, который используется в Трансформерах. Однако, внимание в Титанах работает с более короткими отрезками последовательности, а долговременная память хранит информацию о более далеком прошлом. Авторы предлагают три варианта архитектуры, различающиеся способом взаимодействия между памятью и вниманием:

Память как контекст (MAC): Долговременная память используется как дополнительный контекст для текущего отрезка данных.

Memory as a Context (MAC) Architecture
Memory as a Context (MAC) Architecture

Память как затвор (MAG): Механизм внимания с скользящим окном (SWA) работает как кратковременная память, а долговременная — как "угасающая" память, управляемая специальным затвором.

 Memory as a Gate (MAG) Architecture
 Memory as a Gate (MAG) Architecture

Память как слой (MAL): Модуль памяти является одним из слоёв нейронной сети, предшествующим механизму внимания.

Memory as a Layer (MAL) Architecture
Memory as a Layer (MAL) Architecture

В экспериментах на различных задачах, включая моделирование языка, здравый смысл, геномику и прогнозирование временных рядов, Титаны продемонстрировали превосходство над Трансформерами и другими современными линейными рекуррентными моделями, особенно при работе с очень длинными последовательностями. Они смогли обрабатывать контексты длиной более 2 миллионов токенов с высокой точностью, значительно превосходя базовые модели по результатам. Авторы также провели исследование влияния глубины модуля памяти на производительность, обнаружив, что более глубокие модели показывают лучшие результаты, но требуют больше времени для обучения.

Результаты работы моделей Titans и базовых моделей на основе рекуррентных сетей и Transformer-архитектур в задачах лингвистического моделирования и рассуждений, основанных на здравом смысле. Гибридные модели отмечены ∗. Выделены лучшие результаты среди простых и гибридных моделей.
Результаты работы моделей Titans и базовых моделей на основе рекуррентных сетей и Transformer-архитектур в задачах лингвистического моделирования и рассуждений, основанных на здравом смысле. Гибридные модели отмечены ∗. Выделены лучшие результаты среди простых и гибридных моделей.
Результаты работы моделей Titan и базовых моделей на задаче S-NIAH из бенчмарка RULER. Лучшие результаты среди простых и гибридных моделей выделены.
Результаты работы моделей Titan и базовых моделей на задаче S-NIAH из бенчмарка RULER. Лучшие результаты среди простых и гибридных моделей выделены.

Ключевым преимуществом Титанов является возможность обучения во время работы (test-time training). Это означает, что модель может адаптироваться к новым данным и совершенствовать свои навыки без необходимости полного переобучения, подобно тому, как человек учится на опыте. Такой подход обеспечивает значительное улучшение точности (на 15-20% по стандартным бенчмаркам) и более эффективен, чем традиционные методы тонкой настройки. Более того, это достигается без значительных вычислительных издержек и сохраняет стабильность работы модели. Система использует двойную систему памяти – фиксированную и динамическую, что позволяет быстро обновлять информацию во время выполнения задачи при сохранении основной функциональности.

Однако, авторы отмечают некоторые ограничения: процесс обновления памяти может потенциально вводить смещения из-за последних входных данных, а долгосрочная стабильность требует дальнейшего изучения. Остаются вопросы о масштабируемости для очень больших моделей и практического применения.

В итоге, архитектура Титанов от Google предлагает новый эффективный подход к обработке длинных последовательностей данных и обучению на лету, открывая возможности для решения задач, ранее недоступных для современных нейронных сетей. Эта работа представляет собой значительный вклад в область ИИ и может привести к появлению новых мощных приложений в различных областях науки и техники.

Источники:

2
1
2комментария