AI Memory: Google Research представляет Nested Learning, новый парадигму ИИ

Google Research представил революционную структуру машинного обучения под названием «Nested Learning», которая переосмысливает фундаментальную структуру моделей ИИ для решения одной из самых устойчивых проблем в данной области, известной как катастрофическое забывание. Эта парадигма, опубликованная в новой статье на NeurIPS 2025, предлагает рассматривать одну модель не как монолитное образование, а как систему меньших взаимосвязанных оптимизационных задач, которые обучаются одновременно на различных скоростях.

Новый подход стремится преодолеть долгожданное разделение между архитектурой модели и ее алгоритмом обучения, утверждая, что это по сути одно и то же понятие, рассматриваемое на разных «уровнях». Эта свежая перспектива открывает новое измерение для проектирования ИИ, который может обучаться непрерывно и эффективно, подобно человеческому мозгу.

Текущие большие языковые модели (LLMs) ограничены своим статическим знанием, заключенным в том, что было изучено во время предобучения или в непосредственном контексте разговора. Простой акт обновления модели с новыми данными часто приводит к катастрофическому забыванию, при котором новые знания перезаписывают старые навыки. Традиционные решения включали архитектурные усовершенствования или новые правила оптимизации, но эти методы рассматривали проектирование модели и ее обучение как отдельные проблемы.

Nested Learning объединяет эти элементы. Он показывает, что сложные модели на самом деле представляют собой набор вложенных или параллельных оптимизационных задач, каждая из которых имеет свой собственный «контекстный поток» и, что важно, свою частоту обновления. Эта многоуровневая система обновлений вдохновлена нейропластичностью человеческого мозга, который адаптируется непрерывно через изменения на разных уровнях и скоростях.

От теории к практике: глубокие оптимизаторы и системы памяти континуума

Парадигма Nested Learning предлагает обоснованные способы улучшения существующих компонентов ИИ:

  • Глубокие оптимизаторы: Рассматривая оптимизаторы как ассоциативные модули памяти, команда вывела новые, более устойчивые формулировки для основных понятий, таких как моментум, что делает их менее восприимчивыми к шумным или несовершенным данным.
  • Системы памяти континуума (CMS): Эта концепция расширяет краткосрочную (внимание) и долгосрочную (прямые сети) память Трансформера в полный спектр модулей памяти. Каждый модуль в континууме обновляется с определенной частотой, создавая гораздо более богатую и эффективную систему памяти для непрерывного обучения.

Надежда: архитектура верификации с «бесконечными» уровнями обучения

Для проверки своей теории исследователи разработали архитектуру под названием «Hope», самореферентную рекуррентную архитектуру, основанную на фреймворке Titans. Hope включает в себя системы памяти континуума и может использовать неограниченные уровни внутреннего обучения. Что важно, она может оптимизировать свою собственную память через самореферентный процесс, создавая архитектуру, способную к многослойному, непрерывному самоулучшению.

Экспериментальные результаты подтверждают превосходную производительность

Эксперименты, проведенные на задачах языкового моделирования и логического рассуждения, подтверждают эффективность подхода Nested Learning. Архитектура Hope продемонстрировала заметные преимущества:

  • Улучшенное языковое моделирование и рассуждение: Hope достигла более низкой перплексии и большей точности в задачах, связанных с логикой, по сравнению с современными рекуррентными моделями и стандартными Трансформерами.
  • Превосходная обработка длинного контекста: В сложных задачах «Игла в стоге сена» Hope и ее предшественник Titans постоянно превосходили другие модели, такие как Mamba2 и TTT, что подтверждает эффективность ее системы памяти континуума для управления расширенными последовательностями информации.

Шаг к по-настоящему непрерывному обучению

Введение Nested Learning представляет собой значительный концептуальный сдвиг в машинном обучении. Предоставив единое представление об архитектуре и оптимизации, эта концепция предлагает надежную новую структуру для проектирования ИИ, который способен учиться и адаптироваться со временем, не жертвуя прошлым знанием. Это исследование знаменует собой критический шаг к сокращению разрыва между статической природой текущего ИИ и динамическими возможностями непрерывного обучения биологического интеллекта.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching