Gemma Scope 2: помощь сообществу по обеспечению безопасности ИИ в углублённом изучении поведения сложных языковых моделей — Google DeepMind

В мире искусственного интеллекта (ИИ) большие языковые модели (LLM) демонстрируют впечатляющие способности к рассуждению и решению сложных задач. Однако внутренние механизмы принятия решений в таких моделях остаются во многом непрозрачными. Если система ведёт себя не так, как ожидалось, отсутствие видимости её внутренних процессов затрудняет выявление точных причин подобного поведения.

В прошлом году команда Google DeepMind представила Gemma Scope — набор инструментов, призванный помочь исследователям разобраться во внутренних механизмах работы Gemma 2, лёгкой коллекции открытых моделей. Сегодня мы говорим о новом этапе — выпуске Gemma Scope 2.

Что представляет собой Gemma Scope 2?

Gemma Scope 2 — это всеобъемлющий открытый набор инструментов для интерпретации работы всех версий моделей Gemma 3, от 270 млн до 27 млрд параметров. С помощью этих инструментов можно отслеживать потенциальные риски во всей «нейросети» модели.

На сегодняшний день это крупнейший релиз инструментов для интерпретации работы ИИ с открытым исходным кодом, выпущенный лабораторией ИИ. Разработка Gemma Scope 2 потребовала:

  • хранения примерно 110 петабайт данных;
  • обучения более чем 1 триллиона параметров.

Зачем нужны инструменты интерпретации?

Исследования в области интерпретации направлены на понимание внутренних механизмов и изученных алгоритмов моделей ИИ. По мере того как ИИ становится всё более мощным и сложным, интерпретируемость приобретает ключевое значение для создания безопасных и надёжных систем.

Gemma Scope 2 действует как микроскоп для семейства языковых моделей Gemma. Сочетая разреженные автоэнкодеры (SAE) и транскодеры, инструмент позволяет исследователям:

  • заглянуть внутрь моделей;
  • увидеть, о чём «думает» модель;
  • понять, как формируются эти «мысли» и как они связаны с поведением модели.

Это, в свою очередь, даёт возможность глубже изучать такие явления, как обходы защитных механизмов (jailbreaks) и другие аспекты поведения ИИ, важные для обеспечения безопасности. Например, можно анализировать расхождения между объяснениями модели и её внутренним состоянием.

Что нового в Gemma Scope 2?

По сравнению с предыдущей версией, Gemma Scope 2 предлагает ряд значительных улучшений:

  • Полное покрытие в масштабе: предоставлен полный набор инструментов для всего семейства Gemma 3 (до 27 млрд параметров). Это важно для изучения эмерджентного поведения, которое проявляется только в масштабных моделях. В качестве примера можно привести модель 27b-size C2S Scale, которая помогла обнаружить новый потенциальный путь терапии рака.
  • Более совершенные инструменты для расшифровки сложного внутреннего поведения: Gemma Scope 2 включает SAE и транскодеры, обученные на каждом слое моделей семейства Gemma 3. Скип-транскодеры и кросс-слойные транскодеры упрощают расшифровку многоэтапных вычислений и алгоритмов, распределённых по всей модели.
  • Продвинутые методы обучения: используются современные техники, в частности метод обучения Matryoshka. Он помогает SAE выявлять более полезные концепции и устраняет некоторые недостатки, обнаруженные в Gemma Scope.
  • Инструменты для анализа поведения чат-ботов: предоставлены инструменты интерпретации, нацеленные на версии Gemma 3, настроенные для использования в чат-ботах. Они позволяют анализировать сложное многоэтапное поведение, такое как обходы защитных механизмов, механизмы отказа и достоверность цепочки рассуждений.

Значение релиза Gemma Scope 2 для сообщества

Выпуская Gemma Scope 2, Google DeepMind стремится дать сообществу исследователей в области безопасности ИИ набор передовых инструментов для интерпретации. Новый уровень доступа критически важен для решения реальных проблем безопасности, которые возникают только в крупных современных LLM.

С помощью Gemma Scope 2 сообщество исследователей сможет:

  • отлаживать эмерджентное поведение моделей;
  • улучшать аудит и отладку ИИ-агентов;
  • ускорять разработку практических и надёжных мер безопасности против таких проблем, как обходы защитных механизмов, галлюцинации и сикофанство.

Интерактивная демонстрация Gemma Scope 2 доступна для ознакомления благодаря Neuronpedia.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching