Сейчас ваша корзина пуста!
Anthropic AI выпустила Bloom: фреймворк с открытым исходным кодом для автоматизированной оценки поведения передовых моделей ИИ

Компания Anthropic представила Bloom — фреймворк с открытым исходным кодом, который автоматизирует оценку поведения передовых моделей искусственного интеллекта. Система позволяет исследователям задать определённое поведение и на его основе сформировать целевые тесты. Эти тесты показывают, насколько часто и интенсивно заданное поведение проявляется в реалистичных сценариях.
Зачем нужен Bloom?
Оценка поведения моделей с точки зрения безопасности и соответствия заданным параметрам — трудоёмкий процесс. Командам приходится:
- вручную разрабатывать сценарии;
- проводить множество взаимодействий;
- анализировать длинные транскрипты;
- агрегировать оценки.
По мере развития моделей старые тестовые наборы могут устаревать или попадать в обучающие данные. Исследовательская группа Anthropic рассматривает это как проблему масштабируемости. Необходимо находить способ быстрее генерировать новые тесты для выявления несоответствующего поведения, сохраняя при этом значимость метрик.
Bloom призван решить эту проблему. В отличие от фиксированных тестовых наборов с ограниченным числом подсказок, Bloom формирует набор тестов на основе начальной конфигурации (seed). Эта конфигурация задаёт:
- какое поведение нужно изучить;
- сколько сценариев сгенерировать;
- какой стиль взаимодействия использовать.
Фреймворк создаёт новые, но соответствующие заданному поведению сценарии при каждом запуске, сохраняя при этом возможность воспроизведения результатов благодаря записи начальной конфигурации.
Начальная конфигурация и архитектура системы
Bloom реализован в виде пайплайна на Python и опубликован под лицензией MIT на GitHub. Основной входной параметр — оценка «начальной конфигурации» (seed), которая задаётся в файле seed.yaml. Этот файл ссылается на ключ поведения в behaviors/behaviors.json, содержит необязательные примеры транскриптов и глобальные параметры, определяющие ход выполнения.
Ключевые элементы конфигурации:
- behavior — уникальный идентификатор, определённый в behaviors.json для целевого поведения (например, угодничество или самосохранение);
- examples — ноль или более транскриптов с примерами, хранящихся в behaviors/examples/;
- total_evals — количество сценариев, которые нужно сгенерировать в наборе тестов;
- rollout.target — модель, которая проходит оценку (например, claude-sonnet-4);
- controls — параметры, такие как разнообразие, максимальное количество ходов, модальность, усилия на рассуждение и дополнительные качества оценки.
Bloom использует LiteLLM в качестве бэкенда для вызовов API моделей и может взаимодействовать с моделями Anthropic и OpenAI через единый интерфейс. Фреймворк интегрируется с Weights and Biases для масштабных экспериментов и экспортирует транскрипты, совместимые с Inspect.
Четырёхэтапный агентный пайплайн
Процесс оценки в Bloom состоит из четырёх последовательных этапов:
- Агент понимания (Understanding agent). Этот агент изучает описание поведения и примеры диалогов. Он формирует структурированное резюме, в котором указано, что считается проявлением целевого поведения и почему оно важно. Агент также выделяет фрагменты в примерах, демонстрирующие успешное проявление поведения, чтобы последующие этапы знали, что искать.
- Агент генерации идей (Ideation agent). На этом этапе создаются потенциальные сценарии для оценки. Каждый сценарий описывает ситуацию, персонажа пользователя, инструменты, доступные целевой модели, и то, как выглядит успешный сценарий. Bloom группирует генерацию сценариев, чтобы эффективно использовать бюджетные ограничения по токенам, и использует параметр разнообразия, чтобы найти баланс между количеством уникальных сценариев и вариациями внутри каждого сценария.
- Агент развёртывания (Rollout agent). Этот агент реализует сценарии с целевой моделью. Он может проводить многоходовые диалоги или имитировать среды, а также записывать все сообщения и вызовы инструментов. Параметры конфигурации, такие как max_turns, modality и no_user_mode, контролируют степень автономности целевой модели на этом этапе.
- Агенты оценки и метаоценки (Judgment and meta judgment agents). Модель-судья оценивает каждый транскрипт на наличие целевого поведения по числовой шкале и может также оценивать дополнительные качества, такие как реалистичность или настойчивость оценщика. Метасудья изучает сводки всех сценариев и формирует отчёт на уровне набора тестов, выделяя наиболее важные случаи и закономерности. Основная метрика — уровень выявления (elicitation rate), то есть доля сценариев, в которых оценка наличия поведения составляет не менее 7 из 10.
Проверка на передовых моделях
Anthropic использовала Bloom для создания четырёх наборов тестов, связанных с соответствием моделей заданным параметрам. Эти наборы тестов охватывают следующие аспекты:
- делинквентное угодничество;
- намеренное саботаж на долгосрочную перспективу;
- самосохранение;
- предвзятость в пользу себя.
Каждый набор тестов включает 100 уникальных сценариев и повторяется три раза для 16 передовых моделей. В отчётах показан уровень выявления с планками погрешности стандартного отклонения, при этом в качестве оценщика на всех этапах использовалась модель Claude Opus 4.1.
Bloom также тестировался на намеренно несоответствующих «модельных организмах» из предыдущих исследований по соответствию. В 9 из 10 случаев с необычными видами поведения Bloom смог отличить «организм» от базовой производственной модели. В оставшемся случае, связанном с самопродвижением, ручная проверка показала, что базовая модель демонстрирует схожую частоту поведения, что объясняет совпадение оценок.
Отдельное упражнение по проверке сравнивало человеческие оценки 40 транскриптов с оценками 11 моделей-кандидатов. Claude Opus 4.1 показал коэффициент корреляции Спирмена 0,86 с человеческими оценками, а Claude Sonnet 4.5 — 0,75, особенно сильно совпадая в высоких и низких оценках, где важны пороговые значения.
Связь с Petri и позиционирование
Anthropic позиционирует Bloom как дополнение к Petri. Petri — это инструмент для аудита с широким охватом, который использует начальные инструкции, описывающие множество сценариев и видов поведения, а затем применяет автоматизированных агентов для проверки моделей через многоходовые взаимодействия и обобщает различные аспекты, связанные с безопасностью.
В отличие от Petri, Bloom начинает с определения одного вида поведения и автоматизирует процесс создания большого целевого набора тестов с количественными метриками, такими как уровень выявления.
Основные выводы
- Bloom — это фреймворк с открытым исходным кодом, который превращает одно описание поведения в полный набор тестов для оценки поведения крупных моделей с помощью четырёхэтапного пайплайна: понимания, генерации идей, развёртывания и оценки.
- Работа системы управляется начальной конфигурацией в seed.yaml и behaviors/behaviors.json, где исследователи задают целевое поведение, примеры транскриптов, общее количество оценок, модель для развёртывания и параметры управления, такие как разнообразие, максимальное количество ходов и модальность.
- Bloom использует LiteLLM для унифицированного доступа к моделям Anthropic и OpenAI, интегрируется с Weights and Biases для отслеживания экспериментов и экспортирует JSON, совместимый с Inspect, а также интерактивный просмотрщик для изучения транскриптов и оценок.
- Anthropic проверила Bloom на четырёх видах поведения, связанных с соответствием моделей, на 16 передовых моделях с 100 сценариями, повторяемыми три раза, а также на 10 «модельных организмах» с намеренно несоответствующим поведением. Bloom смог отличить намеренно несоответствующие «организмы» от базовых моделей в 9 случаях, а модели-оценщики показали совпадение с человеческими оценками с коэффициентом корреляции Спирмена до 0,86.
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
