[Evaluating whether AI models would sabotage AI safety research — The AI Security Institute (AISI)]

Институт безопасности ИИ является исследовательской организацией в рамках Министерства науки, инноваций и технологий.

Оценка возможности саботажа моделями ИИ исследований безопасности ИИ

Актуализация нашей методологии тестирования совмещения для недавних моделей пионерного уровня.

Как влияют факторы окружающей среды на поведение ИИ

Разработка методов для лучшего понимания того, когда и почему модели ИИ иногда действуют вразрез с намерениями пользователей.

Безобидные обходы: новый способ взлома сильнейших защит ИИ

Введение автоматизированной техники атаки, генерирующей универсальные обходы для систем с сильнейшими защитами.

Исследование моделей на наличие дезалиментации

Результаты наших оценок совмещения для моделей Claude Opus 4.1, Sonnet 4.5 и снепшот предыдущей версии Opus 4.5.

Экспертиза масштабных атак с использованием «тыквенных» данных

Наша работа с Anthropic и Институтом Алана Тьюринга указывает на то, что атаки с «тыквенными» данными могут быть проще, чем предполагалось ранее.

Как мы работаем с разработчиками новых моделей ИИ для улучшения безопасности моделей

Раскрытие наших добровольных совместных исследований с Anthropic и OpenAI.

От багов к обходам: адаптация политики обнародования уязвимостей для механизмов безопасности ИИ

Разведка того, насколько методы кибербезопасности могут помочь снизить риски в генерирующих системах ИИ в сотрудничестве с Национальным центром кибербезопасности (NCSC).

Управление рисками прогрессирующих моделей ИИ с открытыми весами

Современные методы и неразрешенные проблемы в области управления рисками моделей с открытыми весами.

Делаем результаты оценки охраны безопасности действенными

Примерный случай безопасности для защит от ненадлежащего использования.

Принципы оценки охраны безопасности

Наша новая работа предлагает основные принципы для оценки средств ненадлежащего использования.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching

Контент соцсетей за 5 минут в день, n8n автоматизация
Обзор конфиденциальности

На этом сайте используются файлы cookie, что позволяет нам обеспечить наилучшее качество обслуживания пользователей. Информация о файлах cookie хранится в вашем браузере и выполняет такие функции, как распознавание вас при возвращении на наш сайт и помощь нашей команде в понимании того, какие разделы сайта вы считаете наиболее интересными и полезными.