Сейчас ваша корзина пуста!
Текстовая интерпретация классификаций транзиентных изображений с использованием крупных языковых моделей

Аннотация: Современные астрономические обследования предоставляют огромные объемы данных о транзиентах, однако различение реальных астрофизических сигналов (например, взрывных событий) от ложных изображенческих артефактов остается сложной задачей. Конволюционные нейронные сети эффективно используются для классификации реальных и ложных объектов; однако их зависимость от непрозрачных скрытых представлений затрудняет интерпретацию. В данной работе показано, что крупные языковые модели (LLM) могут достичь уровня производительности, сравнимого с конволюционными нейронными сетями на трех оптических выборках транзиентов (Pan-STARRS, MeerLICHT и ATLAS), одновременно создавая прямые, читаемые человеком описания для каждого кандидата. Используя всего 15 примеров и краткие инструкции, LLM от Google, Gemini, достигает средней точности 93% по данным, которые охватывают различные разрешения и масштабы пикселей.
Кроме того, показано, что вторая LLM может оценивать согласованность вывода первой модели, что позволяет итеративно уточнять результат, выявляя проблемные случаи. Эта структура позволяет пользователям определять желаемое поведение классификации с помощью естественного языка и примеров, минуя традиционные тренировочные каналы. Более того, создавая текстовые описания наблюдаемых особенностей, LLM позволяют пользователям задавать вопросы о классификациях, как если бы они перемещались по аннотированному каталогу, а не расшифровывали абстрактные скрытые пространства.
Основные моменты:
- Современная астрономия временных явлений основывается на способности идентифицировать и классифицировать широкий спектр эфемерных явлений, таких как взрывные сверхновые и гравитационные волны, все из которых дают важные сведения о динамических процессах во Вселенной.
- Широкополосные оптические обследования временных явлений часто используют технику разностного изображения для выявления изменений светимости между новыми и эталонными изображениями.
- Хотя конволюционные нейронные сети обычно обеспечивают точность более 98%, их скрытые представления остаются непрозрачными, что затрудняет понимание.
- Крупные языковые модели могут создавать текстовые описания наряду с классификационными выводами, обеспечивая прозрачность, которая согласуется с человеческим мышлением.
- Gemini продемонстрировал сильные результаты в режиме малообразного обучения, что позволяет достичь высокой точности с минимальным количеством аннотированных данных.
Дальнейшие исследования могут сосредоточиться на улучшении результатов через супервайзинговое дообучение или обучение с подкреплением с участием человека, что позволит создать адаптивные и производительные модели. Кроме того, создание репозиториев разнообразных примеров и разработка инструкций, специфичных для отдельных астрономических приложений, могут способствовать более широкому использованию LLM в астрономии.
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
