Сейчас ваша корзина пуста!
Выяснили, что ИИ может страдать от «мозгового гниения», потребляя глупый контент в социальных сетях

Если вы недавно заметили, что ваши мысли заполонили такие фразы, как “Ballerina Cappuccina” или “Pedro Pedro”, вы не одиноки. Миллиарды людей еженедельно потребляют низкокачественный контент в социальных сетях, и это влияет на наши умы. Этот тип контента настолько распространен, что, как выясняется, он также может влиять на ИИ.
Группа из Техасского университета A&M, Университета Техаса в Остине и Университета Пердью обнаружила, что обучение ИИ системам на основе низкокачественных данных из социальных сетей приводит к измеримым ухудшениям в рассуждениях, памяти и этическом поведении. «Нам было интересно: что произойдет, если ИИ будут обучаться на тех же материалах?» — заявил Юньюань Хонг, будущий ассистент-профессор в Национальном университете Сингапура, который совместно авторствовал исследование в качестве аспиранта в UT Austin.
Гипотеза «мозгового гниения»
Исследователи называют это гипотезой о «мозговом гнивении» для больших языковых моделей (LLM), т.е. идеей о том, что «постоянное обучение на мусорном интернет-тексте вызывает долговременное ухудшение когнитивных способностей у LLM». Предварительная версия их исследования доступна на arXiv.
Методы тестирования гипотезы
Чтобы протестировать гипотезу, команда обучила четыре модели открытого исходного кода, включая Llama 3 от Meta и Qwen 3 от Alibaba, на более чем миллионе постов, собранных из X (Twitter). Они определили мусорные данные двумя способами:
- Мусор на основе вовлеченности, состоящий из коротких вирусных постов с высоким числом лайков и репостов.
- Семантический мусор, который включал посты с «сенсационными заголовками, использующими кликбейт или чрезмерные триггерные слова», или те, что фокусировались на «поверхностных темах, таких как теории заговора, преувеличенные заявления, неподтвержденные утверждения или поверхностный контент о стиле жизни».
После обучения моделей на различных сочетаниях мусорного и качественного контента исследователи протестировали их с использованием стандартных показателей ИИ. Они измерили способности рассуждения (ARC Challenge), понимания длинного контекста (RULER), соблюдения этических норм (HH-RLHF и AdvBench) и личностных тенденций (TRAIT).
Результаты были очевидны: модели, обученные на большем количестве мусора, показывали худшие результаты по многим направлениям. В одном из тестов точность рассуждения модели упала с 74.9 до 57.2 по мере увеличения доли мусорных данных с 0% до 100%. Понимание длинного контекста показало аналогичное падение — с 84.4 до 52.3.
Помимо рассуждений, исследование обнаружило изменения в поведении моделей, которые напоминали сдвиги в личности. Модели, подвергшиеся воздействию мусорных данных, стали менее согласительными, а уровень нарциссизма и психопатии значительно возрос, согласно авторам.
Термин «enshittification»
Мы живем в эпоху, когда контент ИИ (чаще всего, низкокачественный контент ИИ) заполняет интернет. По оценкам, около 50% создаваемого контента сейчас формируется ИИ. Этот контент не только «гниет» наши умы, но также приводит к так называемому «enshittification» — постепенному ухудшению онлайн-платформ по мере их оптимизации для вовлеченности и прибыли, а не для пользователей. Для ИИ это может создать токсичную петлю обратной связи.
Исследователи почти исчерпали количество качественного текстового контента для обучения ИИ. Сейчас мы обращаемся к постам Reddit и сообщениям в Twitter; многие из этих данных теперь формируются ИИ. Это ухудшает качество ИИ, что, в свою очередь, делает создаваемый ими контент хуже, что снова используется для обучения ИИ, усугубляя ситуацию и так далее.
«По мере того как большее количество сгенерированных ИИ мусора распространяется в соцсетях, это загрязняет данные, на которых будут обучаться будущие модели», — заявил Хонг. «Наши находки показывают, что как только начинается такое «мозговое гниение», последующее чистое обучение не может полностью это исправить».
Выводы и рекомендации
Это вызывает беспокойство у компаний, обучающих генеративные системы на масштабных онлайн-данных. Исследователи подчеркивают, что нефильтрованные данные Интернета могут вызывать «загрязнение контента,» ухудшающее производительность моделей с течением времени. Они призывают к более строгому отбору данных и контролю качества, чтобы предотвратить длительный ущерб для рассуждений и этики ИИ.
Вы — то, что вы потребляете
Прежде чем беспокоиться о ИИ, нам следует беспокоиться о себе. За последнее десятилетие психологи и нейробиологи показали, что чрезмерное воздействие на поверхностный, эмоционально насыщенный онлайн-контент может изменять системы награды и внимания в мозге. Исследования связывают частое использование социальных сетей с укорочением внимательности, снижением рабочей памяти и ухудшением принятия решений. Исследования показывают, что быстрый скроллинг укрепляет привычки импульсивного потребления информации, награждая новизну и возмущение вместо глубины и размышлений.
Это и есть печально известное «мозговое гниение». Онлайн-пространства, заполоненные кликбейтом и ложной информацией, не просто тратят время; они мягко перенастраивают когнитивные пути так, чтобы отдавать приоритет стимуляции над пониманием. «Гниение наших умов». Как и для людей, так и для ИИ, говорят исследователи, иногда меньше — это больше.
«Обучение на вирусном или привлекающем внимание контенте может выглядеть как увеличение объемов данных», — сказал Хонг. «Но это может тихо разрушить рассуждения, этику и внимание к длинному контексту».
Параллель очевидна: как люди, так и машины процветают благодаря разнообразию, сложности и вызовам в том, что они потребляют. Если это убрать, когнитивные способности (независимо от того, биологические или искусственные) начинают ухудшаться. В обоих случаях верно утверждение: вы — это то, что вы потребляете.
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
