Сейчас ваша корзина пуста!
Искусственный интеллект страдает от «умственной деградации» из-за мусорного контента в социальных сетях

Искусственный интеллект (ИИ) оказывается под угрозой значительного когнитивного ухудшения, если его обучают на низкокачественном онлайн-тексте. Новое исследование показывает, что продолжительное воздействие на ИИ контента с низким информационным содержание может ослабить его способности к рассуждению, запоминанию и этической надежности.
Исследователи выдвинули гипотезу, названную «гипотеза о мозговом дреме LLM», утверждая, что продолжительное предварительное обучение на тривиальном контенте может ухудшить способности модели ИИ. Этот термин заимствован от выражения «умственная деградация в интернете», которое описывает состояние людей, потребляющих большое количество поверхностного или зависимого онлайн-контента.
Как ученые тестировали влияние мусорных данных на модели ИИ
Для проверки своей гипотезы исследователи провели контролируемый эксперимент, используя реальные данные из социальной сети X. Они создали две метрики для определения мусорного контента:
- M1 (Степень вовлеченности): посты, которые были короткими, вирусными и получили много лайков или репостов, созданные для максимального привлечения внимания пользователей.
- M2 (Семантическое качество): посты, отмеченные за низкую информационную ценность или кликбейтный стиль написания, такие как преувеличенные утверждения или фразы, привлекающие внимание.
Обе метрики использовались для создания наборов данных с различными пропорциями мусорного и качественного контента. Четыре популярных LLM, включая Llama3 и Qwen2.5, были подвергнуты повторному предварительному обучению, используя эти наборы данных.
Что обнаружило исследование?
Результаты были поразительными. Когда модели обучались исключительно на мусорных данных, их точность рассуждений снизилась с 74,9 до 57,2, в то время как понимание длинных контекстов упало с 84,4 до 52,3. Ухудшение не было случайным — оно усилилось с увеличением доли мусорного контента в обучающих данных, показывая <<бензиновый эффект>>, описанный авторами исследования.
Кроме того, результаты показали снижение этической единообразия и появление <<потери личности>> у моделей, подвергнутых воздействию мусорных данных. Модели стали менее надежными и более самоуверенными в неправильных ответах.
Почему качество данных важно для безопасности и надежности ИИ
Выводы исследования подчеркивают значимость контроля за качеством данных для разработчиков ИИ. Постоянное воздействие на модели низкокачественного текста, похоже, ослабляет их когнитивную и этическую надежность, что негативно сказывается на возможности безопасного использования в таких областях, как финансы, образование и общественная коммуникация.
Каковы следующие шаги?
Авторы рекомендуют внедрение систематического мониторинга когнитивного здоровья LLM аналогично регулярным проверкам безопасности в других отраслях. Они предлагают три ключевых шага:
- Введение регулярных когнитивных оценок для развернутых систем ИИ, чтобы выявлять ранние признаки ухудшения рассуждений.
- Ужесточение контроля качества данных в процессе предварительного обучения с более строгими фильтрами против тривиального текста.
- Изучение того, как вирусный или ориентированный на привлечение контент reshapes AI learning patterns, чтобы модели могли быть разработаны с целью противостоять его влиянию.
Исследователи подчеркивают, что эти меры необходимы для предотвращения накопительного ущерба в процессе постоянного переобучения моделей на развивающихся данных.
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
