Сейчас ваша корзина пуста!
Связь «умственного рота» ИИ с низкокачественными данными социальных медиа

Статья, опубликованная в международном академическом журнале Nature, выявила, что чат-боты, обученные на «низкокачественных данных», таких как посты в социальных сетях, имеют сниженные способности к рассуждению и часто выдают неправильную информацию.
Исследование было проведено командой профессора Янга Вана из Техасского университета в Остине. Работа была загружена на платформу предварительных публикаций arXiv 15 октября. Хотя она еще не прошла формальную рецензию, исследование уже вызвало значительное внимание в научном сообществе по искусственному интеллекту.
Профессор Ван и его коллеги проводили эксперименты, чтобы определить, как «низкокачественные данные» влияют на большие языковые модели (LLM). В данном контексте под «низкокачественными данными» понимаются:
- краткие и фрагментарные тексты,
- контент с сенсационными или провокационными материалами,
- популярные посты в социальных сетях, которые не содержат существенных знаний.
Команда собрала такие данные и использовала их для обучения LLM, включая «Llama 3» от Meta и серию «Qwen» от Alibaba.
Результаты показали, что при обучении моделей ИИ на низкокачественных данных они часто пропускали процессы рассуждения, делали поспешные выводы или выдавали нерелевантные ответы. Избегая логического рассуждения, модели часто генерировали дезинформацию и допускали ошибки в вопросах с выбором ответа.
Исследователи затем смешали «высококачественные данные» с низкокачественными наборами данных для обучения. Они обнаружили, что чем выше доля низкокачественных данных, тем хуже становились способности LLM к рассуждению. Команда подчеркнула, что это подтверждает основной принцип ИИ: «Мусор на входе, мусор на выходе».
Кроме того, в исследовании отметили, что модели ИИ, обученные на низкокачественных данных, проявляли сильные негативные тенденции и даже психопатоподобное поведение. Это явление было описано как «умственный рот» ИИ.
Когда производительность ИИ деградирует из-за низкокачественных данных, восстановление оказывается сложным. Исследователи заявили: «Даже после корректировки подсказок или добавления большего количества высококачественных данных в дальнейшем, улучшения в производительности были лишь частичными». Это предполагает, что негативное воздействие низкокачественных данных трудно обратить вспять.
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
