Сейчас ваша корзина пуста!
Метанализ убедительной силы больших языковых моделей

Метанализ систематически рассматривает и количественно обобщает эмпирические данные о убедительной эффективности больших языковых моделей (LLMs) в сравнении с человеческими коммуникаторами. Исследование также исследует контекстуальные условия, при которых LLMs проявляют различные способности к убеждению.
Методология исследования
Исследование проводилось с использованием систематического обзора литературы в соответствии с рамками PRISMA 2020, охватывая пять баз данных: Web of Science, ACM Digital Library, arXiv, SSRN и OSF. Поиск был ограничен статьями на английском языке, опубликованными после декабря 2022 года, когда была предоставлена общественности информация о GPT-3, с отсечкой знаний до 22 мая 2025 года. Использовался строгий поисковый запрос:
TITLE(«persuasion» OR «persuasive» OR «persuade» OR «persuasiveness») AND («LLM» OR «Large Language Model» OR «AI» OR «artificial intelligence» OR «ChatGPT» OR «GPT»).
Критерии включения
- (i) Прямое экспериментальное сравнение убедительного поведения между контентом, созданным LLM, и контентом, созданным людьми;
- (ii) Дизайн, позволяющий независимые наблюдения (междугрупповой);
- (iii) Мера результата, отражающая убедительную эффективность (например, изменение отношения, соблюдение, поддержка политики, воспринимаемая эффективность сообщения);
- (iv) Достаточная статистическая информация для вычисления стандартизированных размеров эффекта.
Из первоначальных 199 записей было идентифицировано $n=7$ исследований, содержащих NULL$ независимых оценок размеров эффекта и включая $m=17,422$ участников.
Выводы
Общая убедительная сила
Метанализ показал, что между LLM и людьми нет статистически значимой разницы в убедительной эффективности. Объединённый размер эффекта составил Hedges’ $g = 0.02$ ($p = .530$), с доверительным интервалом 95% $[-0.048, 0.093]$. Это указывает на то, что в среднем LLM проявляют такую же убедительность, как и люди.
Гетерогенность
Несмотря на незначительный общий эффект, была обнаружена значительная гетерогенность среди исследований ($I^2 = 75.97%$, $p < .001$). Это высокое значение $I^2$ указывает на то, что большая часть наблюдаемого разнообразия в размерах эффекта отражает реальные различия между исследованиями, а не случайные ошибки выборки.
Анализ модераторов
Исследование индивидуальных модераторов (модель LLM, дизайн диалога и область) не дало статистически значимых результатов. Например, сравнение различных моделей LLM (например, GPT-3.x, GPT-4.x, Claude 3.x) не показало значительных различий в убедительности.
Ограничения исследования
Метанализ признаёт ограничения, включая малое количество доступных исследований (n=7), что ограничивает статистическую мощность для подгрупповых анализов и увеличивает риск переобучения модели.
Рекомендации для будущих исследований
Авторы предлагают три основных направления для будущих исследований:
- Исследование роли персонализации в убеждении с использованием LLM;
- Применение дизайнов исследований, вдохновленных реальным миром, для захвата сложной природы убеждения;
- Изучение психологических механизмов убеждения LLM для лучшего понимания эффективности различных сочетаний моделей и дизайнов.
Заключение
Результаты предполагают смещение от бинарных сравнений «AI против человека» к более тонкому пониманию влияния способностей моделей, дизайна коммуникации и характеристик задач на убедительные эффекты. Это подчеркивает необходимость создания этических норм, ориентированных на прозрачность и предотвращение манипуляций.
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
