За последние годы заметно выросло качество контента, произведенного искусственным интеллектом. И все же внимательного читателя при чтении сгенерированного нейросетью текста не покидает ощущение: в нем что-то не так.
Ученые Северо-Восточного университета в США нашли признаки, выдающие искусственное происхождение текста. Исследование выложено на сервере препринтов arXiv.
Разным типам больших языковых моделей дали задание написать множество текстов различной тематики — от обзоров фильмов и новостных заметок до биомедицинских исследований. Полученные результаты проанализировали.
Выяснилось, что все сгенерированные ИИ статьи изобилуют так называемыми синтаксическими шаблонами. Например, одна нейросеть, как оказалось, обожает двойные прилагательные, и фильм «Последний черный в Сан-Франциско» она описала как «уникальный и интенсивный опыт просмотра», «крайне оригинальный и впечатляющий дебют» режиссера и «волшебный и заставляющий задуматься» — и все это в пределах двух абзацев.
У каждой языковой модели собственный набор синтаксических шаблонов, но во всех искусственных текстах их больше, чем в написанных живыми людьми.
«Люди также могут создавать эти шаблоны. В их текстах может быть повторяющийся синтаксис, но это происходит гораздо реже, чем в моделях», — заметила аспирантка Шанталь Шаиб, соавтор исследования.
По ее словам, частота шаблонов в тексте не зависит от размера нейросети, но меняется в зависимости от жанра — в научных текстах они не так заметны, как в кинообзорах. Склонность нейросетей к шаблонам также объяснили.
«Мы смогли найти около 75% этих шаблонов в обучающих данных», — сообщила аспирантка.
Она подчеркнула, что это исследование не может служить инструментом для надежного выявления сгенерированных ИИ текстов. Но оно дает понимание, что у них есть объективные отличия, а не просто воспринимаемая на уровне ощущений странность.