Группа исследователей искусственного интеллекта из Стэнфордского университета, NEC Labs America и Калифорнийского университета в Санта-Барбаре проанализировала рецензии на работы, представленные на ведущих конференциях по ИИ, чтобы выяснить, чем технология как автор текста отличается от человека.
Это был очередной раунд большого исследования рецензий на научные работы по машинному обучению и одновременно череда самостоятельных экспериментов. Авторы исследования сообщили о своих выводах в работе под названием «Мониторинг ИИ-модифицированного контента в масштабе: Исследование влияния ChatGPT на рецензии на конференциях по искусственному интеллекту».
Исследование было проведено, основываясь на общественном интересе к большим языковым моделям и их обсуждении, которые доминировали в технических дискуссиях в 2023 году.
Как отмечают исследователи в своей работе, различие между человеком и технологией не всегда очевидно, и прошлые попытки разработать автоматизированный способ сортировки написанного человеком текста от «робопрозы» не увенчались успехом. К примеру, OpenAI представила ИИ-классификатор текста для этой цели в январе 2023 года, но через полгода инструмент был закрыт «из-за низкой точности».
Но всё же способ обнаружить «роботекст» был найден, во всяком случае более точный, чем предлагавшиеся ранее. Исследователи сосредоточилось не на изучении целых документов, абзацев или предложений, а сконцентрировались на плотности прилагательных.
Авторы взяли два набора данных, — один, написанный людьми, а второй — ИИ. И изучили эти два массива текста на предмет частоты употребления конкретных прилагательных.
Оказалось, что ИИ «очень любит» прилагательные. В машинных работах превалировали такие прилагательные, как «похвальный», «инновационный» и «всеобъемлющий». Такие прилагательные ChatGPT использовал чаще, чем люди.
«Все наши расчёты зависят только от прилагательных, содержащихся в каждом документе. Мы обнаружили, что такой выбор словаря демонстрирует большую стабильность, чем использование других частей речи, таких как наречия, глаголы, существительные или все возможные лексемы», — рассказали учёные в отчёте исследования.