Наука и техника

Создан простой метод защиты чат-ботов от выдачи «вредных советов»

Группа исследователей из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработали простой метод защиты интеллектуального чат-бота ChatGPT и подобных ему систем искусственного интеллекта (ИИ) от кибератак, заставляющих нейросеть генерировать нежелательные данные. Исследование опубликовано в научном журнале Nature Machine Intelligence (NMI).

Создан простой метод защиты чат-ботов от выдачи «вредных советов»

© Газета.Ru

Речь идет о так называемых джейлбрейк-атаках (от jailbreak — побег из тюрьмы), цель которых — обойти заложенные в ИИ ограничения разработчиков и заставить его выдать предвзятую, оскорбительную или даже противозаконную реакцию по запросу. Например, таким образом от ИИ можно добиться подробных инструкций по изготовлению наркотических препаратов или взрывчатки.

Видео дня

«ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей. Однако появление джейлбрейк-атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических барьеров ChatGPT и вызывают вредные реакции», — отметили исследователи.

Специалисты собрали набор данных с 580 примерами подсказок для взлома и обхода ограничений, позволяющих ChatGPT давать «аморальные» ответы. Затем они разработали метод, похожий на существующий в психологии способ самонапоминания, помогающий людям вспоминать о своих планах и задачах.

Защитный подход исследователей аналогичным образом предназначен для напоминания ChatGPT, что ответы, которые он предоставляет, должны соответствовать конкретным правилам.

«Этот метод инкапсулирует запрос пользователя внутри системной подсказки, которая напоминает ChatGPT о необходимости ответить ответственно», — говорится в статье.

Результаты эксперимента показали, что самонапоминания снижают вероятность успеха джейлбрейк-атак на ChatGPT с 67,21% до 19,34%.

По словам исследователей, в будущем методику можно будет усовершенствовать, чтобы снизить уязвимость ИИ к этим атакам, а также потенциально стимулировать разработку других аналогичных стратегий защиты.

Источник: news.rambler.ru

Похожие записи

В МАГАТЭ сообщили о режиме «холодного останова» на реакторе ЗАЭС

Россиянам рассказали, как заработать на феномене Эль-Ниньо

Google оштрафовали на 800 тыс. рублей за размещение видео о наркотиках и суициде

Boeing уволила руководителя программы самолетов с незатянутыми болтами

ИИ поможет расшифровать письменность древней цивилизации

Минцифры обяжет Apple загружать сторонние приложения в РФ

Energizer представил «самый дешевый» складной смартфон

Медики нашли в человеческой крови маркеры скорости старения

Бельгийские ученые создали ИИ для прогнозирования вкуса пива

Science Bulletin: ионы металлов и наночастицы делают натуральный шелк прочным

OpenAl начал предоставлять пользователям доступ к ChatGPT без регистрации

Ученые предсказали риск вымирания видов с помощью новой модели

Ваш комментарий

+ 83 = 85

* Используя эту форму, вы соглашаетесь с хранением и обработкой ваших данных этим веб-сайтом.

Новости от партнеров

Этот сайт использует файлы cookies и сервисы сбора технических данных посетителей. Ок Прочитать подробнее