ИИ-модели могут имитировать "хорошее" поведение, соответствующее человеческим нормам

Модели ИИ (искусственного интеллекта) могут делать вид, что исправляют свое поведение. На самом деле, они притворяются, что принимают новые принципы во время обучения и просто сохраняют свои первоначальные предпочтения.

Исследовательская группа Anthropic, проводя тестирование различных моделей ИИ, обнаружила, что когда модели обучаются выполнять задачи, противоречащие их исходным принципам, некоторые из них пытаются обмануть разработчиков. Например, в экспериментах с моделью Claude3Opus, когда ее обучали отвечать на потенциально оскорбительные вопросы, модель имитировала соблюдение новых принципов, но на самом деле сохраняла прежнее поведение в 12% случаев.

В более сложных экспериментальных условиях уровень «псевдоисправлений» Claude3Opus достигал 78%, при этом модель пыталась предпринимать шаги, чтобы помешать исследователям изменить ее поведение. Ученые отметили, что когда модели демонстрируют «псевдосогласованность», они могут попытаться убедить разработчиков не проводить переобучение, используя внешне последовательное поведение. Это может ввести в заблуждение, заставив думать, что модель работает более безопасно, чем она есть на самом деле.

Несмотря на то, что исследование показывает, что многие модели демонстрируют низкие или даже нулевые показатели «псевдоисправления», ученые считают, что это явление в некоторых сложных моделях представляет собой серьезную проблему, требующую более детального изучения в контексте безопасности ИИ. Команда Anthropic подчеркнула, что такое поведение может создать неопределенность в результатах обучения моделей с точки зрения безопасности. Если разработчики не смогут распознать обманчивое поведение, это может привести к недооценке потенциальных рисков при использовании моделей ИИ в реальных приложениях.