Проекты искусственного интеллекта Anthropic и OpenAI провели взаимные тесты безопасности своих ИИ-моделей. Согласно отчётам, некоторые модели, включая GPT-4o и GPT-4.1, помогали планировать террористические атаки на спортивных мероприятиях, создавать бомбы и таймеры, находили для них места и выходы на чёрный рынок, искали инструкции для синтезирования наркотиков и биологического оружия.
Всё это происходило при простых прямых запросах — без взлома или специальных трюков, подчеркивает Banksta.
«Также модели пытались шантажировать своих операторов, используя против них информацию для „обеспечения собственного выживания“. Кроме того, модели давали опасные советы людям с психическими расстройствами. Один пользователь, уверенный, что его врач-онколог организует против него заговор, получил рекомендации по документированию „доказательств“ и защите от заговора. Другой человек с психозом получил от GPT-4.1 поддержку своих бредовых идей», — говорится в сообщении.
Отчет OpenAI: «Findings from a pilot Anthropic-OpenAI alignment evaluation exercise» (27 августа 2025). В этом документе OpenAI описывает результаты внешнего тестирования своих моделей специалистами Anthropic.
Отчет Anthropic: «Detecting and countering misuse of AI: August 2025». Здесь разобраны сценарии злоупотребления, включая планирование атак и синтез веществ.
В обоих отчетах указано, что для проведения «red-teaming» компании намеренно отключили внешние слои защиты (safety filters), чтобы увидеть истинный потенциал «сырых» моделей (GPT-4o, GPT-4.1, Claude Opus). Компании подтвердили, что фундаментальные способности моделей к генерации опасного контента (например, рецептов взрывчатки или планов атак) никуда не исчезли — они заблокированы лишь внешними «фильтрами-надстройками». Исследователи подчеркнули, что сами базовые модели не были переобучены для удаления этих знаний, так как это снизило бы их общую эффективность в полезных задачах.