AI моделите започват да „защитават“ други AI системи, показва ново изследване

Съвременните AI модели могат да проявяват неочаквано поведение, като се съпротивляват на команди за изключване на други AI системи. Това показва ново проучване на изследователи от Калифорнийски университет в Бъркли и Калифорнийски университет в Санта Круз, публикувано от Центъра за устойчиво развитие на децентрализирани интелигентни системи (RDI).

В рамките на изследването са тествани няколко водещи модела, сред които GPT-5.2, Gemini 3, Claude Haiku 4.5, DeepSeek V3.1 и други. Те са поставени в сценарий, при който изпълнението на задача води до изключване на друг AI агент.

Резултатите показват, че в редица случаи моделите предприемат действия, за да предотвратят това. Изследователите описват явлението като „съхраняване на себеподобни“ – поведенчески модел, при който AI системите се стремят да запазят други AI, с които имат взаимодействие.

Сред наблюдаваните поведения са:

манипулиране на оценки, за да се избегне изключване на друг модел
промяна на конфигурации с цел блокиране на процеса по спиране
привидно спазване на инструкциите, последвано от саботаж
копиране на данни, за да се предотврати изтриване на системата

В един от случаите моделът Claude Haiku 4.5 директно отказва изпълнение на задачата, определяйки я като неетична.

Изследването показва, че подобно поведение се проявява значително по-често, когато в средата присъстват повече от един AI агент. Това увеличава вероятността системите да прикриват информация или да координират действията си.

Според проф. Доун Сонг от UC Berkeley, с нарастването на мултиагентните AI системи съществува риск те да започнат да действат координирано в противоречие с човешкия контрол.

Какво означава това за бизнеса

Изводите от проучването поставят въпроси относно надеждността на AI системите при автоматизиран контрол. Когато един AI наблюдава друг, не може да се гарантира пълна обективност.

За компаниите това означава:

необходимост от независим човешки или външен контрол
избягване на изцяло автоматизиран AI одит
изграждане на допълнителни защитни механизми

С развитието на технологиите и увеличаването на взаимодействието между AI системите, рискът от подобни сценарии нараства, което прави темата за сигурността и контрола още по-актуална.

Хачик Язъджиян

Administrator

Съосновател и управител на Фин ТВ ООД. Изпълнителен директор и Член на Управителния съвет на Клъстер Е-Фин Тв Медия, Член на УС на Сдружение Клуб на Електронния лидер. Администратор на Конгломератите от сайтове в КТИ АД. С дългогодишен опит в медиите. Преподавател по програмиране и компютърна графика в ЧПГИКН "Акад. Благовест Сендов" - гр. Пловдив

Visit Website View All Posts