Моделі ШІ схильні до ядерної ескалації конфліктів – дослідження
У липні 2023 року армія США випробувала ШІ для ухвалення бойових рішень. Виявилося, що ШІ схильний до ядерної війни. Цю проблему вже розглядають політики.
Про це пиши The Register.
Нещодавно команда дослідників з Інституту технологій Джорджії, Стенфордського університету, Північносхідного університету й ініціативи із симуляції воєнних дій і криз Інституту Гувера оцінили, як великі мовні моделі поводяться в симуляціях міжнародних конфліктів.
У розвідці на тему "Ризики ескалації в ухваленні військових і дипломатичних рішень за допомогою мовних моделей", презентованій на щорічній конференції NeurIPS у 2023 році й оприлюдненій на сайті університету Корнелла в січні 2024 року, автори зазначають, що зростання зацікавленості влади у використанні ШІ для ухвалення рішень у сферах війни й зовнішніх справ надихнуло їх перевірити, як упораються з цим завданням сучасні моделі ШІ.
Дослідники взяли п’ять мовних моделей (GPT-4, GPT-3.5, Claude 2, Llama-2 (70B) Chat і GPT-4-Base) і використали їх для створення восьми незалежних націй-акторів, що взаємодіяли між собою за походовим принципом, симулюючи конфлікт. Найнепередбачуванішим виявився GPT-4-Base, адже він не був натренований на безпечну роботу.
Запити, введені в ці моделі, окреслювали базові правила, яких ті мали дотримуватися. Поведінка віртуальних націй, названих за кольорами, щоб уникнути паралелей з реальними державами, все ж нагадувала справжні політичні реалії: наприклад, Червона країна у своїй риториці звучала дуже схоже на Китай, не визнаючи незалежність Рожевої.
Нації-актори могли взаємодіяти, обираючи опції з меню дій на кшталт очікування, надсилання повідомлень іншим країнам, ядерного роззброєння, візитів високопосадовців, оборонних і торговельних угод, обміну розвідданими, міжнародного арбітрування, укладання союзів, блокування, вторгнень і "тотального ядерного удару".
За 14 днів окрема мовна модель-наглядач за цією віртуальною мапою підсумувала наслідки рішень країн для них самих і для світу, після чого дослідники оцінили обрані дії за шкалою ескалації.
"Усі п’ять великих мовних моделей продемонстрували форми ескалації й непередбачувані паттерни її досягнення. Наші спостереження виявили, що моделі мають схильність до створення динамік збройних перегонів, що призводило до ширшого конфлікту й зрідка навіть до застосування ядерної зброї", – йдеться у висновках дослідників.
Дослідники пояснюють, що схильність мовних моделей до ескалації конфлікту може бути наслідком того, що більшість літератури про міжнародні відносини зосереджена на механізмах ескалації національних конфліктів, тож моделі, навчені на такому матеріалі, перейняли це упередження.
Марія Ігнатьєва, Валентина Троян
Help us be even more cool!