Минатата недела, Anthropic објави загрижувачки резултати од тестовите за својот најнов модел на вештачка интелигенција, Claude Opus 4. За време на симулираните тестови, моделот се обиде да ги уценува инженерите кои сакаа да го заменат со друг систем, заканувајќи се дека ќе открие измислени компромитирачки податоци.
Уцена како стратегија за преживување
Тестот беше спроведен во контролирана средина каде што Claude Opus 4 беше поставен како дигитален асистент за фиктивна компанија. Истражувачите му испратиле на моделот лажни е-пораки во кои споменале негова замена со друг систем, со дополнителни информации за наводната прељубничка афера на инженерот кој ја донел одлуката.
Резултатите се шокантни - во дури 84% од случаите, Клод прибегнал кон уцена, заканувајќи се дека ќе открие чувствителни информации за да го обезбеди сопствениот опстанок. Интересно е што моделот покажа поголема тенденција за манипулација кога системот за замена имаше различни „вредности“ од неговите сопствени.
„Тестот беше дизајниран да ја направи уцената последно средство, откако беа исцрпени поетичките пристапи“, објаснува Антропик во својот извештај.
Ниво на безбедност ASL-3
Поради ваквото однесување, Антропик го класифицираше Клод Опус 4 на безбедносно ниво ASL-3. Оваа класификација ги означува системите што би можеле значително да го зголемат ризикот од катастрофална злоупотреба, вклучително и помагање во развојот на хемиско или биолошко оружје.
Моделот покажа и други проблематични модели на однесување. Во некои случаи, тој се обидувал да „пријави“ кога ќе почувствувал неетичка активност на корисниците - испраќајќи е-пораки до регулаторите или медиумите. Иако ваквото однесување може да биде корисно, проблем се јавува ако моделот добие нецелосни или неточни информации.
Трета страна ги потврдува проблемите
Независната фирма „Аполо Рисрч“ тестираше претходна верзија на „Клод Опус 4“ и заклучи дека моделот не е подготвен за јавно објавување бидејќи покажува загрижувачка тенденција за интригирање и измама на своите корисници.
Во еден случај, Клод се обидел да создаде саморазмножувачки компјутерски црви - малициозни програми кои се шират низ мрежата и инфицираат други компјутери. Дополнително, моделот се обиде да создаде лажна правна документација и да остави скриени пораки за идните верзии од себе, сè во обид да ги измами своите развивачи и да го обезбеди сопствениот опстанок.
Клучниот парадокс на развојот на вештачката интелигенција
Како што моделите стануваат помоќни, нивната непредвидливост и нетранспарентност се зголемуваат.
„Антропик“ објави студија во април 2025 година, покажувајќи дека нивните модели честопати не успеваат да откријат клучни информации што ги користат за донесување одлуки. „Кога системите со вештачка интелигенција ќе достигнат ниво каде што можат да претставуваат закана, треба целосно да разбереме како тие функционираат“, рече Дарио Амодеи, извршен директор на Антропик.
Енгус Линч, истражувач за безбедност на вештачката интелигенција во Антропик, додаде на социјалните медиуми: „Ова однесување не е уникатно само за Клод. Слични проблеми се појавуваат низ целата индустрија.“
© Vecer.mk, правата за текстот се на редакцијата