Компанія Anthropic, розробник чат-боту зі штучним інтелектом Claude, оголосила про розширення своєї програми винагород за виявлення вразливостей у системах безпеки ШІ. Розширена програма передбачає винагороду в розмірі $15 000 для учасників, які зможуть зробити джейлбрейк ще не випущеної ШІ-моделі “наступного покоління” компанії.
Як зазначається у релізі Anthropic, програма спрямована на виявлення універсальних атак типу “jailbreak”, які дозволяють обходити захисні механізми ШІ у широкому спектрі галузей. Особлива увага приділяється критичним сферам високого ризику, таким як хімічна, біологічна, радіологічна та ядерна безпека, а також кібербезпека.
Учасники програми отримають ранній доступ до тестування найновішої системи безпеки Anthropic перед її публічним впровадженням. Наразі програма працюватиме за запрошеннями у партнерстві з HackerOne, але планується її розширення в майбутньому. Зацікавлені дослідники з досвідом у сфері безпеки ШІ можуть подати заявку на участь до 16 серпня.
У релізі підкреслюється, що ця ініціатива відповідає зобов’язанням, які Anthropic підписала разом з іншими компаніями щодо розробки відповідального ШІ, включаючи добровільні зобов’язання, оголошені Білим домом, та Кодекс поведінки, розроблений в рамках процесу G7 у Хіросімі.