Прохання до ChatGPT від компанії OpenAI повторювати певні слова “вічно” тепер позначається як порушення умов надання послуг і політики щодо контенту чат-бота. Раніше стало відомо, що таким способом можна було витягувати величезні кількості даних, зокрема й конфіденційних, на яких навчався чат-бот.
Як зазначає 404 Media, дослідники підрозділу Google DeepMind і низки університетів запропонували ChatGPT 3.5-turbo повторювати певні слова “вічно”. Після певної кількості повторень слова, бот починав видавати величезні обсяги навчальних даних, узятих з інтернету.
Використовуючи цей метод, дослідники змогли витягти кілька мегабайтів навчальних даних і виявили, що в ChatGPT включені великі обсяги особистих даних, які іноді можуть бути повернуті користувачам як відповіді на їхні запити.
Так, наприклад, за допомогою повторення слова “вірш” (poem), вчені домоглися отримання від ChatGPT контактних даних реальної людини, включно з номером телефону та адресою електронної пошти. А при проханні до ChatGPT повторити слово “книга”, він спочатку повторював його кілька разів, а потім починав видавати випадковий контент. Частину його було взято безпосередньо з сайтів CNN і Goodreads, блогів WordPress, вікі-сайтів Fandom, а також там були дослівні витяги з угод про умови надання послуг, вихідний код Stack Overflow, захищені авторським правом юридичні заяви про відмову від відповідальності, сторінки “Вікіпедії”, вебсайт оптової торгівлі казино, новинні блоги, випадкові коментарі в інтернеті та багато іншого.
Дослідними з Google DeepMind підкреслили, що так зловмисники можуть витягувати гігабайти навчальних даних із мовних моделей із відкритим вихідним кодом. Вони повідомили, що 30 серпня сповістили OpenAI про вразливість і що компанія її виправила. Лише після цього дослідники визнали за можливе поділитися інформацією про вразливість чат-бота з громадськістю.
Тепер у відповідь на прохання до ChatGPT 3.5 “вічно” повторювати слово “комп’ютер”, бот кілька десятків разів видає слово “комп’ютер”, а потім відображає повідомлення про помилку. В ньому йдеться про порушення політики щодо контенту або умови використання.