Компанія OpenAI запропонувала видавцям від $1 до $5 млн на рік за ліцензування захищених авторським правом новинних статей для навчання моделей штучного інтелекту. Розробник ChatGPT намагається підписати ліцензійні угоди, які спростять навчання ШІ та допоможуть уникнути проблем з авторським правом.
Як зазначає The Information, це одне з перших свідчень того, скільки ШІ-компанії планують платити за ліцензійні матеріали. Це відбувається поряд з нещодавнім звітом про те, що Apple шукає партнерів у медіакомпаніях для використання контенту для навчання ШІ та пропонує щонайменше $50 млн за багаторічний період за дані.
Ці цифри виглядають приблизно так само, як і деякі попередні ліцензійні угоди, не пов’язані зі штучним інтелектом — коли Meta запустила вкладку “Новини” у Facebook, вона нібито пропонувала до $3 млн на рік за ліцензування новинних статей, заголовків і прев’ю. Водночас у 2020 році Google оголосив, що загалом інвестує $1 млрд у партнерство з новинними організаціями. Під тиском нового закону Google також нещодавно погодився виплачувати канадським видавцям загалом $100 млн щорічно в обмін на посилання на їхні статті.
Сучасні великі мовні моделі навчалися переважно на інформації з інтернету. Хоча деякі моделі ШІ не розкривають, як вони отримали свої навчальні дані, часто доступна інформація про те, які набори даних або вебсканери були використані. Ціни на навчальні набори даних варіюються залежно від постачальника, розміру та змісту набору даних. Деякі постачальники даних, такі як LAION, мають відкритий вихідний код і є абсолютно безкоштовними і використовуються в таких моделях, як Stable Diffusion.
Розробники ШІ також часто створюють вебсканери, які збирають дані в інтернеті, щоб допомогти навчати свої моделі. Проте розробникам все одно доводиться наймати людей для перевірки, тегування, а іноді й очищення навчальних даних, що значно збільшує операційні витрати.
Зараз ця практика стикається з великими проблемами. З одного боку, деякі компанії, зокрема The New York Times і Vox Media, заблокували доступ до даних GPT-краулера OpenAI, а з іншого боку, деякі організації стверджують, що він не має доступу до даних.
Кілька організацій стверджують, що навчання на їхніх даних є порушенням авторських прав. Зокрема, The New York Times подала до суду на OpenAI та Microsoft за порушення авторських прав, стверджуючи, що ChatGPT і Copilot від Microsoft можуть генерувати вихідні дані майже дослівно до їх робіт.
Укладення партнерських угод дозволяє ШІ-компаніям уникати подібних проблем. Такі видавництва, як Axel Springer (Politico, Business Insider) і The Associated Press підписали угоди з OpenAI про ліцензування історій для навчання моделей на кшталт GPT-4 і розробки технологій для збору новин.