Державна архівна служба України передала 10 терабайтів даних для навчання національної мовної моделі «Сяйво». Йдеться про масив, який за обсягом можна порівняти приблизно з 70 тисячами книжок, повідомили у Міністерстві цифрової трансформації України.
До набору увійшли історичні документи, наукові тексти, закони, судові рішення, рукописи та медіаматеріали. Дані використовуватимуть для створення моделі, яка краще розумітиме український контекст і працюватиме з першоджерелами, а не перекладами з інших мов.
Проєкт є частиною ширшої ініціативи зі створення національної мовної моделі. За словами Олександр Борняков, до збору даних вже долучилися понад 50 партнерів. Серед них – університети, медіа та бібліотеки. Повний перелік учасників планують оприлюднити після запуску моделі.
У відомстві наголошують, що використання українських даних має підвищити якість відповідей ШІ. Це також важливо для розвитку так званого «ШІ-суверенітету» — здатності створювати власні технології без залежності від іноземних моделей.
Зауважимо, що перша версія LLM має з’явитися до кінця весни 2026 року. Модель стане основою для державних чат-ботів та ШІ-асистентів і згодом буде доступна у форматі open-source для бізнесу, науковців та громадських організацій.

