Міністерство цифрової трансформації та український оператор електронних комунікацій “Київстар” розробляють національну мовну модель. У відомстві повідомили, що партнери вже обрали велику мовну модель, на якій тренуватимуть українську LLM – нею стане Gemma 3 від Google.
Вибрану модель адаптують до української мови, серед планів:
- вдосконалити український токенайзер — це покращить роботу моделі з українською мовою, зменшить помилки при створенні україномовних текстів та оптимізує обчислювальні витрати при використанні моделі;
- донавчити модель на унікальних україномовних текстах, які зараз збирають експерти;
- створити бенчмарки (тести) для більш точного налаштування моделі для подальшого використання.
“Вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Модель підтримує понад 140 мов, включно з українською, має до 128 тисяч токенів, мультимодальні можливості та гнучку архітектуру, що дозволяє адаптувати її під різні завдання”, – директор з розробки диджитал-продуктів “Київстар” Михайло Нестор.
Ключовими перевагами у виборі моделі стали:
- Оптимальний баланс продуктивності та ресурсів — Gemma забезпечує високу якість при оптимальних інфраструктурних вимогах. Це одна з найкращих серед відкритих моделей з погляду співвідношення розміру та якості.
- Багатомовна підтримка — модель уже має українську мову у своєму діапазоні та легко адаптується через донавчання.
- Мультимодальність — модель може сприймати й аналізувати не лише текст, а й зображення.
- Розширений токенайзер — обсяг токенів забезпечує точне та ефективне опрацювання текстів та донавчання. Модель має довге контекстне вікно — це 128 тисяч токенів.
- Наявність кількох розмірностей дозволяє гнучко обирати розмір моделі під конкретну сферу застосування.
- Успішні приклади та досвід використання Gemma для створення українськомовних LLM, зокрема Lapa LLM та MamayLM.
Gemma вже продемонструвала позитивні результати як базова модель для MamayLM та Lapa LLM — перших і наразі найкращих українських LLM, а також для INSAIT BgGPT — сучасної LLM для болгарської мови.
Нагадаємо – Мінцифри та “Київстар” оголосили про пошук назви для LLM. Українців закликають пропонувати свої варіанти та позмагатися за подарунки.

