На конференції IT Arena 2025 українські й польські дослідники презентували Lapa LLM — першу велику мовну модель зі штучним інтелектом, створену спеціально для роботи з українською мовою та контекстом.
Як пише dev.ua, Lapa LLM представив аспірант Українського католицького університету та фахівець із даних у компанії Nortal Юрій Панів. За його словами, розробка має на меті розв’язати критичні проблеми, які залишаються поза увагою у глобальних відкритих LLM-моделях, особливо у питаннях національної безпеки, культури та мовної точності.
Серед ключових цілей проєкту:
- Національна безпека та конфіденційність: Модель розробляється для роботи з конфіденційними даними в оборонному секторі та у великих компаніях, яким потрібно обробляти інформацію в закритому контурі, без виправляння її хмарним провайдерам.
 
- Культурна узгодженість: Lapa LLM навчається з фокусом на українських цінностях і контексті. Автоматична фільтрація даних використовується для запобігання російській пропаганді та дезінформації, а також для уникнення «галюцинацій» щодо знань про Україну.
 
- Висока продуктивність: Проєкт прагне розв’язати проблему незадовільної продуктивності для української мови, характерної для багатьох відкритих LLM.
 
Основою Lapa LLM стала модель Gemma від Google на 12 мільярдів параметрів, що забезпечує оптимальний баланс між продуктивністю та вимогами до ресурсів. Одним із ключових технічних досягнень розробників став новий український токенізатор, який дозволяє зменшити кількість токенів на 50% при обробці українського тексту.
Реліз моделі, а також пов’язаних з нею навчальних скриптів і наборів даних, запланований на початок жовтня. Команда планує оприлюднити Lapa LLM під відкритою ліцензією MIT.
Нагадаємо – у червні Мінцифри оголосило про амбітні плани запустити велику мовну модель штучного інтелекту до кінця 2025 року. Вона стане першою національною LLM (Large Language Model), створеною з урахуванням української мови, культури та безпекових викликів.

