Науковці Українського католицького університету та Київського національного університету імені Тараса Шевченка досягли суттєвого прогресу в синтезі українського мовлення для систем штучного інтелекту. Команді вдалося підвищити точність визначення наголосів у словах залежно від контексту.
Про результати дослідження повідомив дослідник Юрій Панів у своєму блозі, передає delo.ua.
Ключовим фокусом роботи стало автоматичне розпізнавання наголосів у контексті, зокрема для омографів — слів з однаковим написанням, але різною вимовою та значенням. Для цього науковці створили вручну розмічений бенчмарк для оцінки алгоритмів наголошення та провели порівняльний аналіз наявних підходів. На основі цих даних була розроблена модель, яка використовується для автоматичної авторозмітки складних випадків.
Основним результатом стала гібридна модель проставляння наголосів, що поєднує нейромережевий аналіз із лінгвістичною словниковою базою. Такий підхід дозволяє враховувати повний контекст речення, а не окремі слова.
Окремою частиною розробки став фонемізатор, створений на основі класичних лінгвістичних праць. За результатами тестування, фонемізатор показав низький рівень помилок — показник WER становив 1,23%.
Команда також відкрила доступ до першого в Україні спеціалізованого бенчмарку для оцінки систем прогнозування наголосів. Він містить понад тисячу вручну анотованих речень і може використовуватися для подальших досліджень у сфері мовних технологій. Комбінована система прогнозування наголосів продемонструвала точність на рівні 92,5%, перевершивши наявні нейромережеві рішення.
Нагадаємо – у листопаді цього року український ШІ-стартап Respeecher запустив сервіс Text-to-Speech, який озвучує тексти живою українською мовою. Новинка також підтримує суржик і пропонує бібліотеку голосів різної статі, віку, тембру та тональності для різних завдань: реклама, анонси, подкасти чи аудіокниги.

