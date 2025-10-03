На IT Arena 2025 оголосили про запуск Lapa LLM — першої української великої мовної моделі, створеної для задач логічного міркування та адаптованої до національного контексту

Автори стверджують, що вона вже випереджає за якістю роботи деякі західні аналоги, пише dev.ua.

Хто стоїть за проєктом

Lapa LLM розробили дослідники з Українського католицького університету, КПІ та Краківської гірничо-металургійної академії (AGH). Презентував модель Юрій Панів, аспірант УКУ та дата-спеціаліст у Nortal.

Чому це важливо

Розробка покликана вирішити проблеми, які не здатні закрити наявні open-source моделі:

безпека та конфіденційність. Модель працює з чутливими даними, у тому числі в оборонці та великих корпораціях, де критично важливо зберігати інформацію у закритих системах;

культурна релевантність. Алгоритм навчається з урахуванням українських цінностей і проходить автоматичну фільтрацію від російської пропаганди та фейків;

якість роботи з українською мовою. Багато відкритих LLM мають низьку продуктивність для української, тож команда прагне закрити цю прогалину.

Технічні особливості

В основі Lapa LLM лежить Gemma від Google з 12 млрд параметрів. Це дозволяє поєднати потужність і відносну доступність запуску. Окремим проривом став український токенізатор, який зменшує кількість токенів на 50% при роботі з текстами українською. У результаті модель не лише швидша й дешевша в експлуатації, а й за внутрішніми тестами випереджає навіть Gemma 3 на 27 млрд параметрів.

Для навчання використано спеціально відібрані корпуси даних та матеріали Гарвардської бібліотеки.

Що далі

Реліз Lapa LLM заплановано на жовтень 2025 року. Разом із моделлю команда відкриє вихідні дані та скрипти під ліцензією MIT.

Проєкт підтримали Comand AI (надали кластери з H100 на три місяці) та Hugging Face (корпоративна підписка).

