В Україні представили велику мовну модель Lapa LLM v0.1.2, яку з нуля адаптували для роботи з українською мовою.
Про це повідомляє DOU з посиланням на одного із розробників моделі, аспіранта УКУ, Юрія Паніва.
Над моделлю працювали фахівці з Українського католицького університету, КПІ, Львівської політехніки та AGH University у Кракові.
Основою мовної моделі стала архітектура Gemma-3-12B, а головна мета – зробити швидку, точну та повністю відкриту українську LLM, придатну для досліджень і комерційного використання.
Модель назвали на честь Валентина Лапи – співавтора методу групового урахування аргументів, який став одним із теоретичних фундаментів сучасного Deep Learning.
За словами розробників, Lapa LLM відрізняється тим, що при її створенні повністю переписали токенізатор (інструмент або алгоритм, який розбиває текст на менші частини, які називаються токенами – ред.) під українську. 80 тисяч із 250 тисяч токенів було замінено, завдяки чому обробка україномовного тексту стала ефективнішою. Тепер для тих самих завдань потрібно у півтора раза менше токенів, а отже – менше обчислень. За швидкістю роботи з українською вона обходить оригінальну Gemma та більшість закритих моделей аналогічного класу, кажуть в УКУ.
У тестах на бенчмарках Lapa LLM показала такі результати:
- переклад: модель досягла 33 BLEU на FLORES для напрямку англійська – українська та показала високий результат у зворотному напрямку;
- обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів і описів зображень;
- Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність при відповіді на запитання – рівень, придатний для систем типу RAG;
- виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів і упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.
За словами розробників, у деяких завданнях вона вже наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні. У версії 1.0 творці Lapa LLM планують перевершити її результати.
Розробники заявляють про прагнення до максимальної відкритості. Наразі саму модель можна вільно завантажити та використовувати в комерційних цілях. Водночас анонсували вихідний код для тренування та 25 навчальних датасетів. Перші 5 датасетів та частину коду для тренування автори вже опублікували на сторінці проєкту. Решту обіцяють викласти протягом тижня з часу релізу.
За словами команди, у процесі навчання застосовували відкриті українські корпуси та дані, оцінені за параметрами читабельності, граматики й відсутності дезінформації. На фінальних етапах використовувались якісні матеріали з бази відкритих даних Бібліотеки Гарварду.
Розробники зазначають, що Lapa LLM можна використовувати для:
- створення корпоративних асистентів і чатботів українською;
- машинного перекладу між українською та англійською;
- побудови RAG-рішень для внутрішніх документів;
- роботи з конфіденційними текстами без передавання їх на зовнішні сервери.
- Далі науковці планують створити міркувальну (reasoning) версію моделі та розширити корпуси для аналізу зображень і програмування.
Як повідомляв ІМІ, випускниця Українського католицького університету (УКУ) Вікторія Маковська створила модель на основі машинного навчання, яка допомагає виявляти приховані пропагандистські правки у Wikipedia – навіть ті, що виглядають як нейтральні формулювання.