Вікіпедія може врятувати мову. Наприклад, інарі-саамі (мова громади Інарі у Фінляндії) ще 40 років тому була на межі вимирання, а зараз налічує кілька сотень мовців – деякі школи навіть викладають нею. Неабияку роль у цій історії успіху відіграла саме вікіпедія, яка зараз налічує 6400 статей інарі-саамською: вчителі активно використовують її в роботі, і, коли виникає потреба у нових словах, саме вікіпедія допомагає ввести їх у вжиток завдяки своїй популярності серед молоді.

Та не всім рідкісним мовам так щастить. Британський журналіст Джейкоб Джуда поспілкувався з низкою активістів і науковців з різних частин світу й виявив, що більшість із них, навпаки, вбачають у вікіпедії загрозу для мов, які намагаються вберегти.

Причина проста: що популярнішим стає машинний переклад, то більше людей використовують його для написання вікістатей мовами, якими не володіють.

Так, на думку адміністратора гренландськомовної вікіпедії, лише кілька людей із сотень дописувачів справді є гренландцями, – йому довелося видалити більшість із 1500 статей на ресурсі, адже ті містили грубі помилки, а де-не-де навіть випадкові набори літер, які взагалі не є словами та на позір виглядають “гренландсько”.

За даними MIT Technology Review, у випадку деяких африканських мов 40–60% вікістатей є невідредагованим машинним перекладом, а вікіпедія мовою інуктитут (корінна мова канадських інуїтів) на дві третини складається зі сторінок, що містять автоматично згенеровані речення й абзаци.

Ймовірно, за діями таких ентузіастів стоїть щире бажання допомогти носіям мови й сподівання, що самі носії згодом повиправляють помилки. Іноді так і відбувається – наприклад, кожну статтю інарі-саамською вичитує жива людина, яка вільно володіє мовою. Та редагування вікіпедії – кропітка й неоплачувана робота. Не кожна рідкісна або загрожена мова має таких волонтерів, а деякі мають лише одного “міського божевільного”, готового систематично цим займатися.

Тим часом за невичитані статті беруться нові моделі штучного інтелекту. Штучний інтелект навчається мов лише на “сирих даних”, а не на підручниках або словниках, наголошує Кевін Сканнелл, колишній професор інформатики в університеті Сент-Луїса. Авжеж, вікіпедія є вагомим джерелом таких даних, а у випадку деяких мов навіть єдиним джерелом, доступним шляхом “вишкрібання” мережі, як показало дослідження німецьких науковців у 2022 році.

У такий спосіб утворюється замкнене коло: штучний інтелект продукує безграмотні тексти, а тоді на них же й навчається (“Лайно на вході, лайно на виході”, – підсумовує Джейкоб Джуда). Іноді на основі подібних вікістатей створюються автоматично згенеровані посібники з рідкісних мов – від інуктитуту й крі (Канада) до менської (Британія), – які потім продаються охочим вивчити ці мови самотужки. Та навіть без цього ненадійна енциклопедія може легко завдати шкоди, каже Абдулкадір Абдулкадір, редактор вікіпедії мовою фульфульде, якою розмовляють у сагельському регіоні Африки. Для місцевих фермерів вікіпедія є одним з небагатьох джерел інформації рідною мовою – зокрема, інформації про землеробство, – але статті, автоматично перекладені фульфульде, містять купу помилок, а подекуди геть нечитабельні.

Якщо найближчим часом щось не зміниться в тому, як навчається й використовується штучний інтелект, у фульфульде “взагалі, геть не буде майбутнього”, вважає Абдулкадір.

Так само критично налаштовані й інші фахівці, до яких звернувся Джейкоб Джуда. Наприклад, Люсі Івуала, яка опікується вікіпедією мовою іґбо (Нігерія), наголошує: безграмотні статті можуть зробити мову не більш, а менш популярною, адже в читачів зникне бажання до них звертатися. “Вони просто закинуть це й підуть до англомовної вікіпедії”, – пояснює Івуала. Професор з гавайської мови Ноа Гаʼаліліо Соломон також вважає, що активне застосування ШІ для створення вікістатей гавайською підважує важку роботу активістів і науковців, які в недалекому минулому врятували цю мову від вимирання.

Позитивніше налаштований Фабріціо Бреккьяролі, член Товариства інарі-саамської мови: він сподівається, що, якщо наповнювати мережу якісними текстами, згодом моделі штучного інтелекту почнуть видавати якісніші результати. Та навіть він зізнається: “Мабуть, на краще, що інарі-саамської немає в Google Translate”.

Як пише MIT Technology Review, коли Кеннет Вер узявся керувати гренландськомовною версією вікіпедії чотири роки тому, його першим кроком стало майже повне видалення всього вмісту. На його думку, це було необхідно – інакше в проєкту не було б жодного шансу вижити.

Веру зараз 26. Він не родом із Гренландії, він виріс у Німеччині, але ще з підліткових років захопився цією острівною країною, що є автономною територією Данії. Протягом багатьох років він писав маловідомі статті у вікіпедії практично про все, що стосувалося Гренландії. Зрештою він навіть переїхав до Копенгагена, щоб вивчати гренландську – мову, якою розмовляють близько 57 тисяч переважно корінних інуїтів, розселених по десятках віддалених арктичних селищ.

Гренландськомовну версію вікіпедії було створено приблизно 2003 року, всього через кілька років після запуску сайту англійською. Коли ж Вер очолив її майже через два десятиліття, у ній уже працювали сотні дописувачів, які спільно створили близько 1500 статей, загалом десятки тисяч слів. Здавалося, це було переконливим підтвердженням ефективності краудсорсингу, що зробив вікіпедію головним джерелом інформації в інтернеті, і доказом того, що ця модель може працювати навіть у найнеочікуваніших умовах.

Була лише одна проблема: гренландська вікіпедія виявилася міражем.

Практично кожна стаття була написана людьми, які насправді не володіли гренландською мовою. Вер, який нині викладає гренландську в Данії, припускає, що, можливо, лише один або два гренландці коли-небудь робили внески до цього розділу. Але найбільше його непокоїло інше: з часом він помітив, що дедалі більше статей з’являються у вікіпедії шляхом копіювання текстів, перекладених машинними перекладачами. Вони були переповнені елементарними помилками – від граматичних недоліків до безглуздих слів, а подекуди й серйозних неточностей, як-от стаття, у якій стверджувалося, що населення Канади становить лише 41 особу. Інші сторінки іноді містили випадкові набори літер – результат роботи програм, які просто не могли знайти відповідних гренландських слів, щоб висловити думку.

Наприкінці минулого року Кеннет Вер звернувся з проханням до мовного комітету вікіпедії закрити розділ вікіпедії гренландською мовою. За цим настали місяці гострих суперечок між десятками вікіпедійних бюрократів; деякі, схоже, були здивовані тим, що зовні цілком життєздатний розділ може мати стільки проблем.

А вже на початку цього місяця пропозицію Вера було прийнято. Гренландську вікіпедію вирішено закрити, а всі статті, що залишаться, буде перенесено до Wikipedia Incubator – простору, де тестують і розвивають нові мовні версії. Серед причин, зазначених мовним комітетом, – використання інструментів штучного інтелекту, які “часто створювали нісенітниці, що могли спотворювати мову”.

Втім, можливо, вже запізно. Помилки в гренландській вікіпедії, схоже, вже закріпилися в машинних перекладачах. Якщо попросити Google Translate чи ChatGPT просто порахувати від одного до десяти гренландською, жодна з цих програм не впорається…

Марія Ігнат’єва, за матеріалом MIT Technology Review