Навчання великих мовних моделей на неякісному контенті з соцмереж знижує їхні когнітивні здатності. Про це свідчать результати спільного дослідження Техаського університету й Університету Пердью, повідомляє Wired.

Науковці виявили, що у великих мовних моделей, натренованих на популярному, але неякісному контенті з соцмереж, починається “брейнрот” (буквально: “гниття мозку”).

“Ми живемо в епоху, коли кількість інформації зростає швидше, ніж спроможності нашої уваги, – і більшість цієї інформації покликана заробляти кліки, а не бути правдивою або глибокою. Нам стало цікаво: що станеться, якщо натренувати ШІ на такому ж контенті?” – каже Дзюньюань Хун, майбутній доцент Сингапурського національного університету, який взяв участь у дослідженні, коли навчався в Техаському університеті.

Хун з колегами “згодовували” різні види текстів двом відкритим моделям ШІ (Llama від Meta й Qwen від Alibaba) на стадії попереднього навчання. Дослідники спостерігали, що відбудеться, коли моделі опрацьовували дописи з соцмереж, які мали велике охоплення або ж містили сенсаційні або “хайпові” слова на кшталт “ого”, “дивіться”, “лише сьогодні”.

Далі науковці за допомогою кількох контрольних точок оцінили вплив цієї “нездорової дієти” на ШІ.

Моделі, натреновані на неякісних текстах, спіткав такий собі “брейнрот”: зокрема, послаблення спроможності міркувати й погіршення памʼяті. Ці моделі також стали менш етично зорієнтованими і “психопатичнішими”.

Схожі результати показало раніше дослідження, яке виявило, що контент низької якості з інтернету має негативний вплив на когнітивні здатності людей. 

За словами Хуна, їхні висновки важливі для індустрії ШІ, адже розробники можуть помилково вважати, що дописи в соцмережах є добрим джерелом даних для навчання їхніх моделей.

“Навчання на вірусному чи провокативному контенті може здаватися масштабуванням даних, але це може розʼїсти міркувальні здатності, етику й довгострокову увагу”, – стверджує Хун.

Особливо тривожним це відкриття робить той факт, що дедалі більше контенту в соцмережах, зокрема оптимізованого під охоплення, уже генерується за допомогою штучного інтелекту. Дослідники також зʼясували, що моделі, зіпсовані неякісним контентом, не піддаються перенавчанню.

Результати розвідки також свідчать, що системи ШІ, побудовані на основі соцмереж (наприклад, Grok), можуть зазнавати проблем з контролем якості, якщо дописи користувачів використовуються для тренування без урахування їхньої доброчесності.

“Дедалі більше згенерованої ШІ бурди шириться соцмережами й забруднює дані, на яких навчаються майбутні моделі. Наше дослідження показало, що, коли цей “брейнрот” вкорінюється, подальше навчання на “чистому” матеріалі не дає повністю його позбутися”, – каже Хун.

Як повідомляв ІМІ, згідно з дослідженням, координованого Європейською мовною спілкою (ЄМС) й очоленого ВВС, ШІ-асистенти, які вже стали щоденним джерелом інформації для мільйонів людей, систематично викривлюють новинний контент незалежно від мови, регіону й моделі штучного інтелекту.