Нового ШІ-помічника від Meta натреновано на публічних дописах з Facebook та Instagram

Meta Platforms використала публічні дописи з Facebook та Instagram для навчання свого нового ШІ-помічника, але з поваги до приватності споживачів не брала для цього пости, опубліковані лише для рідних і друзів.

Про це в інтерв’ю Reuters повідомив один з керівників, відповідальних за політику компанії.

Meta також не використовувала для тренування приватні листування зі своїх програм-месенджерів і вжила заходів для видалення приватної інформації з наборів даних, на яких мав навчатися ШІ, розповів президент відділу глобальної політики Meta Нік Клеґґ цього тижня за кулісами щорічної корпоративної конференції Connect.

“Ми намагалися не брати набори даних, де превалює особиста інформація”, – сказав Клеґґ і додав, що “переважна більшість” даних, використаних Meta для навчання ШІ, була в публічному доступі.

Як зразок сайту, чий контент Meta навмисно не використовувала з міркувань приватності, посадовець назвав LinkedIn.

Останнім часом компанії в галузі технологій на кшталт Meta, OpenAI й Google зазнають критики за навчання своїх ШІ-моделей, які “з’їдають” масивні обсяги даних для генерування підсумків і зображень, на інформації, взятої з інтернету без дозволу.

Компанії вирішують, що робити з приватними чи захищеними авторським правом матеріалами, які стають втягнутимив цей процес та які їхній ШІ може потім відтворити, водночас захищаючись від позовів авторів контенту, котрі звинувачують їх у порушенні копірайту.

Meta AI був найбільш значущим продуктом серед перших доступних споживачеві ШІ-програм, анонсованих гендиректором компанії Марком Цукербергом у середу на щорічній конференції Connect. Цьогоріч більшість розмов на події було присвячено штучному інтелекту – на відміну від попередніх конференцій, де основною темою були доповнена й віртуальна реальність.

Meta створила свого ШІ-помічника на власній моделі, створеній на основі потужної моделі генерування мови Llama 2, яку компанія запустила для вільного комерційного використання в липні, а також нової моделі з назвою Emu, яка генерує зображення за текстовими запитами.

Новий продукт Meta зможе генерувати текст, аудіо й зображення та матиме доступ до найсвіжішої інформації завдяки партнерству з пошуковиком Bing.

Публічні дописи Facebook та Instagram, використані для навчання Meta AI, містили як текст, так і фотографії, каже Клеґґ.

На цих постах тренували Emu, на якій працюють елементи генерування зображень у новому продукті; водночас функції чату спираються на Llama 2 з додаванням деяких загальнодоступних і анотованих наборів даних, повідомив Reuters речник Meta.

Взаємодії користувачів з Meta AI також можуть у майбутньому бути використані для покращення роботи програми, зазначає речник.

За словами Клеґґа, Meta запровадила захисні обмеження на контент, який може генерувати Meta AI, наприклад заборонивши створення фотореалістичних зображень публічних діячів.

Щодо матеріалів, захищених авторським правом, Клеґґ стверджує, що очікує “багато судових дискусій” про те, “чи на креативний контент поширюється доктрина fair use”, яка дозволяє обмежене використання захищених робіт з метою коментування, досліджень і пародії.

“Ми вважаємо, що так, але я дуже впевнений, що це випливе в судові процеси”, – каже Клеґґ.

Деякі компанії – розробники генераторів зображень дозволяють відтворення відомих персонажів на кшталт Мікі Мауса, інші ж заплатили за право використовувати такий матеріал або ж навмисно не додають його до навчальних добірок даних.

Так, OpenAI цього літа підписала шестирічну угоду з компанією Shutterstock, щоб використовувати її бібліотеки зображень, відео й музики для навчання ШІ.

На запитання про те, чи Meta вживає подібних заходів, щоб уникнути відтворення захищених авторським правом зображень, речник Meta послався на нові правила програми, які забороняють користувачам генерувати матеріали, що порушують право на приватність та інтелектуальну власність.

Марія Ігнатьєва, Валентина Троян