Суд раскрыл тайну Meta*: использование пиратской базы данных из России для обучения ИИ

В одном из самых важных судебных разбирательств по авторскому праву в сфере ИИ произошел неожиданный поворот. Суд отменил засекречивание документов, раскрывающих, что Meta тайно использовала Library Genesis (LibGen), печально известную онлайн-библиотеку с пиратскими книгами, предположительно созданную учёными из России в 2008 году, для обучения своих генеративных языковых моделей. Это стало серьезным ударом для Meta в деле Kadrey et al. v. Meta Platforms, одном из первых исков о нарушении авторских прав в связи с обучением ИИ.

image

Решение судьи Винсента Чхабриа из Окружного суда Северного округа Калифорнии стало следствием его оценки попыток Meta засекретить информацию как «нелепых». Судья заявил, что большая часть информации не должна была скрываться и что Meta преследовала цель избежать негативной огласки, а не защитить свои деловые интересы. Документы, поданные ещё в конце прошлого года, были впервые опубликованы в полном объеме только сейчас.

В своем решении Чхабриа сослался на цитату из внутренней переписки сотрудников Meta, где они предположили: «Если в СМИ появится информация о том, что мы использовали пиратские данные, такие как LibGen, это может подорвать наши позиции в переговорах с регуляторами». Meta отказалась от комментариев.

Романтисты Ричард Кадрей и Кристофер Голден, а также комедиантка Сара Сильверман подали коллективный иск против Meta в июле 2023 года, утверждая, что компания использовала их произведения для обучения своих языковых моделей без разрешения. Meta утверждала, что использование общедоступных материалов защищено доктриной «добросовестного использования», но новые документы показывают, что компания знала о пиратском происхождении данных LibGen.

Ранее Meta упоминала в исследовательской работе использование набора данных Books3 (около 196 000 книг), собранных из интернета, но прямое использование данных LibGen не раскрывалось. Вскрытые документы содержат переписку сотрудников Meta, включая сообщение инженера о сомнениях в загрузке данных с LibGen с корпоративного ноутбука. Также утверждается, что решение об использовании пиратских материалов было согласовано с генеральным директором Meta Марком Цукербергом («MZ» в документах).

Истцы утверждают, что Meta использовала «общедоступность» теневых наборов данных как оправдание, несмотря на осведомленность руководства, включая Цукерберга, о пиратском характере LibGen. Meta в ответ утверждает, что истцы знали об использовании LibGen ещё с июля 2024 года и пытаются добавить новые обвинения в последний момент.

В ноябре 2023 года Чхабриа удовлетворил ходатайство Meta об отклонении некоторых пунктов иска, в частности, о нарушении Закона о цифровом тысячелетии об авторском праве (DMCA). Однако, новые документы предоставляют дополнительные доказательства нарушения DMCA, включая утверждения о том, что Meta не только использовала, но и распространяла пиратские материалы через торрент-сети.

LibGen, созданный около 2008 года в России, является одной из крупнейших и самых противоречивых «теневых библиотек» в мире. Несмотря на судебные решения, предписывающие его блокировку и выплату компенсаций, он продолжает функционировать.

Чхабриа предупредил Meta о недопустимости чрезмерного засекречивания документов в будущем, пригрозив автоматическим рассекречиванием всех материалов в случае повторных злоупотреблений. Это дело имеет далеко идущие последствия для определения правомерности использования защищенных авторским правом материалов для обучения ИИ.

* Деятельность организации запрещена на территории РФ

Источник:

16
16комментариев