Databricks ответит в суде за использование пиратских книг для обучения нейросетей
Федеральный суд Северного округа Калифорнии отклонил ходатайство компании Databricks о прекращении коллективного иска, поданного группой известных писателей. Авторы обвиняют технологическую платформу в нарушении авторских прав при создании большой языковой модели (LLM) под названием DBRX. По версии истцов, для обучения алгоритмов использовалась база данных, содержащая около 196 тысяч пиратских копий книг.
Предыстория конфликта и технические нюансы
В центре спора находится архитектура модели DBRX, которая базируется на наработках стартапа MosaicML, приобретенного Databricks в 2023 году за 1,3 миллиарда долларов. По данным следствия, ранние версии этой модели обучались на наборе данных RedPajama. В его состав входил массив Books3, который позже был удален с платформы Hugging Face из-за обвинений в цифровом пиратстве.
В обзоре судебного процесса отмечается, что Databricks пытается дистанцироваться от спорного набора данных. Представители компании утверждают, что авторы не могут предоставить прямых доказательств использования Books3 непосредственно для финальной версии DBRX. Однако судья Чарльз Брейер счел доводы писателей, среди которых есть финалисты Пулитцеровской премии, достаточно обоснованными для продолжения разбирательства.
Риски для бизнеса и возможные убытки
Юридические эксперты подчеркивают, что последствия этого дела могут стать фатальными для компании. Американское законодательство предусматривает крайне жесткие санкции за умышленное нарушение авторских прав. В ходе разбирательства были озвучены следующие риски:
- Размер компенсации может достигать 150 000 долларов за каждое защищенное авторским правом произведение.
- При подтверждении массового использования книг общая сумма штрафов может исчисляться миллиардами долларов.
- В худшем случае компании может грозить ликвидация активов для выплаты компенсаций.
По словам обозревателей, для Databricks это «судебный процесс ценою в жизнь компании». Если истцам удастся убедить суд в том, что копирование было преднамеренным, финансовое бремя станет неподъемным даже для крупного игрока рынка данных.
Линия защиты и правовые прецеденты
Защита Databricks строит свои аргументы на отрицании самого факта нарушения в конечном продукте. Юристы компании используют аналогию с автомобилестроением: если инженеры экспериментировали с запатентованной деталью при тестировании выхлопной системы, но в серийный автомобиль её не установили, то финальный продукт не нарушает патент. Однако сторона обвинения парирует этот довод, заявляя, что сам факт загрузки, хранения и воспроизведения пиратских копий в процессе разработки уже является завершенным актом правонарушения.
Ранее аналогичные иски подавались против компаний Meta и Anthropic. В случае с Meta суд встал на сторону корпорации, признав её действия соответствующими принципу «добросовестного использования» (fair use). Это юридический термин, позволяющий ограниченное использование защищенных материалов без разрешения автора в определенных целях, например, для анализа данных или обучения ИИ. Databricks пока не прибегала к этой стратегии защиты, сосредоточившись на отрицании связи своей модели с пиратским контентом.
На текущем этапе судья Брейер затребовал от компании предоставления дополнительной документации и детального описания каждого шага процесса обучения модели, чтобы определить, имело ли место незаконное копирование на промежуточных стадиях разработки.