group-telegram.com/tagir_analyzes/56
Last Update:
Нарушают ли генеративные модели авторское право?
В ноябре 2022 программист-юрист Matthew Butterick вместе с коллективом авторов и юристов подал в суд на Microsoft и GitHub за то, что их GitHub Copilot для генерации кода по запросу использует для обучения миллиарды строк кода из общедоступных репозиториев и полностью игнорирует правила лицензирования Open Source проектов. Matthew, выступая от лица множества пользователей, требует $9 млрд компенсации
Но для начала расскажу, как обучаются генеративные модели: собирается большой массив данных (например, миллионы изображений, предложений или звуков из какой-либо области), а затем модель обучается генерировать такие данные самостоятельно. Подробнее об этом можно почитать на Хабре
А что же сегодня? Этот же коллектив 14го января подал в суд на Stability AI и Midjourney, на две крупнейшие компании, которые занимаются разработкой моделей, позволяющих генерировать изображения на основе текста. В иск добавили и DeviantArt, крупнейшее в мире сообщество художников, использующее изображения пользователей. Энтузиасты собрали в табличке огромный лист artist’ов, которые есть в датасете Midjourney
Joseph Saveri, основатель юридической фирмы, которая представляет интересы истцов, заявляет: «Поскольку развивающиеся технологии продолжают изменять каждый аспект современного мира, крайне важно, чтобы мы признавали и защищали права художников от незаконных краж и мошенничества. Это дело представляет собой самую масштабную борьбу за сохранение прав собственности для всех художников и других создателей»
Их позиция подробно изложена на сайте stablediffusionlitigation.com, а изучить иск можно по этой ссылке. С точки зрения технических аспектов иск составлен не совсем корректно — оно и понятно, люди в этом не разбираются. Например, художники утверждают, что нейросети хранят защищённые авторским правом изображения, а затем «рекомбинируют» их. Но эти модели хранят не изображения, а математические представления узоров, собранных из этих изображений, а после обработки создают изображения с нуля
Интерес заключается в том, что эти компании не зарабатывают денег, а соответственно, не делятся ими. Коллектив не стал разбираться с более крупными OpenAI и DALLE2, которые с первого дня являются коммерческими — вместо этого они судятся с менее защищенными компаниями, которые строятся на open source решениях. Вполне возможно, что всё это инициировано ради внимания
В конечном итоге, искусство так и работает — человек наблюдает за другими работами, вдохновляется, берёт кусочки чужого материала и создаёт что-то своё. Как говорил Пабло Пикассо: «Un artista copia, un gran artista roba», что переводится как «Хорошие художники копируют, великие художники воруют»
Эти два случая могут стать судебными прецедентами, которые будут также влиять при вынесении следующих решений в подобных делах. Лично мне интересно будет понаблюдать за созданием судебной практики в отношении моделей, которые обучаются на публичных данных
А как вы считаете, нарушают ли эти модели авторское право? Пишите об этом в комментариях и вступайте в дискуссии — интересно послушать разные точки зрения
Планирую вводить на канале регулярную рубрику постов, в рамках которой я буду интервьюировать разных людей из Data Science — например, стажеров Google
Пишите в комментариях вопросы, ответы на которые вам было бы интересно получить. Набирайте 120 китов 🐳, а я пойду договариваться с людьми на интервью. И участвуйте в розыгрыше
#news